高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯(cuò)
加入自媒體

2張顯卡即可20FPS流式生成!SoulX-LiveAct開啟“小時(shí)級(jí)”實(shí)時(shí)數(shù)字人交互新時(shí)代

作者:Dingcheng Zhen等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

在數(shù)字人技術(shù)從“實(shí)驗(yàn)室點(diǎn)播”邁向“直播間實(shí)戰(zhàn)”的過程中,行業(yè)始終被兩大陰云籠罩:一是長(zhǎng)時(shí)生成的崩潰,視頻跑著跑著臉就“化”了;二是算力的黑洞,為了維持流暢度往往需要堆砌昂貴的算力集群。

近日,Soul AI團(tuán)隊(duì)發(fā)布了最新開源模型 SoulX-LiveAct。該模型通過創(chuàng)新的 Neighbor Forcing 策略和 ConvKV Memory 機(jī)制,在僅需2張H100/H200顯卡的情況下,實(shí)現(xiàn)了20 FPS的實(shí)時(shí)流式推理,且支持真正意義上的“無(wú)限時(shí)長(zhǎng)”生成,徹底解決了長(zhǎng)視頻生成的顯存爆炸與動(dòng)作漂移問題。

總結(jié)速覽

解決的問題

不一致的學(xué)習(xí)信號(hào):現(xiàn)有的大多數(shù)強(qiáng)制策略在傳播樣本級(jí)表示時(shí),擴(kuò)散狀態(tài)不匹配,導(dǎo)致學(xué)習(xí)信號(hào)不一致和收斂不穩(wěn)定。

推理效率限制:歷史表示無(wú)限制增長(zhǎng)且缺乏結(jié)構(gòu),阻礙了緩存狀態(tài)的有效重用,嚴(yán)重限制了推理效率,無(wú)法實(shí)現(xiàn)真正無(wú)限的視頻生成。

提出的方案

Neighbor Forcing:

提出了一種擴(kuò)散步驟一致的自回歸(AR)公式,將時(shí)間上相鄰的幀作為潛在鄰居在相同的噪聲條件下進(jìn)行傳播。

該設(shè)計(jì)提供了一個(gè)分布對(duì)齊且穩(wěn)定的學(xué)習(xí)信號(hào),同時(shí)在整個(gè)AR鏈中保留了漂移。

通過利用在相同擴(kuò)散步驟下評(píng)估的時(shí)間相鄰幀的潛在局部平滑性,使得AR建模更加容易和穩(wěn)定。

ConvKV Memory:

引入了一種結(jié)構(gòu)化的ConvKV記憶機(jī)制,將因果注意力中的鍵(keys)和值(values)壓縮成固定長(zhǎng)度的表示。

這使得恒定內(nèi)存推理和真正的無(wú)限視頻生成成為可能,而無(wú)需依賴短期運(yùn)動(dòng)幀內(nèi)存。

利用輕量級(jí)一維卷積,在不引入額外架構(gòu)復(fù)雜性的情況下,有效總結(jié)了長(zhǎng)期上下文信息。

應(yīng)用的技術(shù)

自回歸(AR)擴(kuò)散模型:結(jié)合擴(kuò)散建模與因果AR生成,支持流式推理和避免固定長(zhǎng)度限制。

DiT (Diffusion Transformer):SoulX-LiveAct 采用 DiT 模型,并結(jié)合 Flow Matching 技術(shù)。

音頻交叉注意力:用于注入音頻條件,實(shí)現(xiàn)唇部同步和情感表達(dá)。

塊級(jí)AR擴(kuò)散策略:將序列劃分為連續(xù)的塊進(jìn)行生成。

FP8精度、序列并行和操作融合:優(yōu)化實(shí)時(shí)系統(tǒng),提高硬件效率。

Emotion and Action Editing Module:輔助模塊,用于控制面部表情和姿勢(shì)。

達(dá)到的效果

顯著改進(jìn):與現(xiàn)有AR擴(kuò)散方法相比,顯著改善了訓(xùn)練收斂性、小時(shí)級(jí)生成質(zhì)量和推理效率。

實(shí)時(shí)性能:SoulX-LiveAct 能夠?qū)崿F(xiàn)小時(shí)級(jí)實(shí)時(shí)人物動(dòng)畫,在兩塊NVIDIA H100或H200 GPU上支持20 FPS的實(shí)時(shí)流式推理。

SOTA性能:在唇部同步準(zhǔn)確性、人物動(dòng)畫質(zhì)量和情感表達(dá)方面達(dá)到了最先進(jìn)的性能,同時(shí)具有最低的推理成本。

計(jì)算效率:每幀512x512分辨率的計(jì)算成本為27.2 TFLOPs,遠(yuǎn)低于之前的AR擴(kuò)散方法(例如,Live-Avatar的39.1 TFLOPs/幀)。

長(zhǎng)視頻一致性:在長(zhǎng)視頻生成中保持了穩(wěn)定的身份表示和細(xì)粒度細(xì)節(jié),解決了現(xiàn)有方法中常見的身份漂移和細(xì)節(jié)不一致問題。

挑戰(zhàn):實(shí)時(shí)數(shù)字人的“長(zhǎng)跑”難題

目前的自回歸(AR)擴(kuò)散模型在視頻生成上展現(xiàn)了巨大潛力,但在邁向“小時(shí)級(jí)”甚至“無(wú)限時(shí)”實(shí)時(shí)交互時(shí),面臨著兩大瓶頸:

訓(xùn)練不一致性:傳統(tǒng)的Forcing策略在傳播過程中存在擴(kuò)散狀態(tài)不匹配,導(dǎo)致信號(hào)不穩(wěn)定,數(shù)字人容易在長(zhǎng)時(shí)間生成后“崩壞”。

顯存黑洞:隨著生成長(zhǎng)度增加,KV Cache(鍵值緩存)呈線性增長(zhǎng),單卡顯存難以支撐長(zhǎng)達(dá)數(shù)小時(shí)的連續(xù)對(duì)話。

核心突破:Neighbor Forcing 與 ConvKV Memory

為了攻克上述難題,SoulX-LiveAct 提出了兩項(xiàng)核心技術(shù)創(chuàng)新:

Neighbor Forcing:讓每一幀都有“好鄰居”

研究團(tuán)隊(duì)提出了一種擴(kuò)散步一致(diffusion-step-consistent)的自回歸公式。通過將時(shí)間相鄰幀作為“潛在鄰居”,并在相同的噪聲條件下進(jìn)行傳播,確保了學(xué)習(xí)信號(hào)的分布對(duì)齊。這不僅提升了生成的穩(wěn)定性,還讓數(shù)字人的動(dòng)作銜接更加平滑。

ConvKV Memory:告別顯存焦慮

受限于長(zhǎng)程注意力機(jī)制的開銷,SoulX-LiveAct 引入了結(jié)構(gòu)化的 ConvKV 存儲(chǔ)機(jī)制。它將因果注意力中的鍵(Keys)和值(Values)壓縮為固定長(zhǎng)度的表示,使得推理時(shí)的顯存占用保持恒定。無(wú)論生成的視頻是1分鐘還是1小時(shí),顯存消耗始終在掌控之中。

性能表現(xiàn):不僅是快,更是極致的穩(wěn)

在多項(xiàng)基準(zhǔn)測(cè)試中,SoulX-LiveAct 展現(xiàn)出了統(tǒng)治級(jí)的表現(xiàn):

實(shí)時(shí)流式推理:在雙卡(H100/H200)環(huán)境下達(dá)到 20 FPS,滿足高頻交互需求。

極致一致性:支持小時(shí)級(jí)別的連續(xù)生成,身份特征(Identity)穩(wěn)定,細(xì)節(jié)不“掉件”,不會(huì)出現(xiàn)常見的面部扭曲或著裝突變。

多模態(tài)驅(qū)動(dòng):支持圖像、音頻及文本指令驅(qū)動(dòng),能夠生成表情生動(dòng)、情緒可控且擁有豐富全身動(dòng)作的數(shù)字人。

實(shí)驗(yàn)結(jié)果:刷新 SOTA 榜單

量化指標(biāo)顯示,SoulX-LiveAct 在唇形同步準(zhǔn)確度(Lip-sync Accuracy)、人體動(dòng)畫質(zhì)量以及情緒表達(dá)力上均達(dá)到了 SOTA 水平,且推理成本遠(yuǎn)低于同類模型。

原理詳解 -- 深度解析SoulX-LiveAct 的底層邏輯:如何重構(gòu)生成范式?

如果說(shuō)之前的技術(shù)是在“縫補(bǔ)”舊框架,SoulX-LiveAct 則是直接在擴(kuò)散模型(Diffusion Models)的根基上動(dòng)了手術(shù)。

Neighbor Forcing:從“自顧自”到“步調(diào)一致”

在自回歸視頻生成中,每一幀的生成都依賴于前一幀。傳統(tǒng)的 Teacher Forcing 存在一個(gè)隱形殺手:擴(kuò)散步偏移。

技術(shù)痛點(diǎn):通常模型在訓(xùn)練時(shí),第 t 幀和第 t-1 幀往往處于不同的噪聲水平。推理時(shí),前一幀的微小噪聲預(yù)測(cè)偏差會(huì)迅速放大。

SoulX-LiveAct 的解法:我們提出了鄰域強(qiáng)迫策略。在訓(xùn)練階段,強(qiáng)行讓相鄰幀處于相同的擴(kuò)散時(shí)間步 s。

數(shù)學(xué)直覺:通過這種設(shè)計(jì),模型學(xué)習(xí)到的不再是單一幀的去噪,而是相鄰幀之間的條件聯(lián)合分布。這相當(dāng)于給模型建立了一個(gè)“局部信任域”,確保了在推理無(wú)限長(zhǎng)序列時(shí),每一幀都在前一幀的“穩(wěn)健預(yù)測(cè)范圍”內(nèi),從而徹底杜絕了面部崩壞。

ConvKV Memory:從“無(wú)限增長(zhǎng)”到“空間折疊”

Transformer 架構(gòu)最令人頭疼的就是其注意力機(jī)制的計(jì)算復(fù)雜度隨長(zhǎng)度增長(zhǎng)。對(duì)于實(shí)時(shí)數(shù)字人,這無(wú)異于自殺。

傳統(tǒng)做法:緩存所有歷史幀的 Key 和 Value,顯存隨時(shí)間“爆炸”。

SoulX-LiveAct 的解法:我們引入了基于卷積的鍵值記憶網(wǎng)絡(luò)(ConvKV)。它并不是粗暴地丟棄歷史,而是進(jìn)行空間與維度的重組。

時(shí)域壓縮:利用深度可分離卷積(Depthwise Conv)對(duì)舊的 KV 緩存進(jìn)行下采樣,將冗余的背景、靜止像素信息壓縮。

因果對(duì)齊:通過因果掩碼(Causal Masking)確保壓縮后的記憶只包含過去的語(yǔ)義,而不泄露未來(lái)信息。

工程意義:這種設(shè)計(jì)將注意力機(jī)制從 O()降低到了 O(1) 的常數(shù)級(jí)顯存開銷。無(wú)論對(duì)話進(jìn)行了 10 秒還是 10 小時(shí),模型始終只需處理固定大小的“記憶塊”。

開源與未來(lái)

Soul AI 團(tuán)隊(duì)致力于推動(dòng)數(shù)字人技術(shù)的普惠化。目前,SoulX-LiveAct 已全面開源,包括技術(shù)報(bào)告、代碼及預(yù)訓(xùn)練模型。

參考文獻(xiàn)

[1] SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory

       原文標(biāo)題 : 2張顯卡即可20FPS流式生成!SoulX-LiveAct開啟“小時(shí)級(jí)”實(shí)時(shí)數(shù)字人交互新時(shí)代

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)

    丹东市| 顺昌县| 新民市| 峨眉山市| 泸定县| 潢川县| 彩票| 大英县| 东阿县| 神池县| 巴中市| 新河县| 瑞昌市| 玛曲县| 西和县| 宁河县| 体育| 达尔| 内江市| 潜江市| 台南市| 贡觉县| 万州区| 民和| 类乌齐县| 余庆县| 岚皋县| 金乡县| 渝中区| 千阳县| 丰县| 沽源县| 大邑县| 神池县| 竹溪县| 邵阳市| 满洲里市| 资阳市| 英超| 丹江口市| 玉龙|