婷婷涩丁香,中文字幕精品人妻一区

真“六邊形戰(zhàn)士”！Capybara把圖像視頻全打通：一個模型搞定T2I、T2V、I2V！

2026-03-16 16:20

作者：Capybara 團隊

解讀：AI生成未來

亮點直擊

統(tǒng)一的視覺創(chuàng)作模型 Capybara：針對當(dāng)前視覺內(nèi)容創(chuàng)作領(lǐng)域高度碎片化（單一模態(tài)、功能割裂、接口不兼容）的問題，本文提出了Capybara，一個統(tǒng)一的視覺創(chuàng)作基礎(chǔ)模型。該模型能夠在單一框架下同時支持圖像/視頻的生成與編輯任務(wù)。

實現(xiàn)了真正的多模態(tài)統(tǒng)一接口： Capybara的核心創(chuàng)新在于其共享的多模態(tài)條件接口。單個模型能夠接收包含文本、圖像、視頻在內(nèi)的多種模態(tài)上下文輸入，并通過改變輸入的上下文和指令來實現(xiàn)多樣化的創(chuàng)作行為，無需切換架構(gòu)或訓(xùn)練多個專用模型。

整合并統(tǒng)一了四大類核心創(chuàng)作任務(wù)：本文將分散的創(chuàng)作功能統(tǒng)一到一個框架下，包括：

1. 文本到圖像/視頻生成。

2. 上下文生成：基于草圖、主體參考、起始幀等視覺條件進行生成。

3. 基于指令的編輯：通過文本指令編輯圖像/視頻，并首次將密集預(yù)測任務(wù)視為其特例。

4. 上下文編輯：由額外的視覺參考、風(fēng)格示例或多模態(tài)上下文驅(qū)動的編輯，如關(guān)鍵幀傳播。

重構(gòu)了視覺創(chuàng)作的范式：本文將視覺創(chuàng)作重新定義為在統(tǒng)一主干網(wǎng)絡(luò)下對文本條件和多模態(tài)示例的組合。這種設(shè)計不僅支持靜態(tài)和動態(tài)內(nèi)容創(chuàng)作，還能靈活地組合文本意圖與視覺上下文。

展示了強大的可擴展性與應(yīng)用潛力：該框架能夠自然擴展到長視頻編輯，在高吞吐量支持下可進一步實現(xiàn)流式視頻編輯。其統(tǒng)一的接口還支持組合式的多模態(tài)工作流程，例如在一個請求中混合使用圖像和視頻作為參考，以同時捕捉身份、運動和結(jié)構(gòu)信息，實現(xiàn)更靈活的創(chuàng)作。

總結(jié)速覽

解決的問題

當(dāng)前視覺內(nèi)容創(chuàng)作領(lǐng)域存在高度碎片化的問題：現(xiàn)有工作多聚焦于單一模態(tài)（如圖像或視頻）或僅實現(xiàn)部分創(chuàng)作功能（如僅生成或僅編輯）。這導(dǎo)致解決方案彼此割裂、接口互不兼容，且上下文條件（如草圖、參考幀）往往作為任務(wù)特定的附加模塊引入，難以構(gòu)建一個支持多樣化多模態(tài)輸入、具備統(tǒng)一創(chuàng)作流程的單一系統(tǒng)。

提出的方案

提出Capybara，一個統(tǒng)一的視覺創(chuàng)作基礎(chǔ)模型。該模型通過共享的多模態(tài)條件接口，將分散的生成與編輯任務(wù)整合到單一框架中。其核心設(shè)計是：單個模型接收包含文本、圖像和視頻的多模態(tài)上下文輸入，并通過改變所提供的上下文和指令來表達多樣化的創(chuàng)作任務(wù)，無需切換架構(gòu)或訓(xùn)練獨立的專用模型。

應(yīng)用的技術(shù)

統(tǒng)一的條件接口：將視覺創(chuàng)作統(tǒng)一到單一的條件包中，包含（1）文本輸入、（2）主要視覺上下文（圖像/視頻/起始幀）、（3）可選輔助條件（風(fēng)格示例/草圖/深度圖等）。

多模態(tài)上下文學(xué)習(xí)：支持在統(tǒng)一主干網(wǎng)絡(luò)下，對文本條件和多模態(tài)示例進行組合。

四大任務(wù)框架：通過同一接口支持（1）文本到圖像/視頻生成、（2）基于視覺上下文的生成（如草圖/參考幀）、（3）基于指令的編輯（文本引導(dǎo)的編輯，含密集預(yù)測）、（4）上下文編輯（視覺參考驅(qū)動的編輯，如關(guān)鍵幀傳播）。

達到的效果

功能統(tǒng)一：成功將生成與編輯、圖像與視頻任務(wù)統(tǒng)一于單一模型，實現(xiàn)了跨模態(tài)的一致性變換。

靈活創(chuàng)作：能夠靈活組合文本意圖與視覺上下文，支持靜態(tài)（圖像）和動態(tài)（視頻）內(nèi)容的創(chuàng)作。

強擴展性：框架自然擴展到長視頻編輯，高吞吐量下可支持流式視頻編輯；同時支持組合式多模態(tài)工作流（如在單次請求中混合圖像/視頻作為參考），為靈活的多任務(wù)創(chuàng)作提供了基礎(chǔ)。

數(shù)據(jù)

為支持統(tǒng)一的視覺創(chuàng)作，構(gòu)建了一個聯(lián)合的圖像-視頻語料庫，為文本到圖像/視頻生成、上下文生成、基于指令的編輯以及上下文編輯提供訓(xùn)練信號。因此，我們的數(shù)據(jù)既包含用于從零開始的合成的標(biāo)準(zhǔn)文本-圖像/視頻對，也包含包含文本與視覺輸入的上下文豐富的元組：用于基于參考主體的圖像/視頻生成的主體參考、用于基于條件控制的圖像/視頻生成（例如，草圖、布局、姿態(tài)、深度/邊緣圖）的視覺提示或結(jié)構(gòu)化控制、用于圖像生成視頻的以起始幀為條件的剪輯、用于基于指令編輯的成對源-指令-目標(biāo)示例，以及用于上下文編輯的參考驅(qū)動的編輯元組（源加上一個或多個視覺范例）。對于傳播任務(wù)，從 TV2V 數(shù)據(jù)集中隨機采樣數(shù)據(jù)作為我們的訓(xùn)練數(shù)據(jù)。

采用系統(tǒng)性的多階段處理工作流程，將異構(gòu)的原始數(shù)據(jù)集合轉(zhuǎn)化為高質(zhì)量的訓(xùn)訓(xùn)練數(shù)據(jù)。該流程包括：（1）質(zhì)量過濾：使用自動化分類器移除有缺陷的內(nèi)容（模糊、偽影、有害材料）和額外疊加元素（水印、字幕）；（2）語義去重：通過基于嵌入的聚類保留多樣化、非冗余的樣本；（3）分布再平衡：確保在主體類別、場景類型和視覺屬性上有足夠的代表性；（4）密集重述：使用在高質(zhì)量標(biāo)注上訓(xùn)練的雙語（中文/英文）視覺語言模型，生成對動態(tài)元素（運動、攝像機運動）和靜態(tài)特征（外觀、美學(xué)、風(fēng)格）的詳細描述。特別是針對編輯任務(wù)，我們開發(fā)了大規(guī)模合成流程，以生成配對數(shù)據(jù)（源圖像/視頻、編輯結(jié)果、指令）。

模型設(shè)計與訓(xùn)練

統(tǒng)一架構(gòu)：將理解與生成解耦

為了構(gòu)建一個統(tǒng)一的視覺創(chuàng)作模型，核心挑戰(zhàn)在于接收各種上下文輸入：文本、圖像和視頻，并將它們?nèi)诤系揭粋€能夠驅(qū)動生成和編輯的單一條件空間中。因此，我們選擇了一種雙流解耦架構(gòu)，將多模態(tài)理解與基于擴散的合成分離開來：一個語義感知模塊專注于處理用戶輸入和對多模態(tài)上下文進行推理，而一個視覺融合模塊則將對齊后的語義和視覺特征整合到去噪主干網(wǎng)絡(luò)中，以進行高保真度合成。通過將理解與生成在結(jié)構(gòu)上解耦，避免強制一組模塊同時執(zhí)行高層級解釋和低層級去噪，從而使單個模型能夠通過簡單地改變提供的上下文和指令來支持多樣化的創(chuàng)作任務(wù)。

語義模塊 提出的語義模塊將各種條件（例如，文本、圖像和視頻）整合到一個統(tǒng)一的潛在表示中。該模塊執(zhí)行上下文推理以提取特定于意圖的特征，同時在結(jié)構(gòu)上與去噪網(wǎng)絡(luò)保持隔離。這種設(shè)計提供了一個強大的語義先驗，指導(dǎo)生成過程嚴(yán)格遵循用戶的創(chuàng)作意圖。

視覺模塊 視覺模塊負(fù)責(zé)擴散去噪過程以及精細像素級條件的精確整合。作為對來自語義模塊的高層級指導(dǎo)的補充，視覺模塊整合了細粒度的視覺條件。這種架構(gòu)將生成能力導(dǎo)向忠實的重建和時空一致性，確保在統(tǒng)一框架內(nèi)嚴(yán)格遵守多模態(tài)約束。

擴散變換器主干網(wǎng)絡(luò) 本模型從預(yù)訓(xùn)練的 Hunyuan-Video 1.5 初始化，繼承了其變分自編碼器、擴散變換器架構(gòu)和時空建模能力。在此基礎(chǔ)之上，我們引入了一種雙流解耦建模設(shè)計：語義模塊將所有條件輸入處理成統(tǒng)一的表示，而視覺模塊則專注于處理低層級特征。這種架構(gòu)修改使得靈活的多條件建模成為可能，同時保留了預(yù)訓(xùn)練帶來的強大生成先驗。

訓(xùn)練策略

為了建立一個統(tǒng)一的視覺生成框架，采用了一種漸進的三階段訓(xùn)練方案。該策略旨在系統(tǒng)地應(yīng)對與統(tǒng)一各種任務(wù)和條件信號相關(guān)的獨特挑戰(zhàn)。訓(xùn)練軌跡使模型從穩(wěn)健的重建發(fā)展到廣泛的多任務(wù)泛化，最終實現(xiàn)高保真度的指令對齊。

第一階段：重建與上下文生成訓(xùn)練。 從強大的生成先驗（從 HunyuanVideo-1.5 初始化）開始。目標(biāo)是確保語義模塊產(chǎn)生的條件信號能夠被視覺模塊可靠地使用而不會導(dǎo)致性能下降，這對于未編輯區(qū)域必須保持一致的編輯任務(wù)尤其關(guān)鍵。此外，我們還訓(xùn)練了標(biāo)準(zhǔn)和上下文生成任務(wù)（基于參考主體的圖像/視頻生成、基于條件控制的圖像/視頻生成、圖像生成視頻）的混合，以引入像素級條件能力。

第二階段：編輯任務(wù)訓(xùn)練。 在第一階段為生成任務(wù)建立了穩(wěn)定的多模態(tài)條件接口之后，我們將訓(xùn)練擴展到在相同統(tǒng)一框架下的編輯任務(wù)。具體來說，我們引入了基于指令的編輯（文本引導(dǎo)的圖像/視頻編輯），包括作為特例的密集預(yù)測，其中指令要求生成與輸入內(nèi)容對齊的結(jié)構(gòu)化輸出。我們進一步擴展到由額外視覺參考、風(fēng)格/主體示例以及結(jié)構(gòu)化或區(qū)域特定引導(dǎo)驅(qū)動的上下文編輯（基于參考的圖像/視頻編輯、跨視頻編輯），并包含了傳播序列，其中稀疏的已編輯關(guān)鍵幀監(jiān)督著跨更長視頻的時間一致性變化傳遞。

第三階段：質(zhì)量微調(diào)。 最后，執(zhí)行質(zhì)量微調(diào)以改善在生成和編輯任務(wù)中的指令遵循度、視覺保真度和時間穩(wěn)定性。此階段側(cè)重于困難案例，如細粒度的編輯局部性、身份/外觀保持、復(fù)雜的多模態(tài)約束以及長程時間一致性。我們收集更高質(zhì)量和更難處理的示例，并應(yīng)用有針對性的微調(diào)以減少偽影并加強輸入與輸出之間的對齊。

智能體輔助的視覺創(chuàng)作

對于迭代式視頻編輯，采用了一種包含智能體在環(huán)的閉環(huán)流程：規(guī)劃 → 編輯 → 評估/診斷 → 優(yōu)化。智能體將高層級意圖轉(zhuǎn)化為編輯計劃，定義要更改的內(nèi)容（內(nèi)容/風(fēng)格/運動）和要保留的內(nèi)容，并附帶關(guān)于身份、局部性和時間范圍的約束。然后，它調(diào)用視頻編輯器（例如，文本到視頻/視頻到視頻，可選擇使用遮罩/框、參考或按片段調(diào)度）來生成候選剪輯片段。

一個評估模塊使用一小組指標(biāo)對結(jié)果進行評分——目標(biāo)對齊度、主體一致性、時間穩(wěn)定性和約束滿足度——并輸出結(jié)構(gòu)化反饋，指出不正確的更改以及出現(xiàn)偽影的位置。智能體將此反饋轉(zhuǎn)化為更精確的指令和更新的控制項（提示詞修改、強度調(diào)度、時間窗口、區(qū)域約束、錨點），并進行幾輪迭代，直到指標(biāo)穩(wěn)定或達到閾值。這是通過顯式診斷進行的迭代式引導(dǎo)，而不是一次性提示。

結(jié)論

Capybara，一個統(tǒng)一的視覺創(chuàng)作基礎(chǔ)模型，它有效地彌合了靜態(tài)與動態(tài)內(nèi)容生成之間的鴻溝。通過統(tǒng)一從文本到圖像到復(fù)雜視頻編輯的多種范式，Capybara在精確的指令遵循、結(jié)構(gòu)穩(wěn)定性和逼真的視覺質(zhì)量方面表現(xiàn)出色。展示了在原生統(tǒng)一架構(gòu)、內(nèi)在的3D感知機制以及全面的多任務(wù)訓(xùn)練策略方面的核心技術(shù)革新，這些技術(shù)被有效地整合在一起，構(gòu)建了一個穩(wěn)健且通用的系統(tǒng)。它在處理復(fù)雜多條件場景、維持符合物理規(guī)律的時間連貫性，以及為全視覺創(chuàng)作實現(xiàn)無縫的專業(yè)級工作流程方面，展現(xiàn)出了卓越的能力。

參考文獻

[1]CAPYBARA: A Unified Visual Creation Model

原文標(biāo)題 : 真“六邊形戰(zhàn)士”！Capybara把圖像視頻全打通：一個模型搞定T2I、T2V、I2V！

Capybara 視頻圖像