操二十七八岁的少妇,九九热视频在线观看色

“世界模型”到底是個啥？OpenWorldLib一錘定音：感知+交互+記憶，這才叫理解世界的AI！

2026-04-09 15:12

AI生成未來

關(guān)注

作者：Bohan Zeng等

解讀：AI生成未來

亮點直擊

標(biāo)準(zhǔn)化定義：針對學(xué)術(shù)界對“世界模型”定義的模糊性，本文提出了一個清晰的定義：以感知為中心，具備交互和長期記憶能力，用于理解和預(yù)測復(fù)雜世界的模型或框架。

統(tǒng)一推理框架：開發(fā)了 OpenWorldLib，將交互式視頻生成、3D 生成、多模態(tài)推理和視覺-語言-動作（VLA）等多種任務(wù)集成在統(tǒng)一的工程實現(xiàn)下。

能力系統(tǒng)化分類：系統(tǒng)地梳理了世界模型應(yīng)具備的核心能力，并明確劃分了哪些任務(wù)（如純文本轉(zhuǎn)視頻）不應(yīng)被歸類為真正的世界模型研究。

解決的問題

目前世界模型研究雖然火熱，但存在兩個核心痛點：

定義不一：研究者對世界模型的邊界缺乏共識，導(dǎo)致許多生成任務(wù)（如 Sora）被誤認(rèn)為完整的世界模擬器。

工程分散：不同類型的世界模型任務(wù)（感知、預(yù)測、動作）往往使用完全不同的底層架構(gòu)和推理流程，難以協(xié)同工作。

提出的方案與應(yīng)用技術(shù)

本工作提出了 OpenWorldLib 框架，其核心設(shè)計包含以下五個功能模塊及一個調(diào)度中心：

Operator（算子模塊）：負(fù)責(zé)多模態(tài)輸入的標(biāo)準(zhǔn)化預(yù)處理與校驗。

Synthesis（合成模塊）：涵蓋視覺（視頻/圖像）、音頻以及物理信號（如 VLA 控制指令）的生成，實現(xiàn)模型的隱式表示。

Reasoning（推理模塊）：包含通用多模態(tài)推理、空間推理及音頻推理，使模型能理解復(fù)雜的物理規(guī)律。

Representation（表示模塊）：支持 3D 重建和仿真環(huán)境接口，提供顯式的物理世界結(jié)構(gòu)信息。

Memory（記憶模塊）：管理長期交互歷史，支持上下文檢索、壓縮和狀態(tài)更新。

Pipeline：作為頂層調(diào)度 entry，協(xié)調(diào)各模塊完成單次或多輪流式交互任務(wù)。

達(dá)到的效果

OpenWorldLib 成功標(biāo)準(zhǔn)化的調(diào)用了包括 Cosmos、Hunyuan、VGGT 和在內(nèi)的多種前沿模型，在交互式視頻生成、3D 場景重建、復(fù)雜空間推理和具身智能（VLA）任務(wù)中實現(xiàn)了高效的協(xié)同推理。

背景與相關(guān)工作

世界模型通常由三個核心條件概率分布定義：

其中表示隱狀態(tài)，其本質(zhì)上整合了記憶存儲，用以管理復(fù)雜任務(wù)的長程依賴；代表時刻的動作，來自于已被拓寬至涵蓋多樣化操作和特定任務(wù)輸出（如生成和操縱）的動作空間；是感知觀測（例如視覺、音頻或本體感受）；而是通過動作與環(huán)境交互獲得的獎勵。

盡管這些公式被廣泛使用，但許多任務(wù)在形式上雖然滿足此類條件概率分布，卻并未真正服務(wù)于世界模型的核心目的。這些任務(wù)往往與世界模型研究混為一談，或被籠統(tǒng)地貼上其標(biāo)簽。因此，在本節(jié)中，本工作結(jié)合前人提出的定義以及本文倡導(dǎo)的觀點，清晰地劃定哪些任務(wù)屬于真正的世界模型研究范疇，哪些則不然。

世界模型相關(guān)任務(wù)

交互式視頻生成。下一幀預(yù)測被世界模型研究者視為最受認(rèn)可的范式，確立了交互式視頻生成作為該領(lǐng)域研究的主要重心。早期方法主要依賴基于回歸的模型來預(yù)測后續(xù)幀。最近，該領(lǐng)域已轉(zhuǎn)向利用擴(kuò)散模型以實現(xiàn)更高質(zhì)量的交互式視頻生成，統(tǒng)一的多模態(tài)方法進(jìn)一步提升了生成的保真度和可控性。隨著擴(kuò)散模型推理速度的加快，游戲視頻生成和相機控制的視頻生成已成為一個特別引人注目的領(lǐng)域。此外，視頻預(yù)測范式已成功集成到視覺-語言-動作（VLA）模型和自動駕駛系統(tǒng)中。通過引入下一幀預(yù)測估計，這些模型在預(yù)測能力上的穩(wěn)定性和魯棒性得到了顯著增強。然而，雖然交互式視頻生成仍是當(dāng)前世界模型研究的基石，但值得注意的是，下一幀預(yù)測并非唯一的實現(xiàn)范式�？紤]到世界模型的終極目標(biāo)是促進(jìn)在復(fù)雜環(huán)境中的長期交互，探索替代或互補的表示范式同樣至關(guān)重要。

多模態(tài)推理。世界模型的關(guān)鍵能力在于對復(fù)雜物理世界的深刻理解；因此，多模態(tài)推理是世界模型能力的關(guān)鍵體現(xiàn)。與世界模型緊密相關(guān)的多模態(tài)推理任務(wù)不僅涵蓋空間推理和全能推理，還包括時間推理、因果推理。近期，除了傳統(tǒng)的顯式推理方法，利用隱式推理分析真實世界中的復(fù)雜動力學(xué)已成為一個顯著的研究熱點。通過擺脫大語言模型（LLMs）傳統(tǒng)的以文本為中心的預(yù)訓(xùn)練范式，隱式推理機制使模型能夠更有效地攝取和處理真實世界中固有的復(fù)雜、高維且連續(xù)的信息。

視覺-語言-動作。世界模型的最終目標(biāo)是使智能體能夠與物理世界交互，而具身設(shè)備是與復(fù)雜環(huán)境交互的主要代表。因此，視覺-語言-動作（VLA）已成為世界模型必須支持的一項關(guān)鍵能力。在機器人臂操縱領(lǐng)域，近期的研究主要遵循兩條路徑：利用多模態(tài)大語言模型（MLLMs）直接預(yù)測動作，或者將動作預(yù)測與視頻生成相結(jié)合，通過未來幀預(yù)測來輔助動作規(guī)劃。此外，這種 VLA 范式正被廣泛應(yīng)用于更復(fù)雜的具身場景，包括動力學(xué)極度復(fù)雜且難以控制的移動機器人，以及在極其廣闊的環(huán)境中運行的自動駕駛系統(tǒng)，從而推進(jìn)了模型在真實世界中的閉環(huán)交互能力。

3D與模擬器在世界模型中的作用

除了直接依賴可觀測感知的任務(wù)外，世界模型的一個關(guān)鍵部分涉及處理虛擬環(huán)境。為了確保物理空間在長期交互過程中保持一致，研究人員經(jīng)常使用模擬器讓模型以結(jié)構(gòu)化的方式學(xué)習(xí)。雖然交互式視頻生成創(chuàng)造了對未來的視覺猜測，但 3D 表示提供了一個可以嚴(yán)格遵循物理規(guī)則的可驗證環(huán)境。

在此背景下，3D 生成與重建對于維持穩(wěn)定的世界狀態(tài)至關(guān)重要。近期工作如 VGGT、InfiniteVGGT 和 OmniVGGT 使用視覺幾何導(dǎo)向的 Transformer 將圖像輸入與真實的幾何結(jié)構(gòu)聯(lián)系起來。為了處理來自真實世界的連續(xù)數(shù)據(jù)，一些模型現(xiàn)在維持著持久的 3D 狀態(tài)，或利用混合記憶進(jìn)行長上下文重建，確保即使在智能體移動時環(huán)境也保持不變。此外，度量 3D 重建、深度估計和廣角視圖合成中的新方法允許世界模型從任何相機角度恢復(fù)準(zhǔn)確的物理空間。通過學(xué)習(xí)置換等變（permutation-equivariant）視覺幾何，這些模型可以在不同類型的物理設(shè)置中更好地工作。

此外，模擬器充當(dāng)了世界模型的“沙盒”，幫助它們從抽象思考轉(zhuǎn)向真實的物理動作。為了使這些模擬器能夠?qū)崟r工作，快速的場景生成是必要的。例如，F(xiàn)lashWorld 和 Hunyuan 系列可以在極短的時間內(nèi)創(chuàng)建高質(zhì)量的 3D 場景或資產(chǎn)，為世界模型提供了一個即時測試其想法的場所。近期的調(diào)查還探索了在這些 3D 生成過程中進(jìn)行強化學(xué)習(xí)的潛力。通過使用這些顯式的 3D 表示和模擬工具，世界模型可以超越僅僅預(yù)測像素，真正理解真實世界的物理規(guī)律。

不被視為世界模型的方法

除了與世界模型相關(guān)的任務(wù)外，某些應(yīng)用雖未真正反映世界模型的能力，卻頻繁出現(xiàn)在類似的討論中�；诒疚牡墓胶蛯κ澜缒Ｐ偷木唧w定義，本節(jié)明確了哪些任務(wù)不屬于這一類別。

一個突出的誤解例子是文本轉(zhuǎn)視頻生成。當(dāng) Sora 發(fā)布時，許多人將其標(biāo)記為“世界模擬器”。然而，有觀點認(rèn)為 Sora 并不構(gòu)成一個完整的世界模擬器。雖然下一幀預(yù)測經(jīng)常與世界模型聯(lián)系在一起，但本文的定義強調(diào)，關(guān)鍵不在于輸出格式，而在于模型是否利用多模態(tài)輸入來分析和識別環(huán)境。下一幀預(yù)測僅作為一種格式。真正重要的是模型是否準(zhǔn)確地理解復(fù)雜的物理規(guī)律并與世界交互。文本轉(zhuǎn)視頻生成缺乏這種復(fù)雜的感知輸入。盡管生成視頻展示了對物理的一定理解，但它仍處于世界模型核心任務(wù)之外。

類似地，一些任務(wù)如代碼生成或網(wǎng)頁搜索，借用了世界模型的長期交互結(jié)構(gòu)用于其他領(lǐng)域。然而，這些任務(wù)通常缺乏多模態(tài)輸入，且不涉及理解物理世界。雖然將這種結(jié)構(gòu)應(yīng)用于新領(lǐng)域帶來了有趣的機遇，但這些任務(wù)并不符合真正的世界模型標(biāo)準(zhǔn)。

即便是一些實際上涉及多模態(tài)和長期交互的應(yīng)用，如化身（avatar）視頻生成，也不一定符合定義。這些任務(wù)主要聚焦于娛樂，由于它們與探索或理解復(fù)雜的物理世界關(guān)系不大，因此不代表世界模型的主要關(guān)注點。

OpenWorldLib 框架設(shè)計

基于前面，世界模型需要具備以下能力：接收來自復(fù)雜物理世界的輸入、理解物理世界、在交互過程中維持長期記憶，并支持多模態(tài)輸出。盡管已有研究提出過統(tǒng)一世界模型框架的設(shè)計，但其缺乏具體的工程實現(xiàn)乃至統(tǒng)一的標(biāo)準(zhǔn)。本節(jié)詳細(xì)介紹了 OpenWorldLib 框架的具體設(shè)計，如圖 2 所示。

Operator（算子模塊）

在 OpenWorldLib 框架中，Operator 模塊充當(dāng)了原始用戶輸入（或環(huán)境信號）與核心執(zhí)行模塊（合成、推理和表示）之間的關(guān)鍵橋梁。由于世界模型必須處理來自物理世界的復(fù)雜、多模態(tài)輸入——如文本提示詞、圖像、連續(xù)控制動作和音頻信號——Operator 旨在對這些多樣的輸入流進(jìn)行標(biāo)準(zhǔn)化。

具體而言，當(dāng) Pipeline 被調(diào)用時，它會將原始輸入通過 Operator 的 process() 方法進(jìn)行路由。Operator 負(fù)責(zé)兩項主要功能：

校驗：確保輸入數(shù)據(jù)的格式、形狀和類型滿足下游模型的要求。

預(yù)處理：將原始信號轉(zhuǎn)換為標(biāo)準(zhǔn)化的張量表示或結(jié)構(gòu)化格式（例如，調(diào)整圖像大小、對文本進(jìn)行標(biāo)記化或?qū)幼骺臻g進(jìn)行歸一化）。

為了方便集成新的世界模型方法，本文定義了一個統(tǒng)一的 Operator 模板。所有特定任務(wù)的算子都繼承自此基類，確保整個代碼庫擁有統(tǒng)一的 API。Operator 的定義見清單1。

Synthesis 模塊

如圖3中的隱式表示部分所示，世界模型的一項核心能力是利用內(nèi)部學(xué)習(xí)到的動力學(xué)，通過環(huán)境反饋生成視覺、聽覺和其他感官結(jié)果。本文將這種隱式生成過程定義為模型的隱式表示。在 OpenWorldLib 框架中，Synthesis 模塊充當(dāng)了上游流水線的標(biāo)準(zhǔn)化條件與用戶、模擬器或機器人棧實際消費的多模態(tài)輸出（視覺、聽覺和具身動作）之間的生成橋梁。由于世界模型必須不僅將預(yù)測實現(xiàn)為內(nèi)部狀態(tài)，還要實現(xiàn)為可觀測的媒體和可執(zhí)行的指令，因此 Synthesis 模塊托管了異構(gòu)的生成后端，同時保持了跨模態(tài)的一致集成模式。

具體而言，當(dāng) Pipeline 運行生成路徑時，它會將算子對齊的輸入傳遞給相應(yīng)的合成后端，后者在特定模態(tài)的控制下進(jìn)行推理，并返回結(jié)構(gòu)化的偽影以及用于導(dǎo)出、評估或記憶的簡明元數(shù)據(jù)。以下子節(jié)將展開介紹該模塊的視覺、音頻及其他物理信號合成分支。

視覺合成

視覺合成層涵蓋了 OpenWorldLib 中面向圖像和視頻的生成：它將結(jié)構(gòu)化的條件（如文本提示詞、參考圖像或場景級規(guī)格）轉(zhuǎn)化為光柵輸出（幀張量、解碼后的剪輯或 API 返回的資產(chǎn)），并附帶元數(shù)據(jù)。通過這種方式，框架可以提供場景隨時間演變的直觀預(yù)測，這對于交互式模擬、定性檢查以及一眼對比備選未來或相機路徑至關(guān)重要。

在實踐中，視覺合成層圍繞以下職責(zé)進(jìn)行組織：

生成棧組合：將文本編碼器、隱式解碼器以及基于擴(kuò)散或流匹配的核心與適合每項任務(wù)的調(diào)度器或求解器相結(jié)合，并暴露空間分辨率、時間范圍（幀預(yù)算）和引導(dǎo)類參數(shù)的調(diào)節(jié)旋鈕。集成界面：支持由檢查點驅(qū)動的流水線（從預(yù)訓(xùn)練資源統(tǒng)一構(gòu)建和無梯度推理）以及通過端點和憑據(jù)進(jìn)行身份驗證的托管服務(wù)封裝器，使得本地和遠(yuǎn)程生成器共享相同的概念調(diào)用模式。音頻合成

音頻合成層

專注于在結(jié)構(gòu)化條件下生成連續(xù)波形。其角色是提供多模態(tài)輸出的聽覺側(cè)，使場景不局限于無聲視頻或僅文本的反饋，這對于感知豐富的環(huán)境以及判斷聲音與視覺之間的對齊至關(guān)重要。

具體而言，音頻合成層履行以下角色：

資源裝配：通過單一的工廠風(fēng)格入口點實例化神經(jīng)音頻生成器及任何輔助模塊，并具有明確的設(shè)備和可重復(fù)性設(shè)置。

條件波形合成：通過統(tǒng)一的推理入口點將算子準(zhǔn)備的張量和提示詞映射到音頻輸出。

其他信號合成

除了視覺和音頻模態(tài)外，與環(huán)境的全面交互還要求世界模型生成多樣的物理信號。其中，動作控制證明是極其關(guān)鍵的。OpenWorldLib 因此在該模塊內(nèi)重點強調(diào)了視覺-語言-動作（VLA）信號生成。該合成層針對具身任務(wù)量身定制，并實現(xiàn)以下功能：

策略初始化與空間對齊：從預(yù)訓(xùn)練權(quán)重加載專門的物理策略，將多樣的動作表示映射到與目標(biāo)模擬器或機器人硬件兼容的統(tǒng)一接口。

上下文條件動作合成：將豐富的多模態(tài)上下文（如實時視覺流、文本目標(biāo)和本體感受歷史）轉(zhuǎn)化為落地的物理指令。

Reasoning 模塊

從圖3的隱式表示部分來看，世界模型必須超越單純的感知去理解物理世界：在任何下游生成或動作發(fā)生之前，推斷空間關(guān)系、整合多模態(tài)上下文并生成落地的語義解釋。為此，OpenWorldLib 引入了一個專門的 Reasoning 模塊。具體而言，Reasoning 模塊組織為三個子類：

通用推理：能夠以統(tǒng)一方式處理文本、圖像、音頻和視頻的多模態(tài)大語言模型（MLLMs）。

空間推理：專門從視覺觀測中進(jìn)行 3D 空間理解和物體定位的模型。

音頻推理：解釋并對聽覺信號進(jìn)行推理的模型。

為了促進(jìn)新的面向推理的世界模型方法的集成，定義了一個統(tǒng)一的 BaseReasoning 模板。所有特定于任務(wù)的推理類都繼承自這個基類，確保整個代碼庫的 API 一致。BaseReasoning 的定義如清單 3 所示。

Representation 模塊

除了利用內(nèi)部能力理解世界的模型外，一些方法旨在構(gòu)建人為定義的模擬器，如 3D 網(wǎng)格。這些模擬器為世界模型框架提供了一個可測試的環(huán)境。由于這些結(jié)構(gòu)化表示不同于可直接從世界收集的感知數(shù)據(jù)，本文單獨設(shè)計了 Representation 模塊以處理這些顯式表示。其主要功能包括：

3D 重建：將輸入數(shù)據(jù)轉(zhuǎn)換為顯式的 3D 輸出，如點云、深度圖和相機位姿。

模擬支持：創(chuàng)建一個手動環(huán)境，世界模型可以在其中測試其推理，并驗證其預(yù)測的動作在坐標(biāo)系中是否正確。

服務(wù)集成：支持本地推理和基于云的 API，幫助將這些顯式表示導(dǎo)出到外部物理引擎。

為了標(biāo)準(zhǔn)化這些模型的使用方式，我們提供了一個統(tǒng)一的 BaseRepresentation 模板。所有特定于任務(wù)的表示類都繼承自這個基類，以確保一致的 API。BaseRepresentation 的定義如清單 4 所示。

Memory 模塊

長期上下文記憶對于交互式世界模型維持歷史觀測、推理鏈和交互狀態(tài)至關(guān)重要。OpenWorldLib 設(shè)計了一個統(tǒng)一的 Memory 模塊來管理多模態(tài)交互歷史。它履行以下功能：

歷史存儲：存儲跨交互的文本、視覺特征、動作軌跡和場景狀態(tài)。

上下文檢索：選擇相關(guān)的歷史以支持一致的推理和生成。

狀態(tài)更新：在每次流水線執(zhí)行后記錄新的交互結(jié)果。

會話管理：為不同任務(wù)和會話支持獨立的記憶。

為了統(tǒng)一內(nèi)存管理，定義了一個統(tǒng)一的 BaseMemory 模板。所有特定于任務(wù)的內(nèi)存類都繼承自此基類。BaseMemory 的定義如清單 5 所示。

Pipeline

為了將上述模塊整合進(jìn)一個內(nèi)聚且可用的系統(tǒng)，OpenWorldLib 提供了一個統(tǒng)一的 Pipeline 模塊作為頂層調(diào)度和執(zhí)行入口。Pipeline 封裝了模型初始化、數(shù)據(jù)流、模塊調(diào)用、記憶交互和結(jié)果后處理，使得通過簡單一致的 API 即可實現(xiàn)端到端的世界模型推理。

Pipeline 遵循標(biāo)準(zhǔn)的前向執(zhí)行流程：它接收原始輸入，路由至 Operator 進(jìn)行校驗預(yù)處理，向 Memory 查詢歷史上下文，協(xié)調(diào) Reasoning、Synthesis 和 Representation 進(jìn)行核心計算，最后返回結(jié)構(gòu)化輸出并更新記憶。Pipeline 的核心職責(zé)包括：

統(tǒng)一模型初始化：通過單一接口加載所有子模塊。

端到端推理：為單輪世界模型任務(wù)實現(xiàn)一鍵式前向推理。

多輪交互執(zhí)行：通過帶有自動記憶讀寫的 stream() 方法支持有狀態(tài)的持續(xù)交互。

模塊化編排：根據(jù)任務(wù)類型動態(tài)調(diào)用模塊，無需修改內(nèi)部邏輯。

結(jié)果結(jié)構(gòu)化：將輸出組織為標(biāo)準(zhǔn)化格式，用于可視化、評估、日志記錄或下游控制系統(tǒng)。

為了保持框架范圍內(nèi)的一致性，所有特定于任務(wù)的管道都繼承自統(tǒng)一的 BasePipeline 模板。其定義如清單 6 所示。

討論

OpenWorldLib 旨在為世界模型提供更清晰、更標(biāo)準(zhǔn)化的定義和框架。其目標(biāo)是促進(jìn)世界模型的發(fā)展，使 AI 能夠更好地在復(fù)雜環(huán)境中協(xié)助人類。在本節(jié)中，本文討論世界模型的未來發(fā)展方向。

許多當(dāng)前的世界模型架構(gòu)聚焦于下一幀預(yù)測。這種方法符合人類處理高密度感官輸入的方式，因為人類本質(zhì)上是在物理世界中進(jìn)行“預(yù)訓(xùn)練”的，而大型模型則是在海量互聯(lián)網(wǎng)文本語料庫上預(yù)訓(xùn)練的。然而，基于現(xiàn)有架構(gòu)，視覺語言模型（VLMs）可能提供一種切實的解決方案。例如，Bagel 成功地利用 Qwen 架構(gòu)實現(xiàn)了多模態(tài)推理和多模態(tài)生成。這證明了在互聯(lián)網(wǎng)數(shù)據(jù)上預(yù)訓(xùn)練的大語言模型（LLMs）可以具備世界模型所需的所有能力，展現(xiàn)了它們作為基礎(chǔ)底座的潛力。因此，在完全專注于世界模型的特定結(jié)構(gòu)設(shè)計之前，我們應(yīng)首先考慮如何實現(xiàn)其所有必要的功能以實現(xiàn)與復(fù)雜世界的真實且有效的交互。此外，由于 LLMs 作為世界模型的基礎(chǔ)支柱，以數(shù)據(jù)為中心的方法論——包括多模態(tài)數(shù)據(jù)合成、領(lǐng)域特定數(shù)據(jù)增強、動態(tài)訓(xùn)練和訓(xùn)練數(shù)據(jù)質(zhì)量評估——將在強化支撐世界模型能力的底座模型中發(fā)揮日益重要的作用。

在現(xiàn)實世界的交互中，下一幀預(yù)測相較于下一標(biāo)記（next-token）預(yù)測保留了更多信息，但其效率需要顯著提升。這種效率的改進(jìn)必須從硬件層面開始。目前的計算機字節(jié)組織天然有利于下一標(biāo)記預(yù)測。即使當(dāng)模型嘗試下一幀預(yù)測時，數(shù)據(jù)在實際計算過程中仍被處理為標(biāo)記（tokens）。為了實現(xiàn)理想的世界模型，我們需要硬件迭代、底座模型結(jié)構(gòu)的改變（基于標(biāo)記的 Transformer 可能需要演化），以及復(fù)雜物理世界交互任務(wù)的全方位實現(xiàn)。

實驗總結(jié)

本文在 NVIDIA A800 和 H200 GPU 上進(jìn)行了廣泛測試：

交互式視頻生成：對比了 Matrix-Game-2、Hunyuan 和 Cosmos 等模型。實驗證明 Cosmos 在物理真實感和復(fù)雜交互操作上具有顯著優(yōu)勢。

多模態(tài)推理：評估了模型在處理圖像、視頻及音頻證據(jù)并生成可靠結(jié)論的能力。

3D 生成：測試了 VGGT 等模型在不同視角下的重建效果，指出在大尺度相機移動時保持幾何一致性仍是挑戰(zhàn)。

VLA 評價：利用 AI2-THOR 和 LIBERO 仿真環(huán)境驗證了具身智能體的動作規(guī)劃能力。