日韩诱惑网址,亚洲国产成人久久,久久久偷拍网站

Benchmark，具身智能研究最缺乏的基礎(chǔ)設(shè)施

2026-03-23 09:22

具身研習(xí)社

關(guān)注

作者：彭堃方

編輯：呂鑫燚

出品：具身研習(xí)社

具身智能模型的結(jié)構(gòu)性矛盾在于，一面是飛速迭代的模型，另一面則是滯后的基準(zhǔn)線。

換句話說，具身模型一直沒有一個科學(xué)、可靠的評測標(biāo)準(zhǔn)去讓它從發(fā)散地“野蠻生長”到牟足勁兒地“向上生長”。

“木受繩以直”，具身模型也需要一個科學(xué)的 Benchmark 去精細(xì)地評估、診斷甚至是指導(dǎo)未來研究方向。但現(xiàn)狀是，由于長期缺乏統(tǒng)一、高標(biāo)準(zhǔn)的真機(jī)測評體系，模型的迭代與產(chǎn)業(yè)化進(jìn)程正深受制約。

事實(shí)上，任何產(chǎn)業(yè)從技術(shù)探索走向規(guī)模化，都會經(jīng)歷一個從“百花齊放”到“標(biāo)準(zhǔn)收斂”的階段。

這是從多個萬億級市場規(guī)模的產(chǎn)業(yè)中驗證過的成功路徑，互聯(lián)網(wǎng)時代，協(xié)議標(biāo)準(zhǔn)讓全球網(wǎng)絡(luò)互聯(lián)互通；深度學(xué)習(xí)的爆發(fā)也離不開評測體系。它們并不直接創(chuàng)造產(chǎn)品，卻決定了技術(shù)進(jìn)步的方向與速度。

具身智能正處在類似的早期階段。過去兩年，從 VLA（Vision-Language-Action）模型到世界模型，技術(shù)路徑層出不窮，研究范式高度分散。但行業(yè)其實(shí)并不缺模型，也不缺演示視頻，缺的是一個能夠回答模型“在真實(shí)世界中究竟能做到什么程度”的統(tǒng)一標(biāo)尺。

沒有 Benchmark，模型提升還更多停留在敘事層面。有了 Benchmark，技術(shù)進(jìn)步才具備可驗證、可復(fù)現(xiàn)、可積累的產(chǎn)業(yè)價值。

在這樣的背景下，CVPR 2026 官方競賽 ManipArena 的啟動，其意義就不再是又多了一場比賽，而在于它試圖補(bǔ)齊具身智能領(lǐng)域最關(guān)鍵、卻長期缺位的一塊基礎(chǔ)設(shè)施：面向真實(shí)世界的統(tǒng)一評測體系。

更重要的是，一個可持續(xù)運(yùn)行的研發(fā)平臺能夠不斷沉淀數(shù)據(jù)、驗證結(jié)論并反哺模型迭代，形成“評測-改進(jìn)-再評測”的正向循環(huán)，從而撬動整個領(lǐng)域從無序探索走向系統(tǒng)進(jìn)化。

從表面看，ManipArena 是一項機(jī)器人操作競賽，但其設(shè)計邏輯更接近一次系統(tǒng)化能力測量。

長期以來，機(jī)器人評測依賴于仿真環(huán)境或精心布置、高度簡化的桌面抓取任務(wù)。這類基準(zhǔn)雖然推動了算法進(jìn)步，卻難以反映真實(shí)世界的復(fù)雜性。而真正能還原物理世界的長時序決策、空間移動、多模態(tài)感知、不可預(yù)測的物理交互，往往被排除在評測之外。這便導(dǎo)致，研發(fā)人員只能蒙眼狂奔，無法精準(zhǔn)迭代，模型也可能是在實(shí)驗室表現(xiàn)亮眼，卻難以遷移到現(xiàn)實(shí)場景。

ManipArena 的核心目標(biāo)正是填補(bǔ)這一鴻溝。賽事共設(shè)置 20 個真實(shí)機(jī)器人任務(wù)，并在統(tǒng)一環(huán)境下進(jìn)行真機(jī)評測，覆蓋推理能力、泛化能力、長時序決策以及多模態(tài)感知等關(guān)鍵維度。相比過往那些“簡單的抓取”測試，這更接近對完整操作能力的系統(tǒng)審視。

ManipArena 賽事花了很多時間進(jìn)行科學(xué)設(shè)計。其中一個重要設(shè)計是“一個模型完成全部任務(wù)”（One Model for All Tasks）。參賽者不能針對不同任務(wù)分別訓(xùn)練模型，而必須依賴統(tǒng)一策略完成所有挑戰(zhàn)。這一規(guī)則本質(zhì)上是在篩選通用能力，而非單點(diǎn)技巧或任務(wù)過擬合。

另一項關(guān)鍵設(shè)計是分層 OOD（Out-of-Distribution）評估。每個任務(wù)通過物理屬性、空間布局和語義組合等多維變化，構(gòu)造不同難度等級，從域內(nèi)變化到語義外推，系統(tǒng)測試模型在未知情況下的表現(xiàn)。這使評測不再只給出一個分?jǐn)?shù)，而是呈現(xiàn)能力曲線，揭示模型究竟卡在感知、推理還是執(zhí)行環(huán)節(jié)。

此外，ManipArena 將評測范圍從桌面操作擴(kuò)展到包含導(dǎo)航與全身控制的移動任務(wù)，例如整理衣物、掛畫、收納物品等，覆蓋更接近真實(shí)生活的操作場景。這意味著它不再評估“機(jī)械臂技能”，而是評估“具身系統(tǒng)能力”。

換句話說，這項競賽的目標(biāo)并不是展示機(jī)器人已經(jīng)能做什么，而是盡可能準(zhǔn)確地界定它們暫時還做不到什么。

這正是產(chǎn)業(yè)決策最需要的信息。所以這次賽事，帶來的不一定是榜單上的狂歡，但一定會幫助研究人員認(rèn)清技術(shù)的真實(shí)狀況。

ManipArena 更深遠(yuǎn)的意義，或許在于它并不只是一次競賽，而是一個可持續(xù)運(yùn)行的研究平臺，它有著“常態(tài)化評測”“持續(xù)性運(yùn)營”“大幅降低門檻”等特色。

首先，它具備常態(tài)化評測能力。參賽者可以基于公開數(shù)據(jù)訓(xùn)練模型，通過遠(yuǎn)程接口提交算法，由平臺完成真機(jī)測試并返回結(jié)果。這種機(jī)制不僅適用于比賽，也適用于日常研究驗證，使其成為一個持續(xù)可用的 Benchmark，而非一次性活動。

其次，平臺提供了高質(zhì)量真實(shí)世界數(shù)據(jù)與精細(xì)評測體系，包括 188 小時高質(zhì)量真機(jī)數(shù)據(jù)，并承諾未來持續(xù)開源數(shù)據(jù)，為模型訓(xùn)練與分析提供直接支撐。在機(jī)器人領(lǐng)域，獲取真實(shí)數(shù)據(jù)的成本極高，這種集中供給本身就是重要的科研基礎(chǔ)設(shè)施。

更關(guān)鍵的是，它顯著降低了參與門檻。研究團(tuán)隊無需購買昂貴機(jī)器人設(shè)備，僅依托一臺 GPU 服務(wù)器即可參與全流程評測。

這是一個非常關(guān)鍵的轉(zhuǎn)折點(diǎn)，具身智能研究長期受制于硬件成本，只有少數(shù)實(shí)驗室擁有設(shè)備優(yōu)勢，而大多數(shù)團(tuán)隊難以開展真實(shí)世界實(shí)驗。遠(yuǎn)程真機(jī)評測機(jī)制使更多研究者能夠參與競爭，擴(kuò)大創(chuàng)新來源。

額外多說一點(diǎn)，這種統(tǒng)一硬件的方式，避免了硬件差異對結(jié)果的影響。而且，由于自變量的“量子一號”等硬件設(shè)施是 AI 原生、為模型而生，其能夠更好的發(fā)揮模型性能。倘若 ManipArena 真能夠長續(xù)發(fā)展，也將有助于形成統(tǒng)一的硬件標(biāo)準(zhǔn)。

當(dāng)性能差異主要由算法而非設(shè)備決定時，研究重點(diǎn)將更像模型聚焦，從而加速軟件層面的競爭與收斂。

“要想富，先修路”，今天的具身智能研究，想要從粗狂的野蠻生長走向規(guī)范化發(fā)展，正缺少這樣穩(wěn)定、科學(xué)的基礎(chǔ)設(shè)施建設(shè)。

外界可能會問，為什么是一家模型企業(yè)來推動這項工作？答案恰恰在于，只有真正開發(fā)過模型的人，才最清楚模型的能力邊界與潛在漏洞。

首先要認(rèn)識到，Benchmark 從來不是中性的。它隱含著對未來技術(shù)方向的假設(shè)：

- 比方說，ManipArena 將推理、長時序決策和多模態(tài)融合放在核心位置，實(shí)際上是在對具身智能的主流發(fā)展路徑做出判斷，是對過去簡單任務(wù)評測的一次技術(shù)矯正； - 再者像，賽事中開源的多維數(shù)據(jù)里所特意強(qiáng)調(diào)的電機(jī)電流和關(guān)節(jié)速度，如官方所說“電機(jī)電流和關(guān)節(jié)速度可作為力和接觸的代理信號，當(dāng)前主流模型（VLA、World Model）均未有效利用電流和關(guān)節(jié)速度信號”，ManipArena 此舉針對性開源將有助于推動力敏感策略研究；

- 此外，官方在表態(tài)中多次強(qiáng)調(diào) VLA 與世界模型同臺競技，是否各有千秋，到底孰優(yōu)孰劣在賽中見真章，某種程度上也昭示出技術(shù)的趨勢。

其次，做過模型的人更了解模型如何“取巧”。在許多基準(zhǔn)測試中，模型可以通過統(tǒng)計偏差、環(huán)境規(guī)律或特定技巧獲得高分，而不具備真正的通用能力。ManipArena 的設(shè)計明顯試圖規(guī)避這些問題，例如統(tǒng)一環(huán)境、均勻分布變化、跨任務(wù)通用模型要求等，都旨在防止過擬合和投機(jī)行為。

再次，真正科學(xué)有效的 Benchmark 設(shè)計往往來自大量經(jīng)驗的積累。只有那些從零到一全鏈路自研，趟踩過足夠多的坑，才知道模型會在哪里崩潰。從這個角度看，“做題做多了的人更會出題”并非調(diào)侃，而是一種技術(shù)現(xiàn)實(shí)。評測體系本質(zhì)上是對過去研究經(jīng)驗的結(jié)構(gòu)化沉淀，也是對未來技術(shù)路徑的引導(dǎo)。

而作為長期堅持端到端具身大模型路線的企業(yè)，自變量深度參與了從 VLA 到世界模型融合范式的演進(jìn)過程，對模型在真實(shí)物理世界中的能力邊界與失效模式有著一手認(rèn)知。

其自研的 WALL-A 模型首創(chuàng)將 VLA 與世界模型深度融合，在統(tǒng)一多模態(tài)輸入輸出架構(gòu)下引入具身多模態(tài)思維鏈，通過時空狀態(tài)預(yù)測、視覺因果推理與可學(xué)習(xí)記憶機(jī)制，使機(jī)器人能夠在非結(jié)構(gòu)化環(huán)境中實(shí)現(xiàn)更強(qiáng)的零樣本泛化能力。同時，依托大規(guī)模真機(jī)強(qiáng)化學(xué)習(xí)，模型在持續(xù)與物理世界交互中積累高質(zhì)量經(jīng)驗，自主修復(fù)長尾問題，形成“基礎(chǔ)模型—真實(shí)交互—能力進(jìn)化”的技術(shù)閉環(huán) 。而在此基礎(chǔ)上開源的 WALL-OSS 也表現(xiàn)出優(yōu)異的長程操作能力、因果推理與空間理解能力。

正是這種從模型架構(gòu)、訓(xùn)練方法到真實(shí)部署的全鏈路實(shí)踐，使自變量不僅深諳模型訓(xùn)練坑坑洼洼、與模型技術(shù)發(fā)展同頻脈動，也成為具身智能能力評測體系的積極塑造者。對于一項技術(shù)革命來說，其福澤社會從來不論到底是哪家企業(yè)的技術(shù)強(qiáng)弱，反而是從行業(yè)逐漸沉淀出可靠的標(biāo)尺開始。放在具身智能領(lǐng)域，也是如此。

模型的競賽只是見證技術(shù)迅猛發(fā)展一方面，如果 ManipArena 能夠持續(xù)運(yùn)行，它記錄的將不僅是排行榜，更可能是具身智能走向產(chǎn)業(yè)化的時間刻度。

原文標(biāo)題 : Benchmark，具身智能研究最缺乏的“基礎(chǔ)設(shè)施”

AI 具身智能