高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯(cuò)
加入自媒體

圖像生成迎來“思考-研究-創(chuàng)造”新范式!Mind-Brush:統(tǒng)一意圖分析、多模態(tài)搜索和知識(shí)推理

作者:Jun He,Junyan Ye等

解讀:AI生成未來

亮點(diǎn)直擊

Mind-Brush,一個(gè)新穎的智能體框架,該框架統(tǒng)一了意圖分析、多模態(tài)搜索和知識(shí)推理,以實(shí)現(xiàn)圖像生成的“思考-研究-創(chuàng)造”范式。

Mind-Bench,一個(gè)專門用于評(píng)估涉及動(dòng)態(tài)外部知識(shí)和復(fù)雜推理的生成能力的基準(zhǔn)。實(shí)驗(yàn)結(jié)果表明,當(dāng)前統(tǒng)一多模態(tài)模型在實(shí)時(shí)感知和邏輯推理方面存在關(guān)鍵缺陷。

Mind-Brush 在 Mind-Bench 上將 Qwen-Image 基線的準(zhǔn)確率從 0.02 大幅提升至 0.31,同時(shí),在包括知識(shí)驅(qū)動(dòng)的 WISE(WiScore 提升 25.8%)和推理驅(qū)動(dòng)的 RISEBench(準(zhǔn)確率提升 27.3%)在內(nèi)的現(xiàn)有基準(zhǔn)上,顯著超越了現(xiàn)有基線模型。

總結(jié)速覽

解決的問題

意圖理解與復(fù)雜推理能力的缺失: 現(xiàn)有模型本質(zhì)上是“靜態(tài)的文本到像素解碼器”,只能執(zhí)行顯式的指令映射,無法理解用戶的隱式意圖。即使是新出現(xiàn)的統(tǒng)一理解與生成模型,也難以在單一模型內(nèi)完成需要復(fù)雜知識(shí)推理(如數(shù)學(xué)推理、常識(shí)推理)的任務(wù)。

無法適應(yīng)動(dòng)態(tài)變化的世界: 由于受限于預(yù)訓(xùn)練數(shù)據(jù)的時(shí)間截?cái),模型的?nèi)部知識(shí)是靜態(tài)的。這使得它們無法處理涉及實(shí)時(shí)新聞、新興概念或需要最新事實(shí)驗(yàn)證的生成任務(wù),與現(xiàn)實(shí)世界的動(dòng)態(tài)發(fā)展脫節(jié)。

提出的方案

文章提出了 Mind-Brush,一個(gè)統(tǒng)一的智能體框架。該框架的核心思想是將圖像生成從一個(gè)單步的靜態(tài)映射,轉(zhuǎn)變?yōu)橐粋(gè)動(dòng)態(tài)的、由知識(shí)驅(qū)動(dòng)的工作流程。

核心范式轉(zhuǎn)變: 模擬人類的創(chuàng)作過程,提出了“思考-研究-創(chuàng)造”的工作流。

主動(dòng)式生成: 模型不再被動(dòng)依賴內(nèi)部知識(shí),而是主動(dòng)進(jìn)行規(guī)劃,通過調(diào)用外部工具來彌補(bǔ)自身能力的不足,實(shí)現(xiàn)理解與生成的統(tǒng)一。

應(yīng)用的技術(shù)

Mind-Brush 框架主要通過以下技術(shù)實(shí)現(xiàn)其核心功能:

智能體設(shè)計(jì): 采用類似LLM智能體的架構(gòu),使模型具備任務(wù)分解和行動(dòng)規(guī)劃的能力。

主動(dòng)檢索機(jī)制: 能夠主動(dòng)檢索多模態(tài)證據(jù),以獲取并利用超出其內(nèi)部知識(shí)范圍的信息,從而將生成內(nèi)容建立在真實(shí)、最新的信息之上。

外部推理工具: 集成并使用推理工具來解決用戶指令中隱含的、需要邏輯推導(dǎo)或計(jì)算的視覺約束。

達(dá)到的效果

通過引入Mind-Brush框架和相應(yīng)的評(píng)測基準(zhǔn),文章展示了顯著的效果提升:

能力躍升: 在提出的Mind-Bench基準(zhǔn)上,Mind-Brush使基線模型(Qwen-Image)實(shí)現(xiàn)了“從無到有”的能力突破。

全面評(píng)測: 提出了一個(gè)新的評(píng)測基準(zhǔn) Mind-Bench,包含500個(gè)樣本,覆蓋實(shí)時(shí)新聞、新興概念、數(shù)學(xué)推理和地理推理等10個(gè)需要?jiǎng)討B(tài)知識(shí)與復(fù)雜推理的類別,填補(bǔ)了現(xiàn)有評(píng)測的空白。

性能優(yōu)勢: 不僅在Mind-Bench上表現(xiàn)優(yōu)異,在已有的WISE和RISE等需要內(nèi)部知識(shí)調(diào)用和基礎(chǔ)推理的基準(zhǔn)測試中也取得了更優(yōu)的結(jié)果。

架構(gòu)與方法

Mind-Brush 框架

問題形式化

本工作將 Mind-Brush 的推理工作流形式化為一個(gè)分層序列決策過程(Hierarchical Sequential Decision-Making Process),由元組  定義。該框架生成一個(gè)結(jié)構(gòu)化的認(rèn)知軌跡,以彌合抽象意圖與視覺實(shí)現(xiàn)之間的差距。

認(rèn)知狀態(tài)(Cognitive State, ):令  表示在步驟  的狀態(tài)。它封裝了原始用戶輸入(指令  和可選的參考圖像 )以及動(dòng)態(tài)證據(jù)緩沖區(qū) ,該緩沖區(qū)負(fù)責(zé)積累檢索到的知識(shí)和推理鏈。

動(dòng)作空間(Action Space, ):智能體可用的操作集合。本工作區(qū)分了用于識(shí)別認(rèn)知差距  的元?jiǎng)幼鳎∕eta-Action)(認(rèn)知差距檢測),以及用于主動(dòng)獲取多模態(tài)證據(jù)的執(zhí)行動(dòng)作(Execution Actions)。

執(zhí)行策略(Execution Policy, ):意圖分析模塊充當(dāng)高級(jí)策略 。它評(píng)估初始狀態(tài),以根據(jù)識(shí)別出的  制定確定性的執(zhí)行路徑。

推理過程作為一個(gè)上下文感知的軌跡不斷演進(jìn)。如下圖 2 所示,系統(tǒng)并不遵循僵化的工作流;相反,它會(huì)根據(jù)用戶請(qǐng)求進(jìn)行動(dòng)態(tài)調(diào)整。通過評(píng)估初始狀態(tài)中認(rèn)知差距的具體性質(zhì)(例如事實(shí)缺失或邏輯沖突),規(guī)劃器推斷出證據(jù)積累的最佳結(jié)構(gòu),將執(zhí)行路由到專門的搜索或推理分支。這有效地將推理計(jì)算與用戶意圖的內(nèi)在復(fù)雜性對(duì)齊。最終,本工作的目標(biāo)是基于最終收斂狀態(tài)  生成最優(yōu)目標(biāo)圖像 。該狀態(tài)包含整合后的主提示詞(Master Prompt) 和經(jīng)過驗(yàn)證的視覺參考 ,從而將靜態(tài)生成轉(zhuǎn)化為一個(gè)動(dòng)態(tài)、顯式的證據(jù)積累過程。

認(rèn)知差距檢測

用戶指令通常包含超出模型參數(shù)知識(shí)邊界的隱式約束和長尾概念。為了解決這個(gè)問題,本文引入了認(rèn)知差距檢測(Cognitive Gap Detection)策略,將其集成在意圖分析智能體(Intent Analysis Agent, )中作為一個(gè)元規(guī)劃器,以彌合這一認(rèn)知鴻溝。具體而言,它通過 5W1H(What, When, Where, Why, Who, How)范式將文本指令  和可選圖像  映射到一個(gè)結(jié)構(gòu)化的語義空間中,建立一個(gè)多模態(tài)的“真實(shí)基準(zhǔn)(Ground Truth)”來確定信號(hào)的主導(dǎo)權(quán)。隨后,該模塊通過檢測需要外部驗(yàn)證的特定實(shí)體或邏輯依賴項(xiàng),執(zhí)行嚴(yán)格的差距分析。內(nèi)部知識(shí)中缺失的信息被形式化為一組顯式的原子問題,記為 。基于  的組成,系統(tǒng)實(shí)例化一個(gè)動(dòng)態(tài)執(zhí)行策略 ,將工作流路由到動(dòng)作空間中定義的適當(dāng)事實(shí)錨定(factual grounding)或邏輯推理(logical reasoning)分支。

自適應(yīng)知識(shí)補(bǔ)全

為了彌合識(shí)別出的認(rèn)知差距,Mind-Brush 采用了一種內(nèi)部邏輯推導(dǎo)機(jī)制。與僵化的單路徑系統(tǒng)不同,執(zhí)行策略  根據(jù)  的復(fù)雜性靈活組合檢索和推理工具。

外部知識(shí)錨定(External Knowledge Anchoring):對(duì)于涉及分布外(OOD)實(shí)體或動(dòng)態(tài)事件的差距,框架會(huì)激活認(rèn)知搜索智能體(Cognition Search Agent, )。它首先利用一個(gè)關(guān)鍵字生成器來綜合用戶的多模態(tài)輸入()和識(shí)別出的差距 ,生成精確的文本查詢  和初始視覺查詢 。在從開放世界知識(shí)庫中檢索到事實(shí)文檔  后,系統(tǒng)執(zhí)行雙重更新操作:其中,檢索到的概念被重新注入到用戶指令中()以更新文本上下文,同時(shí)校準(zhǔn)視覺查詢()以確保隨后檢索到的參考圖像  與經(jīng)過驗(yàn)證的事實(shí)保持一致。內(nèi)部邏輯推導(dǎo)(Internal Logical Derivation):對(duì)于需要復(fù)雜演繹的差距(例如,解決  中的數(shù)學(xué)問題或從檢索數(shù)據(jù)中推斷空間關(guān)系),系統(tǒng)觸發(fā)思維鏈知識(shí)推理智能體(CoT Knowledge Reasoning Agent, )。該引擎作為一個(gè)邏輯處理器,攝取用戶指令、輸入圖像,以及至關(guān)重要的積累搜索證據(jù)()。它執(zhí)行多步推理以解決隱式?jīng)_突或解釋檢索到的視覺數(shù)據(jù),從而產(chǎn)生顯式的結(jié)論 。

最終的證據(jù)集  為生成形成了一個(gè)全面且邏輯一致的認(rèn)知上下文。

約束生成

外部信息的積累帶來了冗余或不相關(guān)的風(fēng)險(xiǎn)。因此,最后階段的重點(diǎn)是信息整合與條件合成。首先,概念審查智能體(Concept Review Agent, )作為一個(gè)整合機(jī)制,從脫節(jié)的證據(jù)流  中過濾噪聲。它將經(jīng)過驗(yàn)證的事實(shí)和邏輯結(jié)論與用戶的原始創(chuàng)作意圖綜合起來,將它們重寫為一個(gè)結(jié)構(gòu)化的主提示詞 。該提示詞明確闡述了以前隱式或未知的視覺屬性。隨后,統(tǒng)一圖像生成智能體(Unified Image Generation Agent, )執(zhí)行視覺合成。與標(biāo)準(zhǔn)的 T2I(文本到圖像)模型不同, 同時(shí)受文本對(duì)齊的  和自適應(yīng)視覺提示  的條件約束。具體而言,基于用戶意圖,該機(jī)制在生成和編輯模式之間動(dòng)態(tài)選擇,以確定視覺條件源 (即來自  或 )。這些約束有效地引導(dǎo)模型實(shí)現(xiàn)對(duì)用戶創(chuàng)意愿景的高保真度,同時(shí)嚴(yán)格遵守在知識(shí)獲取階段建立的事實(shí)和邏輯邊界。

Mind-Bench 基準(zhǔn)測試

動(dòng)機(jī)與任務(wù)定義

為了探究“認(rèn)知生成”的邊界,本文提出了 Mind-Bench,一個(gè)包含 500 個(gè)樣本的綜合基準(zhǔn),旨在客觀評(píng)估依賴于動(dòng)態(tài)外部知識(shí)和用戶意圖推理的生成能力。如下圖 1 所示,基準(zhǔn)分為兩大類,涵蓋 10 個(gè)不同的子領(lǐng)域:

知識(shí)驅(qū)動(dòng)任務(wù)(Knowledge-Driven Tasks):包括特殊事件、天氣、角色、物體和世界知識(shí)。核心挑戰(zhàn)在于減輕對(duì)分布外(OOD)實(shí)體的幻覺。

推理驅(qū)動(dòng)任務(wù)(Reasoning-Driven Tasks):包括生活推理、地理推理、數(shù)學(xué)、科學(xué)與邏輯,以及詩歌。核心挑戰(zhàn)在于模型從表面簡單的指令中推導(dǎo)出隱式約束的能力。

基準(zhǔn)構(gòu)建與評(píng)估標(biāo)準(zhǔn)

基準(zhǔn)通過嚴(yán)格的“人機(jī)協(xié)作管道”構(gòu)建,確保多維度的復(fù)雜性和事實(shí)可靠性。為了準(zhǔn)確反映模型在復(fù)雜認(rèn)知任務(wù)中的可用性,本文提出了基于檢查表的嚴(yán)格準(zhǔn)確率(Checklist-based Strict Accuracy, CSA)作為核心指標(biāo),如下圖 3 所示。該標(biāo)準(zhǔn)采用 MLLM 評(píng)判器在“整體通過標(biāo)準(zhǔn)(Holistic Pass Criterion)”下對(duì)照檢查表仔細(xì)審查生成的圖像。準(zhǔn)確率定義為:

其中  為指示函數(shù),如果圖像滿足檢查項(xiàng)則返回 1。只有當(dāng)所有子項(xiàng)都被驗(yàn)證為“通過”時(shí),該樣本才被視為正確。

實(shí)驗(yàn)

本文通過大量實(shí)驗(yàn)全面評(píng)估了 Mind-Brush 框架在理解用戶意圖和生成長尾概念方面的能力,主要在 Mind-Bench、WISE 和 RISEBench 三個(gè)基準(zhǔn)上進(jìn)行了測試,并與當(dāng)前的專有模型(如 GPT-Image系列、Nano Banana系列、FLUX系列)和開源 SOTA 模型(如 SD 3.5, Bagel, Qwen-Image 等)進(jìn)行了廣泛對(duì)比。此外,相關(guān)的評(píng)估協(xié)議、任務(wù)分類分布對(duì)比等詳細(xì)數(shù)據(jù)可分別在下表 7 和下表 8 中找到。

主要實(shí)驗(yàn)結(jié)果總結(jié)如下:

Mind-Bench 基準(zhǔn)上的表現(xiàn):

如下表 1 所示,Mind-Brush 在知識(shí)驅(qū)動(dòng)和推理驅(qū)動(dòng)任務(wù)上均取得了顯著提升。相較于開源基線模型 Qwen-Image,Mind-Brush 將整體嚴(yán)格準(zhǔn)確率(CSA)從 0.02 驚人地提升至 0.31,實(shí)現(xiàn)了從 0 到 1 的能力飛躍。不僅超越了 SD-3.5 Large,甚至在多項(xiàng)任務(wù)上媲美或超過了眾多強(qiáng)大的閉源專有模型(如超越了 GPT-Image-1.5 的 0.21)。

WISE 與 RISEBench 上的表現(xiàn):

如下表 2 所示,在側(cè)重世界知識(shí)的 WISE 基準(zhǔn)上,Mind-Brush 獲得了 0.78 的綜合 WiScore,比基礎(chǔ)模型 Qwen-Image 提高了 25.8%,追平了頂級(jí)的 GPT-Image-1。在側(cè)重邏輯與視覺編輯的 RISEBench 上,本方法在“指令推理(Instruction Reasoning)”維度獲得了 61.5 的高分,大幅超越 Bagel 等模型,整體準(zhǔn)確率(24.7%)同樣逼近最先進(jìn)的專有模型。

定性比較與過程可視化:

如下圖 4 所示,定性結(jié)果直觀地展示了 Mind-Brush 在處理知識(shí)驅(qū)動(dòng)任務(wù)時(shí)如何有效利用搜索工具檢索視覺參考(例如對(duì)冷門 IP 概念的準(zhǔn)確還原),并在推理驅(qū)動(dòng)任務(wù)中正確解構(gòu)數(shù)學(xué)邏輯和空間關(guān)系,避免了基線模型常犯的事實(shí)錯(cuò)誤和邏輯斷層。如下圖 19 所示 和 如下圖 20 所示,展示了 Mind-Brush 在處理復(fù)雜的地理數(shù)學(xué)任務(wù)和純數(shù)學(xué)可視化任務(wù)時(shí),其逐步檢索、推理并最終約束生成的完整工作流。

消融實(shí)驗(yàn)與架構(gòu)分析:

如下表 3 所示的消融研究證實(shí)了認(rèn)知搜索智能體和知識(shí)推理智能體的有效性。單獨(dú)加入推理智能體或搜索智能體均能帶來特定領(lǐng)域的提升,而兩者的協(xié)同作用則達(dá)成了最優(yōu)的綜合表現(xiàn)。如下表 6 所示,在探索不同 MLLM 骨干和生成引擎的實(shí)驗(yàn)中發(fā)現(xiàn),智能體大腦的強(qiáng)度(如使用 GPT-5.1 替代 Qwen3-VL)主導(dǎo)了整體性能的上限;同時(shí),更強(qiáng)的底層圖像生成器(如 GPT-Image-1)可以與 Mind-Brush 框架協(xié)同,實(shí)現(xiàn)性能的成倍增長。

額外基準(zhǔn)擴(kuò)展測試:

如下表 4 所示和如下表 5 所示,在側(cè)重指令遵循的 GenEval++ 和側(cè)重創(chuàng)意生成的 Imagine-Bench 上,Mind-Brush 同樣展現(xiàn)出優(yōu)越的性能,甚至在部分子任務(wù)(如位置/計(jì)數(shù)、時(shí)空異化等)上表現(xiàn)超越了目前最優(yōu)的 Agentic 基線 GenAgent,展現(xiàn)出極強(qiáng)的長尾指令處理與泛化能力。

總結(jié)

本文引入了 Mind-Brush,一種免訓(xùn)練的智能體框架(training-free agentic framework),它將文本到圖像(text-to-image)的生成從被動(dòng)解碼轉(zhuǎn)化為一種主動(dòng)的認(rèn)知工作流。通過協(xié)調(diào)意圖分析、多模態(tài)錨定以及顯式的思維鏈(Chain-of-Thought)推理,Mind-Brush 有效地彌合了模糊的用戶意圖與精確的、以事實(shí)為基礎(chǔ)的視覺合成之間的差距。為了對(duì)此進(jìn)行嚴(yán)格的評(píng)估,本工作建立了 Mind-Bench,這是一個(gè)旨在針對(duì)知識(shí)密集型和依賴推理的任務(wù)對(duì)模型進(jìn)行壓力測試的基準(zhǔn)。經(jīng)驗(yàn)結(jié)果表明,本框架顯著優(yōu)于現(xiàn)有的最先進(jìn)模型,證實(shí)了主動(dòng)檢索與邏輯演繹協(xié)同作用的有效性。本工作相信,這種向“智能體生成范式(Agentic Generative Paradigm)”的轉(zhuǎn)變,為能夠在視覺合成領(lǐng)域解決復(fù)雜問題的下一代系統(tǒng)鋪平了道路。

參考文獻(xiàn)

[1] Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

       原文標(biāo)題 : 圖像生成迎來“思考-研究-創(chuàng)造”新范式!Mind-Brush:統(tǒng)一意圖分析、多模態(tài)搜索和知識(shí)推理

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)

    河间市| 益阳市| 泸州市| 琼结县| 高邑县| 石柱| 韶山市| 福鼎市| 辛集市| 江津市| 宁波市| 汽车| 肇东市| 曲靖市| 康平县| 漠河县| 潢川县| 饶平县| 冕宁县| 淳化县| 佛坪县| 清原| 青海省| 兴隆县| 五大连池市| 江达县| 斗六市| 苗栗县| 开江县| 云梦县| 剑阁县| 嘉善县| 中宁县| 株洲市| 柏乡县| 基隆市| 安陆市| 垣曲县| 武城县| 左贡县| 苍南县|