久久婷欧美国产,久久机热精品加勒比

圖像生成迎來“思考-研究-創(chuàng)造”新范式！Mind-Brush:統(tǒng)一意圖分析、多模態(tài)搜索和知識(shí)推理

2026-03-12 13:56

作者：Jun He，Junyan Ye等

解讀：AI生成未來

亮點(diǎn)直擊

Mind-Brush，一個(gè)新穎的智能體框架，該框架統(tǒng)一了意圖分析、多模態(tài)搜索和知識(shí)推理，以實(shí)現(xiàn)圖像生成的“思考-研究-創(chuàng)造”范式。

Mind-Bench，一個(gè)專門用于評(píng)估涉及動(dòng)態(tài)外部知識(shí)和復(fù)雜推理的生成能力的基準(zhǔn)。實(shí)驗(yàn)結(jié)果表明，當(dāng)前統(tǒng)一多模態(tài)模型在實(shí)時(shí)感知和邏輯推理方面存在關(guān)鍵缺陷。

Mind-Brush 在 Mind-Bench 上將 Qwen-Image 基線的準(zhǔn)確率從 0.02 大幅提升至 0.31，同時(shí)，在包括知識(shí)驅(qū)動(dòng)的 WISE（WiScore 提升 25.8%）和推理驅(qū)動(dòng)的 RISEBench（準(zhǔn)確率提升 27.3%）在內(nèi)的現(xiàn)有基準(zhǔn)上，顯著超越了現(xiàn)有基線模型。

總結(jié)速覽

解決的問題

意圖理解與復(fù)雜推理能力的缺失：現(xiàn)有模型本質(zhì)上是“靜態(tài)的文本到像素解碼器”，只能執(zhí)行顯式的指令映射，無法理解用戶的隱式意圖。即使是新出現(xiàn)的統(tǒng)一理解與生成模型，也難以在單一模型內(nèi)完成需要復(fù)雜知識(shí)推理（如數(shù)學(xué)推理、常識(shí)推理）的任務(wù)。

無法適應(yīng)動(dòng)態(tài)變化的世界：由于受限于預(yù)訓(xùn)練數(shù)據(jù)的時(shí)間截?cái)�，模型的�?nèi)部知識(shí)是靜態(tài)的。這使得它們無法處理涉及實(shí)時(shí)新聞、新興概念或需要最新事實(shí)驗(yàn)證的生成任務(wù)，與現(xiàn)實(shí)世界的動(dòng)態(tài)發(fā)展脫節(jié)。

提出的方案

文章提出了 Mind-Brush，一個(gè)統(tǒng)一的智能體框架。該框架的核心思想是將圖像生成從一個(gè)單步的靜態(tài)映射，轉(zhuǎn)變?yōu)橐粋€(gè)動(dòng)態(tài)的、由知識(shí)驅(qū)動(dòng)的工作流程。

核心范式轉(zhuǎn)變：模擬人類的創(chuàng)作過程，提出了“思考-研究-創(chuàng)造”的工作流。

主動(dòng)式生成：模型不再被動(dòng)依賴內(nèi)部知識(shí)，而是主動(dòng)進(jìn)行規(guī)劃，通過調(diào)用外部工具來彌補(bǔ)自身能力的不足，實(shí)現(xiàn)理解與生成的統(tǒng)一。

應(yīng)用的技術(shù)

Mind-Brush 框架主要通過以下技術(shù)實(shí)現(xiàn)其核心功能：

智能體設(shè)計(jì)：采用類似LLM智能體的架構(gòu)，使模型具備任務(wù)分解和行動(dòng)規(guī)劃的能力。

主動(dòng)檢索機(jī)制：能夠主動(dòng)檢索多模態(tài)證據(jù)，以獲取并利用超出其內(nèi)部知識(shí)范圍的信息，從而將生成內(nèi)容建立在真實(shí)、最新的信息之上。

外部推理工具：集成并使用推理工具來解決用戶指令中隱含的、需要邏輯推導(dǎo)或計(jì)算的視覺約束。

達(dá)到的效果

通過引入Mind-Brush框架和相應(yīng)的評(píng)測基準(zhǔn)，文章展示了顯著的效果提升：

能力躍升：在提出的Mind-Bench基準(zhǔn)上，Mind-Brush使基線模型（Qwen-Image）實(shí)現(xiàn)了“從無到有”的能力突破。

全面評(píng)測：提出了一個(gè)新的評(píng)測基準(zhǔn) Mind-Bench，包含500個(gè)樣本，覆蓋實(shí)時(shí)新聞、新興概念、數(shù)學(xué)推理和地理推理等10個(gè)需要?jiǎng)討B(tài)知識(shí)與復(fù)雜推理的類別，填補(bǔ)了現(xiàn)有評(píng)測的空白。

性能優(yōu)勢：不僅在Mind-Bench上表現(xiàn)優(yōu)異，在已有的WISE和RISE等需要內(nèi)部知識(shí)調(diào)用和基礎(chǔ)推理的基準(zhǔn)測試中也取得了更優(yōu)的結(jié)果。

架構(gòu)與方法

Mind-Brush 框架

問題形式化

本工作將 Mind-Brush 的推理工作流形式化為一個(gè)分層序列決策過程（Hierarchical Sequential Decision-Making Process），由元組定義。該框架生成一個(gè)結(jié)構(gòu)化的認(rèn)知軌跡，以彌合抽象意圖與視覺實(shí)現(xiàn)之間的差距。

認(rèn)知狀態(tài)（Cognitive State, ）：令表示在步驟的狀態(tài)。它封裝了原始用戶輸入（指令和可選的參考圖像）以及動(dòng)態(tài)證據(jù)緩沖區(qū) ，該緩沖區(qū)負(fù)責(zé)積累檢索到的知識(shí)和推理鏈。

動(dòng)作空間（Action Space, ）：智能體可用的操作集合。本工作區(qū)分了用于識(shí)別認(rèn)知差距的元?jiǎng)幼鳎∕eta-Action）（認(rèn)知差距檢測），以及用于主動(dòng)獲取多模態(tài)證據(jù)的執(zhí)行動(dòng)作（Execution Actions）。

執(zhí)行策略（Execution Policy, ）：意圖分析模塊充當(dāng)高級(jí)策略。它評(píng)估初始狀態(tài)，以根據(jù)識(shí)別出的制定確定性的執(zhí)行路徑。

推理過程作為一個(gè)上下文感知的軌跡不斷演進(jìn)。如下圖 2 所示，系統(tǒng)并不遵循僵化的工作流；相反，它會(huì)根據(jù)用戶請(qǐng)求進(jìn)行動(dòng)態(tài)調(diào)整。通過評(píng)估初始狀態(tài)中認(rèn)知差距的具體性質(zhì)（例如事實(shí)缺失或邏輯沖突），規(guī)劃器推斷出證據(jù)積累的最佳結(jié)構(gòu)，將執(zhí)行路由到專門的搜索或推理分支。這有效地將推理計(jì)算與用戶意圖的內(nèi)在復(fù)雜性對(duì)齊。最終，本工作的目標(biāo)是基于最終收斂狀態(tài) 生成最優(yōu)目標(biāo)圖像。該狀態(tài)包含整合后的主提示詞（Master Prompt）和經(jīng)過驗(yàn)證的視覺參考，從而將靜態(tài)生成轉(zhuǎn)化為一個(gè)動(dòng)態(tài)、顯式的證據(jù)積累過程。

認(rèn)知差距檢測

用戶指令通常包含超出模型參數(shù)知識(shí)邊界的隱式約束和長尾概念。為了解決這個(gè)問題，本文引入了認(rèn)知差距檢測（Cognitive Gap Detection）策略，將其集成在意圖分析智能體（Intent Analysis Agent, ）中作為一個(gè)元規(guī)劃器，以彌合這一認(rèn)知鴻溝。具體而言，它通過 5W1H（What, When, Where, Why, Who, How）范式將文本指令和可選圖像映射到一個(gè)結(jié)構(gòu)化的語義空間中，建立一個(gè)多模態(tài)的“真實(shí)基準(zhǔn)（Ground Truth）”來確定信號(hào)的主導(dǎo)權(quán)。隨后，該模塊通過檢測需要外部驗(yàn)證的特定實(shí)體或邏輯依賴項(xiàng)，執(zhí)行嚴(yán)格的差距分析。內(nèi)部知識(shí)中缺失的信息被形式化為一組顯式的原子問題，記為。基于的組成，系統(tǒng)實(shí)例化一個(gè)動(dòng)態(tài)執(zhí)行策略，將工作流路由到動(dòng)作空間中定義的適當(dāng)事實(shí)錨定（factual grounding）或邏輯推理（logical reasoning）分支。

自適應(yīng)知識(shí)補(bǔ)全

為了彌合識(shí)別出的認(rèn)知差距，Mind-Brush 采用了一種內(nèi)部邏輯推導(dǎo)機(jī)制。與僵化的單路徑系統(tǒng)不同，執(zhí)行策略根據(jù) 的復(fù)雜性靈活組合檢索和推理工具。

外部知識(shí)錨定（External Knowledge Anchoring）：對(duì)于涉及分布外（OOD）實(shí)體或動(dòng)態(tài)事件的差距，框架會(huì)激活認(rèn)知搜索智能體（Cognition Search Agent, ）。它首先利用一個(gè)關(guān)鍵字生成器來綜合用戶的多模態(tài)輸入（）和識(shí)別出的差距，生成精確的文本查詢和初始視覺查詢。在從開放世界知識(shí)庫中檢索到事實(shí)文檔后，系統(tǒng)執(zhí)行雙重更新操作：其中，檢索到的概念被重新注入到用戶指令中（）以更新文本上下文，同時(shí)校準(zhǔn)視覺查詢（）以確保隨后檢索到的參考圖像與經(jīng)過驗(yàn)證的事實(shí)保持一致。內(nèi)部邏輯推導(dǎo)（Internal Logical Derivation）：對(duì)于需要復(fù)雜演繹的差距（例如，解決中的數(shù)學(xué)問題或從檢索數(shù)據(jù)中推斷空間關(guān)系），系統(tǒng)觸發(fā)思維鏈知識(shí)推理智能體（CoT Knowledge Reasoning Agent, ）。該引擎作為一個(gè)邏輯處理器，攝取用戶指令、輸入圖像，以及至關(guān)重要的積累搜索證據(jù)（）。它執(zhí)行多步推理以解決隱式?jīng)_突或解釋檢索到的視覺數(shù)據(jù)，從而產(chǎn)生顯式的結(jié)論。

最終的證據(jù)集為生成形成了一個(gè)全面且邏輯一致的認(rèn)知上下文。

約束生成

外部信息的積累帶來了冗余或不相關(guān)的風(fēng)險(xiǎn)。因此，最后階段的重點(diǎn)是信息整合與條件合成。首先，概念審查智能體（Concept Review Agent, ）作為一個(gè)整合機(jī)制，從脫節(jié)的證據(jù)流中過濾噪聲。它將經(jīng)過驗(yàn)證的事實(shí)和邏輯結(jié)論與用戶的原始創(chuàng)作意圖綜合起來，將它們重寫為一個(gè)結(jié)構(gòu)化的主提示詞。該提示詞明確闡述了以前隱式或未知的視覺屬性。隨后，統(tǒng)一圖像生成智能體（Unified Image Generation Agent, ）執(zhí)行視覺合成。與標(biāo)準(zhǔn)的 T2I（文本到圖像）模型不同，同時(shí)受文本對(duì)齊的和自適應(yīng)視覺提示的條件約束。具體而言，基于用戶意圖，該機(jī)制在生成和編輯模式之間動(dòng)態(tài)選擇，以確定視覺條件源（即來自或）。這些約束有效地引導(dǎo)模型實(shí)現(xiàn)對(duì)用戶創(chuàng)意愿景的高保真度，同時(shí)嚴(yán)格遵守在知識(shí)獲取階段建立的事實(shí)和邏輯邊界。

Mind-Bench 基準(zhǔn)測試

動(dòng)機(jī)與任務(wù)定義

為了探究“認(rèn)知生成”的邊界，本文提出了 Mind-Bench，一個(gè)包含 500 個(gè)樣本的綜合基準(zhǔn)，旨在客觀評(píng)估依賴于動(dòng)態(tài)外部知識(shí)和用戶意圖推理的生成能力。如下圖 1 所示，基準(zhǔn)分為兩大類，涵蓋 10 個(gè)不同的子領(lǐng)域：

知識(shí)驅(qū)動(dòng)任務(wù)（Knowledge-Driven Tasks）：包括特殊事件、天氣、角色、物體和世界知識(shí)。核心挑戰(zhàn)在于減輕對(duì)分布外（OOD）實(shí)體的幻覺。

推理驅(qū)動(dòng)任務(wù)（Reasoning-Driven Tasks）：包括生活推理、地理推理、數(shù)學(xué)、科學(xué)與邏輯，以及詩歌。核心挑戰(zhàn)在于模型從表面簡單的指令中推導(dǎo)出隱式約束的能力。

基準(zhǔn)構(gòu)建與評(píng)估標(biāo)準(zhǔn)

基準(zhǔn)通過嚴(yán)格的“人機(jī)協(xié)作管道”構(gòu)建，確保多維度的復(fù)雜性和事實(shí)可靠性。為了準(zhǔn)確反映模型在復(fù)雜認(rèn)知任務(wù)中的可用性，本文提出了基于檢查表的嚴(yán)格準(zhǔn)確率（Checklist-based Strict Accuracy, CSA）作為核心指標(biāo)，如下圖 3 所示。該標(biāo)準(zhǔn)采用 MLLM 評(píng)判器在“整體通過標(biāo)準(zhǔn)（Holistic Pass Criterion）”下對(duì)照檢查表仔細(xì)審查生成的圖像。準(zhǔn)確率定義為：

其中為指示函數(shù)，如果圖像滿足檢查項(xiàng)則返回 1。只有當(dāng)所有子項(xiàng)都被驗(yàn)證為“通過”時(shí)，該樣本才被視為正確。

實(shí)驗(yàn)

本文通過大量實(shí)驗(yàn)全面評(píng)估了 Mind-Brush 框架在理解用戶意圖和生成長尾概念方面的能力，主要在 Mind-Bench、WISE 和 RISEBench 三個(gè)基準(zhǔn)上進(jìn)行了測試，并與當(dāng)前的專有模型（如 GPT-Image系列、Nano Banana系列、FLUX系列）和開源 SOTA 模型（如 SD 3.5, Bagel, Qwen-Image 等）進(jìn)行了廣泛對(duì)比。此外，相關(guān)的評(píng)估協(xié)議、任務(wù)分類分布對(duì)比等詳細(xì)數(shù)據(jù)可分別在下表 7 和下表 8 中找到。

主要實(shí)驗(yàn)結(jié)果總結(jié)如下：

Mind-Bench 基準(zhǔn)上的表現(xiàn)：

如下表 1 所示，Mind-Brush 在知識(shí)驅(qū)動(dòng)和推理驅(qū)動(dòng)任務(wù)上均取得了顯著提升。相較于開源基線模型 Qwen-Image，Mind-Brush 將整體嚴(yán)格準(zhǔn)確率（CSA）從 0.02 驚人地提升至 0.31，實(shí)現(xiàn)了從 0 到 1 的能力飛躍。不僅超越了 SD-3.5 Large，甚至在多項(xiàng)任務(wù)上媲美或超過了眾多強(qiáng)大的閉源專有模型（如超越了 GPT-Image-1.5 的 0.21）。

WISE 與 RISEBench 上的表現(xiàn)：

如下表 2 所示，在側(cè)重世界知識(shí)的 WISE 基準(zhǔn)上，Mind-Brush 獲得了 0.78 的綜合 WiScore，比基礎(chǔ)模型 Qwen-Image 提高了 25.8%，追平了頂級(jí)的 GPT-Image-1。在側(cè)重邏輯與視覺編輯的 RISEBench 上，本方法在“指令推理（Instruction Reasoning）”維度獲得了 61.5 的高分，大幅超越 Bagel 等模型，整體準(zhǔn)確率（24.7%）同樣逼近最先進(jìn)的專有模型。

定性比較與過程可視化：

如下圖 4 所示，定性結(jié)果直觀地展示了 Mind-Brush 在處理知識(shí)驅(qū)動(dòng)任務(wù)時(shí)如何有效利用搜索工具檢索視覺參考（例如對(duì)冷門 IP 概念的準(zhǔn)確還原），并在推理驅(qū)動(dòng)任務(wù)中正確解構(gòu)數(shù)學(xué)邏輯和空間關(guān)系，避免了基線模型常犯的事實(shí)錯(cuò)誤和邏輯斷層。如下圖 19 所示和如下圖 20 所示，展示了 Mind-Brush 在處理復(fù)雜的地理數(shù)學(xué)任務(wù)和純數(shù)學(xué)可視化任務(wù)時(shí)，其逐步檢索、推理并最終約束生成的完整工作流。

消融實(shí)驗(yàn)與架構(gòu)分析：

如下表 3 所示的消融研究證實(shí)了認(rèn)知搜索智能體和知識(shí)推理智能體的有效性。單獨(dú)加入推理智能體或搜索智能體均能帶來特定領(lǐng)域的提升，而兩者的協(xié)同作用則達(dá)成了最優(yōu)的綜合表現(xiàn)。如下表 6 所示，在探索不同 MLLM 骨干和生成引擎的實(shí)驗(yàn)中發(fā)現(xiàn)，智能體大腦的強(qiáng)度（如使用 GPT-5.1 替代 Qwen3-VL）主導(dǎo)了整體性能的上限；同時(shí)，更強(qiáng)的底層圖像生成器（如 GPT-Image-1）可以與 Mind-Brush 框架協(xié)同，實(shí)現(xiàn)性能的成倍增長。

額外基準(zhǔn)擴(kuò)展測試：

如下表 4 所示和如下表 5 所示，在側(cè)重指令遵循的 GenEval++ 和側(cè)重創(chuàng)意生成的 Imagine-Bench 上，Mind-Brush 同樣展現(xiàn)出優(yōu)越的性能，甚至在部分子任務(wù)（如位置/計(jì)數(shù)、時(shí)空異化等）上表現(xiàn)超越了目前最優(yōu)的 Agentic 基線 GenAgent，展現(xiàn)出極強(qiáng)的長尾指令處理與泛化能力。

總結(jié)

本文引入了 Mind-Brush，一種免訓(xùn)練的智能體框架（training-free agentic framework），它將文本到圖像（text-to-image）的生成從被動(dòng)解碼轉(zhuǎn)化為一種主動(dòng)的認(rèn)知工作流。通過協(xié)調(diào)意圖分析、多模態(tài)錨定以及顯式的思維鏈（Chain-of-Thought）推理，Mind-Brush 有效地彌合了模糊的用戶意圖與精確的、以事實(shí)為基礎(chǔ)的視覺合成之間的差距。為了對(duì)此進(jìn)行嚴(yán)格的評(píng)估，本工作建立了 Mind-Bench，這是一個(gè)旨在針對(duì)知識(shí)密集型和依賴推理的任務(wù)對(duì)模型進(jìn)行壓力測試的基準(zhǔn)。經(jīng)驗(yàn)結(jié)果表明，本框架顯著優(yōu)于現(xiàn)有的最先進(jìn)模型，證實(shí)了主動(dòng)檢索與邏輯演繹協(xié)同作用的有效性。本工作相信，這種向“智能體生成范式（Agentic Generative Paradigm）”的轉(zhuǎn)變，為能夠在視覺合成領(lǐng)域解決復(fù)雜問題的下一代系統(tǒng)鋪平了道路。

參考文獻(xiàn)

[1] Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

原文標(biāo)題 : 圖像生成迎來“思考-研究-創(chuàng)造”新范式！Mind-Brush:統(tǒng)一意圖分析、多模態(tài)搜索和知識(shí)推理

圖像生成 Mind-Brush 模型