高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯
加入自媒體

4B參數(shù)干翻14B!國產(chǎn)統(tǒng)一多模態(tài)“全能戰(zhàn)士” InternVL-U開源:理解、生成與編輯迎新高度

2026-03-13 14:33
AI生成未來
關注

作者:Changyao Tian等

解讀:AI生成未來
InternVL-U生成和圖像編輯效果

InternVL-U生成和圖像編輯效果

亮點直擊

InternVL-U 架構:構建了一個僅有 4B 參數(shù)的輕量級、高效統(tǒng)一多模態(tài)模型(UMM),在一個統(tǒng)一的框架內(nèi)實現(xiàn)了多模態(tài)的理解、推理、生成與編輯能力。

架構設計理念創(chuàng)新:基于統(tǒng)一上下文建模(Unified Contextual Modeling)、視覺表示解耦(Decoupled Visual Representations)以及特定模態(tài)模塊化(Modality-Specific Modularity)三大原則,成功解決了高層語義理解與底層像素重建之間的沖突。

以推理為中心的數(shù)據(jù)合成范式(Reasoning-centric Paradigm):針對高語義密度任務(如文本渲染、科學推理、空間操作等),構建了全面的數(shù)據(jù)合成pipeline。通過引入思維鏈(Chain-of-Thought, CoT),將用戶抽象模糊的意圖轉(zhuǎn)化為包含規(guī)劃與約束的可執(zhí)行步驟,實現(xiàn)了從簡單指令遵循到深度意圖對齊的跨越。

解決的問題

性能與效率的權衡(Trade-offs):現(xiàn)有的統(tǒng)一多模態(tài)模型很難在“保持強大的語義理解能力”與“獲得高質(zhì)量的圖像生成能力”之間取得平衡。

原生與集成 UMM 的架構缺陷:完全原生(Fully-native)UMM:從頭聯(lián)合訓練理解和生成任務面臨巨大的優(yōu)化和工程挑戰(zhàn)(不同模態(tài)數(shù)據(jù)分布沖突),且往往需要放棄社區(qū)已有 SOTA 多模態(tài)理解模型的先驗知識,訓練成本極高。完全集成(Fully-ensemble)UMM:通常需要外接極其龐大的視覺生成頭(導致訓練和部署成本劇增),或者引入復雜且碎片化的條件控制管道,難以與單一 MLLM 的隱藏狀態(tài)空間完美對齊。

訓練數(shù)據(jù)分布的領域鴻溝:生成模型通常在紋理豐富但語義密度低的自然圖像上訓練,而理解模型則高度依賴包含密集語義、文本和結構化知識的合成圖像(如 GUI、圖表)。這種數(shù)據(jù)目標的錯位阻礙了面向 AGI 的統(tǒng)一模型的演進。

用戶意圖的抽象性:在真實場景中,用戶給出的生成或編輯指令往往簡短且模糊,缺乏具體約束,導致模型難以準確捕捉意圖并生成符合邏輯的精細圖像(特別是涉及文本、科學知識和復雜邏輯時)。

提出的方案

基于先進 MLLM 的模塊化架構:InternVL-U 建立在開源且性能領先的 InternVL 3.5 基礎之上,保留了強大的理解能力,并定制集成了一個基于 MMDiT 的輕量視覺生成頭(Visual Generation Head)。

視覺表示解耦:在理解任務中,輸入使用預訓練 ViT 提取的高層語義特征;在生成任務中,輸出目標則使用專門用于圖像重建的 VAE 壓縮的潛空間(Latent space)特征。

高質(zhì)量、高語義密度數(shù)據(jù)pipeline:設計了針對中英雙語排版渲染、科學知識結構化(基于 GeoGebra 和 SVG)、空間幾何變換以及網(wǎng)絡熱梗(Meme)的專門合成pipeline。

引入 CoT 推理引導生成與編輯:在訓練和推理階段利用大模型生成詳細的“思維鏈”步驟,將抽象指令擴展為對物體、背景、樣式、約束條件的詳細描述,使得生成模型能獲得更清晰、更穩(wěn)定的監(jiān)督信號。

應用的技術

混合生成目標(Hybrid Generative Objectives):對離散的文本采用標準的自回歸(AR)下個 Token 預測;對連續(xù)的視覺圖像潛變量采用基于流匹配(Flow Matching)的連續(xù)多變量概率空間建模。

帶門控注意力的雙流 MMDiT(Dual-Stream MMDiT with Gated Attention):視覺生成頭采用雙流架構處理多模態(tài)上下文和生成目標,引入元素級門控機制(Gating Mechanism)來增強非線性,緩解高分辨率長上下文場景下的“注意力下沉(Attention-sink)”問題。

具有分辨率插值的統(tǒng)一 MSRoPE(Unified MSRoPE with Resolution Interpolation):對上下文中的視覺 Token 和生成目標應用統(tǒng)一的 3D 旋轉(zhuǎn)位置編碼。采用分辨率插值策略(通過增加相鄰 Token 的步幅而非縮小索引范圍)來處理從低分辨率向高分辨率微調(diào)時的擴展問題。

三階段漸進式訓練(Three-stage Progressive Training):

生成頭預訓練:凍結 MLLM,僅訓練生成頭及投影層,將視覺生成對齊到 MLLM 潛空間。

任意分辨率持續(xù)預訓練:引入多種長寬比和更高分辨率,保持 MLLM 凍結,顯式注入條件圖像的 VAE 潛特征以提升編輯的像素級一致性。

統(tǒng)一監(jiān)督微調(diào):解凍全模型進行端到端優(yōu)化,加入 CoT 推理數(shù)據(jù),讓模型學會在視覺執(zhí)行前通過文本推理進行規(guī)劃。

達到的效果

性能越級:盡管總參數(shù)量僅為 4B(2B MLLM + 1.7B 生成頭),InternVL-U 在各類生成和編輯任務上持續(xù)超越了規(guī)模是其 3 倍以上的統(tǒng)一基線模型(如 14B 的 BAGEL)。

卓越的文本渲染與復雜生成能力:在通用的、以文本為中心的(如海報、UI 編輯)、以及知識密集型(如數(shù)學、物理原理圖)基準測試中表現(xiàn)優(yōu)異,尤其是在生成高可讀性文本和遵循復雜指令方面,逼近了更大規(guī)模的專用生成模型。

保持頂尖的理解與推理水平:在統(tǒng)一了生成和編輯能力后,InternVL-U 在多模態(tài)理解基準測試(如 MME-P、OCRBench、MMMU)上依然保持了與純理解模型相當?shù)膹姶竽芰Γ瑳]有出現(xiàn)“災難性遺忘”或能力妥協(xié)。

InternVL-U方法

模型架構

總體設計原則

如圖 3 所示,與近期強制對所有模態(tài)采用同質(zhì)化處理管道的方法(例如 Mixture-of-Transformer (MoT))不同,本工作架構的驅(qū)動理念是:不同的模態(tài)需要定制化的處理方式,以實現(xiàn)效率和性能的最大化。本文從三個關鍵維度闡述了設計原則:建模范式、結構效率和數(shù)據(jù)表示。

具有模態(tài)自適應生成的統(tǒng)一上下文建模。 第一個原則旨在解決多模態(tài)理解(上下文)與生成(預測)之間的二分法。本文認為,盡管上下文環(huán)境受益于統(tǒng)一的表示以促進深度語義融合,但生成過程應當尊重每種模態(tài)固有的統(tǒng)計特性。

統(tǒng)一的上下文,自適應的目標: 在上下文階段,本文將視覺和語言 Token 投影到一個共享的潛空間中,采用帶有因果掩碼的統(tǒng)一自回歸(AR)范式。這確保了模型在推理過程中能夠捕獲模態(tài)間復雜的高層語義依賴關系。

混合生成目標: 然而,對于預測目標,本文偏離了“一切皆 Token 化”的方法。文本本質(zhì)上是離散且具有序列性的,最適合通過交叉熵損失在有限詞表上進行分類分布建模。相反,視覺信號是連續(xù)且具有空間相關性的。雖然離散的視覺 Token 化是一種可行的替代方案(正如基于 VQ-VAE 的自回歸模型那樣),但它可能會引入量化瓶頸,并使得細粒度的空間建模變得不夠直接。因此,本文采用了混合的 “自回歸 + 擴散” 建模范式。本文在連續(xù)的多變量概率空間中使用流匹配(Flow Matching,擴散模型的一種廣義形式)來建模圖像生成,同時保留了文本的自回歸目標。這種設計允許模型保留自回歸語言模型在文本上的優(yōu)勢,同時利用基于擴散的方法在圖像上高保真生成的潛力。

通過特定模態(tài)模塊化設計實現(xiàn)結構效率。 第二個原則旨在解決完全模態(tài)不可知架構在計算上的低效問題,這類架構將所有模態(tài)視為統(tǒng)一的 Token 序列。本文認為不同模態(tài)具有不同的“語義密度”:文本語義密集,而原始視覺 Patch 則是稀疏且冗余的。

基于編碼器的 MLLM 初始化: 為了減輕使用通用 Transformer 處理原始模態(tài)時固有的參數(shù)和 FLOPs 浪費,本文引入了特定模態(tài)的編碼主干(Stems)。本文使用基于編碼器的架構(利用預訓練的 ViT)來初始化多模態(tài)上下文建模骨干,而不是使用更龐大或原生的多模態(tài)設計。這種設計引入了必要的歸納偏置,在視覺信息進入統(tǒng)一潛空間之前對其進行了高效聚合。

特定模態(tài)生成頭: 此外,考慮到文本和圖像的解碼需求不同,本文擴展了預訓練的 MLLM,為其增加了一個基于多模態(tài)擴散 Transformer(MMDiT)架構的專用圖像生成頭。MMDiT 作為一個專用的生成模塊,以統(tǒng)一的隱藏狀態(tài)作為條件信號,在連續(xù)的視覺潛空間中合成圖像,而不是讓上下文建模骨干去承擔像素級合成的重擔。這種層次化設計確保了骨干網(wǎng)絡可以專注于語義推理,而專門的主干和頭部模塊則負責特定模態(tài)的轉(zhuǎn)換,從而構建出一個更加統(tǒng)一且計算高效的 UMM。

用于理解與生成的解耦視覺表示。 第三個原則挑戰(zhàn)了這樣一個假設:用于理解圖像的視覺表示必須與用于生成圖像的視覺表示完全相同。本文提出了一種不對稱的表示策略,其動機在于:圖像理解主要依賴于包含語義信息的特征,而圖像生成則額外需要能夠保留可重建底層視覺細節(jié)的表示(正如人類可以感知復雜的場景,但未必能將其畫出來一樣)。

用于上下文理解的語義輸入: 對于理解任務(上下文),本文僅利用通過預訓練 ViT 直接從原始像素中提取的高層語義特征。這有助于保留復雜推理所需的語義保真度。

用于生成目標的壓縮輸出: 對于生成任務(目標),本文采用了一個專門為圖像重建訓練的獨立變分自編碼器(VAE)。該 VAE 將圖像壓縮到一個適合用于合成的潛空間中。

通過解耦這些表示,本工作不僅避免了“優(yōu)化權衡”(即單一編碼器難以平衡理解所需的高層抽象和生成所需的底層像素細節(jié)),還避免了因?qū)⑸赡繕溯斎肷舷挛墓歉删W(wǎng)絡而增加的計算成本和架構復雜性。這使得本文能夠在不犧牲生成質(zhì)量的前提下,利用最強大的預訓練編碼器進行理解。

視覺生成頭

基于上述原則,進一步詳細介紹了定制開發(fā)的視覺生成頭的實現(xiàn)細節(jié),如圖 4 所示。

用于上下文和目標輸入的雙投影器。 多模態(tài)隱藏狀態(tài)(上下文)和 VAE 圖像潛變量(目標)的特征分布展現(xiàn)出顯著的異質(zhì)性。為了彌合這種異質(zhì)性,本文采用獨立的線性投影器將它們映射到視覺生成模塊的條件空間中。關鍵的是,本文觀察到,多模態(tài)上下文嵌入往往比 VAE 潛變量表現(xiàn)出更大的量級和更明顯的異常值。為了減少這種尺度不匹配并提高訓練穩(wěn)定性,本文在投影之前在 VLM 分支上引入了一個額外的歸納層,顯式地將上下文特征的方差歸一化為 1。

帶有門控注意力的雙流 MMDiT 模塊。 本文采用了完全的雙流(Dual-Stream)架構,以應對多模態(tài)上下文和生成目標的截然不同的統(tǒng)計特性。雖然雙流通過聯(lián)合自注意力進行交互以捕獲 Token 級的依賴關系,但它們在 QKVO 投影和前饋網(wǎng)絡(FFNs)上使用了獨立解耦的參數(shù)。此外,為了增強非線性并緩解在高分辨率、長上下文場景下觀察到的“注意力下沉(Attention-sink)”現(xiàn)象,本文在注意力模塊中集成了一個元素級門控機制(Gating Mechanism)。形式上,注意力層調(diào)制后的輸出  為:

其中  表示 Sigmoid 函數(shù), 和  分別表示注意力層的輸入和輸出, 表示可學習的門控投影矩陣,該矩陣同樣在雙流中是解耦的。據(jù)本文所知,這是首次在 MMDiT 架構中集成門控機制,它以極小的參數(shù)開銷提供了更強的表達能力。

具有分辨率插值的統(tǒng)一 MSRoPE。 本文采用多模態(tài)可擴展的旋轉(zhuǎn)位置編碼(Multimodal Scalable RoPE, MSRoPE)對位置信息進行編碼,確保嚴格保留空間結構。

統(tǒng)一的 3D 編碼: 過去的許多工作往往將多模態(tài)上下文中的視覺 Token 視為展平的 1D 序列,與此不同,本文對生成目標和上下文中的視覺 Token 均應用統(tǒng)一的 3D 位置嵌入(時間、高度、寬度)。這種對齊方式顯著有利于需要精確空間推理的任務,例如圖像編輯。

位置插值: 為了促進分辨率的縮放,本文解決了在高分辨率微調(diào)期間直接外推位置索引時觀察到的“平鋪偽影(tiling artifact)”問題。取而代之的是,本文采用了一種分辨率插值策略。本文基于目標的最大分辨率(例如 1024px)定義位置嵌入的范圍。在初始的低分辨率預訓練階段(例如 512px),本文并沒有使用較小的索引范圍,而是利用了完整的范圍,但增加了相鄰 Token 之間的步幅。這確保了模型從一開始就學習到一致的全局空間表示,從而在擴展到更高分辨率時最小化領域鴻溝。

訓練策略

訓練目標

為了賦予 UMM 處理和生成多模態(tài)內(nèi)容的能力,本文制定了一個聯(lián)合優(yōu)化目標。給定多模態(tài)上下文序列 ,模型被訓練為同時預測離散的文本 Token  和連續(xù)的圖像潛變量表示 。

自回歸文本生成。 對于文本部分,本文將文本生成視為離散詞表上的序列建模問題。本文采用標準的下個 Token 預測(Next-Token Prediction, NTP)目標,即在給定上下文和前面 Token 的條件下,最小化目標 Token 的負對數(shù)似然:

其中  表示長度為  的文本序列中的第  個Token, 表示前面的 Token, 是統(tǒng)一模型的參數(shù)。這一目標確保模型保留了 MLLM 骨干網(wǎng)絡固有的推理和指令遵循能力。

用于圖像生成的流匹配。 對于視覺部分,本文采用帶有速度參數(shù)化(Velocity parameterization)的流匹配框架來對圖像潛變量的連續(xù)分布進行建模。不同于預測噪聲  的擴散模型,本文回歸的是將概率密度從高斯噪聲分布傳輸?shù)綌?shù)據(jù)分布的速度向量場 。根據(jù)流匹配和受最優(yōu)傳輸啟發(fā)的傳輸路徑的常用表達形式,本文假設噪聲  和真實圖像潛變量  之間存在標準線性插值路徑。在時間  的中間狀態(tài)定義為 。目標是最小化預測速度與線性軌跡上目標漂移之間的均方誤差:

其中  是模型在給定上下文  條件下預測時間  速度向量的輸出,而  表示沿線性軌跡的真實瞬時速度。

統(tǒng)一的訓練目標。 最終的訓練目標是離散和連續(xù)損失的加權總和:

其中  和  是平衡兩種模態(tài)的標量超參數(shù)。在實踐中,本文在不同的訓練階段(例如預訓練與監(jiān)督微調(diào)階段)動態(tài)調(diào)整這些系數(shù),以優(yōu)先關注特定的能力(如視覺保真度或推理能力)。

訓練pipeline

為了在遵循前面概述的架構原則的同時最大化訓練效率,本文基于一個專門為理解任務優(yōu)化的預訓練 MLLM 進行初始化。由于基礎 MLLM 缺乏視覺生成能力,本文設計了一個三階段課程(curriculum),在將視覺合成技能與語義推理統(tǒng)一起來之前,逐步解鎖這些技能。

階段 1:生成頭預訓練。 在初始階段,本工作專注于將新初始化的視覺生成頭與 MLLM 的潛空間對齊。本文凍結了 MLLM 以保留其語義表示,僅訓練生成頭和投影器。遵循前人工作,本文跳過了 256px 的預訓練,直接使用 512px 的固定分辨率來加速早期收斂。與以往僅依賴文本到圖像數(shù)據(jù)進行初始化的方法不同,本文從一開始就混合使用了文生圖和圖像編輯數(shù)據(jù)集。這種多任務策略迫使生成頭同時關注文本指令和視覺上下文 Token,為多模態(tài)條件對齊奠定了堅實的基礎。

階段 2:任意分辨率的持續(xù)預訓練。 在穩(wěn)定初始化的基礎上,本文推進到可變分辨率的訓練,以處理多樣化的長寬比并增強視覺保真度。此時 MLLM 骨干網(wǎng)絡仍保持凍結。本文對訓練語料庫進行了二次過濾,僅保留高美感樣本,并丟棄那些長寬比極端且可能引起訓練不穩(wěn)定的樣本。生成圖像的分辨率控制在 512 到 1024 像素之間,而長寬比維持在 0.5 到 2.0 之間。對于圖像編輯任務,保持輸入條件與輸出之間的像素級對齊至關重要。為此,本文進一步將條件圖像的 VAE 潛變量顯式地注入到視覺生成頭中,以實現(xiàn)更好的像素級一致性。

階段 3:統(tǒng)一監(jiān)督微調(diào)。 最后一個階段旨在進一步融合前幾個階段獲得的視覺生成能力與預訓練 MLLM 的推理能力。因此,包含 MLLM 骨干在內(nèi)的整個模型均被解凍,以實現(xiàn)端到端的優(yōu)化。訓練語料庫基于更嚴格的標準進一步過濾,并加入了額外 CoT 推理數(shù)據(jù)。通過將這些 CoT 數(shù)據(jù)與圖像生成和編輯數(shù)據(jù)混合,模型被賦予了在視覺域執(zhí)行生成之前,先通過文本推理進行規(guī)劃的能力。

數(shù)據(jù)構建

介紹了 InternVL-U 為何能在僅有 4B 參數(shù)的情況下實現(xiàn)強大的生成與編輯能力——核心在于其構建的一套高質(zhì)量、高語義密度的數(shù)據(jù)合成pipeline。

基礎數(shù)據(jù)清洗與多粒度標注:

開源數(shù)據(jù)整合與清洗:收集了海量開源的文生圖和圖像編輯數(shù)據(jù),并通過多維度過濾(美學評分、分辨率、去重、去水印、安全過濾)獲取高質(zhì)量子集。

多粒度 Caption 打標:利用先進的 MLLM(如 Qwen2.5-VL)生成從簡短(Concise)、密集(Dense)到以人為中心(Human-centric)的不同粒度圖像描述,增強文本與視覺概念的綁定。

四大高語義密度垂直領域數(shù)據(jù)合成:

以文本為中心(Text-centric):為了解決生成模型中“文字亂碼”的問題,專門設計了中英雙語的渲染與編輯pipeline。包括在純色或自然背景上動態(tài)排版文字,以及利用 OCR 和大模型結合的精準文本替換數(shù)據(jù)。

2.  以科學為中心(Science-centric):針對物理、化學、生物和計算機科學,利用編程工具(如 GeoGebra、SVG、matplotlib)合成具有嚴格邏輯和高度結構化的視覺文本數(shù)據(jù)(如復雜的物理受力圖、二叉樹結構圖等)。

3.  以空間幾何為中心(Spatial-centric):針對空間關系的精準控制,合成了包含3D立體幾何旋轉(zhuǎn)、平移、多視圖 CAD 等數(shù)據(jù),確保模型具備嚴格的三維空間感知能力。

4.  以幽默/熱梗為中心(Humor-centric/Meme):設計了包含文本檢測、消除、指令生成的五階段pipeline,專門用于表情包(Meme)的生成與二次編輯,捕捉人類的幽默、諷刺等抽象情緒。

核心殺手锏:以推理為中心的數(shù)據(jù)合成 (Reasoning-centric / CoT Paradigm) :

解決“抽象指令”痛點:用戶通常給出的指令非常簡短模糊(如“畫一個過周末的表情包”或“把這個改成玻璃材質(zhì)”)。

思維鏈增強:引入 CoT,利用大模型作為“翻譯官”,在原始輸入和最終輸出之間插入顯式的推理步驟。將抽象指令轉(zhuǎn)化為包含具體對象細節(jié)、屬性約束、執(zhí)行步驟的詳細描述,為模型提供更清晰、穩(wěn)定的監(jiān)督信號。

實驗評估

通過大量的基準測試,全面驗證了 InternVL-U 在“理解-推理-生成-編輯”四個維度的全能表現(xiàn)及“越級”戰(zhàn)斗力。

實驗設置與輕量化優(yōu)勢:

模型總參數(shù)量僅為 4B(2B 的理解骨干 + 1.7B 的視覺生成頭),但在測試中全面對標甚至超越了規(guī)模是其數(shù)倍(如 14B 甚至 20B)的統(tǒng)一多模態(tài)模型和專用生成模型。

多模態(tài)理解與推理 (強大的基本盤) :

無災難性遺忘:在賦予模型生成和編輯能力后,InternVL-U 在 MME-P、OCRBench、MMMU 等 7 個主流理解榜單上依然保持了頂尖水平,大幅超越同級別的統(tǒng)一模型(如 Janus-Pro, Ovis-U1),并在 MMMU 上打平了 14B 參數(shù)的 BAGEL。

圖像生成能力 (Text-to-Image Generation) :

通用生成:在 GenEval 和 DPG-Bench 上取得統(tǒng)一模型中的最高分,證明其在物體組合、屬性綁定方面的精準度。

文本渲染(拔尖能力):在 CVTG-2k 和 LongText-Bench 上表現(xiàn)出斷層式的領先,完美解決了以往統(tǒng)一模型難以渲染清晰、準確中英雙語文字的缺陷。

知識密集型生成:得益于 CoT 策略,在 WISE 和 GenExam(包含數(shù)理化生等學科題目)榜單上,模型能夠正確調(diào)用內(nèi)在的世界知識生成符合科學事實的圖像,CoT 的加入帶來了極其顯著的性能飛躍。

圖像編輯能力 (Image Editing) :

通用與文本編輯:在常規(guī)編輯榜單中展現(xiàn)了高保真的材質(zhì)替換與風格遷移能力。為了評估文本編輯,本文還專門提出了一個新的高質(zhì)量基準 TextEdit,在這個榜單上,InternVL-U 的 F1 分數(shù)直接對齊了閉源商業(yè)大模型(GPT-Image-1.5, Nano Banana Pro),遠超開源競品。

推理驅(qū)動編輯:在高度依賴邏輯推導的 RISEBench 榜單上,加入 CoT 策略的 InternVL-U 得分從 3.6 暴漲至 9.4,擊敗了所有開源統(tǒng)一模型以及專用的 Qwen-Image-Edit。模型能夠完美執(zhí)行如“時間計算”、“算法規(guī)則(二叉樹插入)”等復雜邏輯約束下的修改。

結論

InternVL-U,一個統(tǒng)一的多模態(tài)模型,有效實現(xiàn)了理解、推理、生成與編輯能力的普及。通過遵循統(tǒng)一上下文建模(Unified context modeling)、特定模態(tài)模塊化(Modality-specific modularity)以及視覺表示解耦(Decoupled visual representations)的原則,本文架構將強大的生成能力無縫集成到了表現(xiàn)優(yōu)異的理解骨干網(wǎng)絡中。

為了進一步彌合高層智能與視覺生成之間的鴻溝,本文引入了結合思維鏈(CoT)范式的全面數(shù)據(jù)合成pipeline,使模型能夠?qū)⒂脩舫橄蟮囊鈭D與精準的視覺執(zhí)行完美對齊。實證結果證實,InternVL-U 不僅在知識密集型的生成和編輯任務中表現(xiàn)出色,而且在多模態(tài)理解與推理基準測試中依然保持了極具競爭力的性能。

希望 InternVL-U 能夠作為一個強大的基線模型,從而加速整個社區(qū)在開發(fā)全面、全能且面向 AGI(通用人工智能)的統(tǒng)一多模態(tài)模型(UMMs)方面的研究進程。

參考文獻

[1] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

       原文標題 : 4B參數(shù)干翻14B!國產(chǎn)統(tǒng)一多模態(tài)“全能戰(zhàn)士” InternVL-U開源:理解、生成與編輯迎新高度

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號

    甘泉县| 明星| 姜堰市| 沐川县| 石门县| 靖州| 江阴市| 富宁县| 政和县| 曲水县| 朝阳市| 连江县| 乐安县| 平江县| 佛山市| 岳阳县| 新余市| 平阳县| 通榆县| 呼图壁县| 涟源市| 新乡县| 绥德县| 思南县| 孟村| 札达县| 南京市| 井陉县| 木里| 平塘县| 灵宝市| 耿马| 安阳县| 南陵县| 灵石县| 宣城市| 北宁市| 怀远县| 类乌齐县| 建昌县| 凤台县|