高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯
加入自媒體

AI生圖細(xì)節(jié)崩壞終結(jié)者!RefineAnything:多模態(tài)區(qū)域級精修,文字/Logo/人臉一鍵修復(fù),背景像素級不變

作者:Dewei Zhou等

解讀:AI生成未來

效果展示

輸入:

參考圖:

prompt: "Refine the LOGO"

輸出:

輸入:

prompt: "refine the text '鼎好商城'"

輸出:

【導(dǎo)語】 AI生圖技術(shù)日新月異,但"局部細(xì)節(jié)崩壞"始終是落地應(yīng)用的痛點(diǎn)——文字扭曲、Logo變形、手指畸變、細(xì)小結(jié)構(gòu)斷裂,這些問題在電商海報、廣告設(shè)計、UI素材等高精度場景中尤為致命,F(xiàn)有的編輯模型大多聚焦于粗粒度的語義編輯,難以在不破壞背景的前提下精修局部細(xì)節(jié)。為此,研究團(tuán)隊提出了 RefineAnything——首個專注于區(qū)域級圖像精修的多模態(tài)擴(kuò)散框架。只需用戶指定一個區(qū)域(涂鴉或框選),即可恢復(fù)區(qū)域內(nèi)的精細(xì)細(xì)節(jié),同時嚴(yán)格保證區(qū)域外的每一個像素不變,支持有參考圖和無參考圖兩種模式。該工作已被 ECCV 2026 接收。代碼已開源,準(zhǔn)備 release ckpt。

一、挑戰(zhàn):AI生圖的"最后一公里"難題

現(xiàn)代圖像生成模型在整體構(gòu)圖和語義上已經(jīng)表現(xiàn)優(yōu)秀,但在局部精細(xì)細(xì)節(jié)上仍頻繁"翻車":

局部細(xì)節(jié)崩壞 (Local Detail Collapse) :生成圖像中的文字、Logo、細(xì)線條等高頻結(jié)構(gòu)經(jīng)常出現(xiàn)扭曲、斷裂或模糊,而這些細(xì)節(jié)恰恰是商業(yè)場景中最關(guān)鍵的信息載體。

區(qū)域控制能力薄弱 (Weak Region Controllability) :現(xiàn)有的指令驅(qū)動編輯模型難以精確控制"在哪里修",用戶無法有效指定修復(fù)區(qū)域。

背景漂移問題 (Background Drift) :編輯模型在修復(fù)局部時,往往會無意間改變背景內(nèi)容,尤其當(dāng)目標(biāo)區(qū)域在全圖中占比較小時更為嚴(yán)重。

RefineAnything 正是為了同時解決這三大難題而設(shè)計——區(qū)域精準(zhǔn)、細(xì)節(jié)有效、背景不變。

二、RefineAnything 的核心方法

1. 整體架構(gòu):多模態(tài)條件驅(qū)動的區(qū)域精修

RefineAnything 構(gòu)建于 Qwen-Image 架構(gòu)之上,由三個核心組件組成:

**凍結(jié)的多模態(tài)編碼器 (Qwen2.5-VL)**:將輸入圖像、可選的參考圖像、區(qū)域標(biāo)注(涂鴉/框選)和文字指令統(tǒng)一編碼為多模態(tài)條件token,為去噪過程提供高層語義引導(dǎo)。

VAE 視覺編碼器:將輸入圖和參考圖編碼為 VAE 潛變量,提供底層精細(xì)視覺信息,與多模態(tài)token協(xié)同作用。

MMDiT 去噪骨干網(wǎng)絡(luò):在多模態(tài)token和VAE潛變量的雙重條件下,逐步去噪生成精修結(jié)果。僅需對注意力投影層(to_q, to_k, to_v, to_out)做 LoRA 微調(diào)即可訓(xùn)練。

這一架構(gòu)統(tǒng)一支持有參考圖(如根據(jù)原始Logo參考修復(fù)變形Logo)和無參考圖(如僅憑文字指令"修復(fù)人臉")兩種使用場景。

2. Focus-and-Refine:聚焦裁剪,精修回貼

這是 RefineAnything 的核心創(chuàng)新之一,源于一個反直覺的關(guān)鍵發(fā)現(xiàn):

在固定輸入分辨率下,將目標(biāo)區(qū)域裁剪出來并上采樣到全圖分辨率后再送入 VAE,雖然沒有引入任何新信息,但區(qū)域內(nèi)的重建質(zhì)量卻顯著優(yōu)于直接對全圖編碼。

這說明制約局部精修質(zhì)量的瓶頸并非信息量不足,而是模型的固定分辨率資源是否被分配到了正確的位置;诖,團(tuán)隊提出了三步式的 Focus-and-Refine 策略:

Step 1 — 區(qū)域定位與聚焦裁剪:根據(jù)用戶涂鴉/框選計算包圍盒,擴(kuò)展邊距后裁剪出目標(biāo)區(qū)域并上采樣至模型輸入分辨率,將分辨率資源集中在待修復(fù)區(qū)域。

Step 2 — 聚焦精修:在裁剪視圖上,以裁剪后的涂鴉Mask作為空間條件,執(zhí)行條件生成,配合可選參考圖產(chǎn)出精修結(jié)果。

Step 3 — 無縫回貼:對裁剪Mask進(jìn)行膨脹+高斯模糊生成柔和的融合Mask,將精修結(jié)果與原圖在裁剪區(qū)域內(nèi)加權(quán)混合后回貼到全圖,從架構(gòu)層面保證背景嚴(yán)格不變。

3. 邊界一致性損失 (Boundary Consistency Loss)

為進(jìn)一步消除回貼邊界處的接縫偽影,團(tuán)隊設(shè)計了一種邊界感知的訓(xùn)練損失:在編輯區(qū)域邊界附近的窄帶區(qū)域內(nèi)增強(qiáng)監(jiān)督權(quán)重,促使模型在訓(xùn)練階段就學(xué)會生成與周圍上下文自然融合的結(jié)果,顯著改善了回貼的自然度。

三、數(shù)據(jù)貢獻(xiàn):Refine-30K 數(shù)據(jù)集與 RefineEval 評測基準(zhǔn)

Refine-30K 訓(xùn)練數(shù)據(jù)集

團(tuán)隊構(gòu)建了包含 30K 樣本的專用訓(xùn)練集:

20K 有參考圖樣本:通過 VLM 跨圖定位 → SAM3 分割 → 涂鴉式局部降質(zhì) → 受控修復(fù)的完整流水線,生成高質(zhì)量的配對數(shù)據(jù)。

10K 無參考圖樣本:在單圖上定位顯著目標(biāo)、生成局部降質(zhì),并引入 VLM 缺陷驗證機(jī)制過濾不合理的退化樣本,確保數(shù)據(jù)質(zhì)量。

RefineEval 評測基準(zhǔn)

團(tuán)隊同時構(gòu)建了專用的評測基準(zhǔn) RefineEval,涵蓋 67 個案例、402 張退化輸入,分別評估有參考和無參考兩種設(shè)定下的編輯區(qū)域保真度和背景一致性。

四、實驗結(jié)果:全面超越強(qiáng)基線

1. 有參考圖精修

RefineAnything 在所有指標(biāo)上全面領(lǐng)先:相比最強(qiáng)開源基線 Kontext,MSE 降低 **50%**,LPIPS 降低 **41%**,DINO/CLIP 相似度分別提升 +0.108/+0.100。更值得注意的是,背景保持指標(biāo)接近完美(MSE_bg=0.000, SSIM_bg=0.9997),從根本上消除了背景漂移問題。

2. 無參考圖精修

在無參考圖設(shè)定下,RefineAnything 在全部五個維度上均排名第一,相比最強(qiáng)基線 Qwen-Edit 全面提升 +0.4~0.8 分。

3. 消融實驗:各組件均不可或缺

去掉 Focus-and-Refine:精修質(zhì)量明顯下降,細(xì)微錯誤難以修復(fù),且可能引入新偽影。

去掉 Boundary Consistency Loss:回貼邊界處出現(xiàn)可見接縫、顏色不一致和結(jié)構(gòu)不合理的拼接。

兩個核心組件協(xié)同工作,才能實現(xiàn)高質(zhì)量的局部精修與無縫融合。

五、總結(jié)與展望

RefineAnything 首次將區(qū)域級圖像精修作為專門的問題設(shè)定進(jìn)行研究,提出了完整的解決方案:

Focus-and-Refine 策略將模型的分辨率資源集中在目標(biāo)區(qū)域,大幅提升精修效果;

Boundary Consistency Loss 消除回貼邊界偽影,確保修復(fù)結(jié)果與周圍內(nèi)容自然融合;

Refine-30K + RefineEval 為該方向的訓(xùn)練和評測提供了標(biāo)準(zhǔn)化的數(shù)據(jù)支撐。

該框架在保證背景像素級不變的前提下,實現(xiàn)了文字、Logo、人臉、手部等精細(xì)細(xì)節(jié)的高質(zhì)量恢復(fù),為 AI 生圖在商業(yè)級高精度場景中的落地掃清了"最后一公里"障礙。

【結(jié)語】

RefineAnything 以其"聚焦裁剪—精修—無縫回貼"的優(yōu)雅設(shè)計,為 AI 圖像生成領(lǐng)域的局部細(xì)節(jié)修復(fù)問題提供了首個系統(tǒng)性的解決方案。從電商產(chǎn)品圖到廣告設(shè)計,從 UI 素材到社交媒體內(nèi)容,這一工作為需要"像素級精準(zhǔn)"的實際應(yīng)用場景帶來了切實可行的技術(shù)支撐。

參考文獻(xiàn)

[1]  RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

       原文標(biāo)題 : AI生圖細(xì)節(jié)崩壞終結(jié)者!RefineAnything:多模態(tài)區(qū)域級精修,文字/Logo/人臉一鍵修復(fù),背景像素級不變

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號

    绍兴县| 苏州市| 萨嘎县| 扎囊县| 文登市| 禄丰县| 喀什市| 海林市| 浮梁县| 宁远县| 平阴县| 乐昌市| 宝丰县| 桓台县| 邵武市| 鸡西市| 沭阳县| 敖汉旗| 靖远县| 城固县| 耒阳市| 沭阳县| 多伦县| 固原市| 江津市| 兰西县| 邯郸市| 马尔康县| 枣强县| 普兰县| 全州县| 克东县| 建水县| 崇阳县| 吉木萨尔县| 兴国县| 察雅县| 武鸣县| 邢台市| 于田县| 唐海县|