高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯(cuò)
加入自媒體

深度丨梁文鋒署名論文發(fā)布,DeepSeek用mHC新架構(gòu)“秀肌肉”

前言

2026年新年第一天,arXiv上一篇題為《mHC:Manifold-ConstrainedHyper-Connections流形約束超連接)》的論文。

與以往技術(shù)發(fā)布不同,這篇論文不僅提出一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu),而且特別有意思的是其創(chuàng)始人兼CEO梁文鋒親自出現(xiàn)在作者名單之中。

十年基石:殘差連接如何成為AI的[定海神針]

要理解mHC的革命性意義,必須先回溯深度學(xué)習(xí)的一段關(guān)鍵歷史。

2015年之前,神經(jīng)網(wǎng)絡(luò)領(lǐng)域存在一個(gè)致命悖論。理論上模型層數(shù)越深,擬合復(fù)雜函數(shù)的能力越強(qiáng),但實(shí)際訓(xùn)練中,層數(shù)超過幾十層就會(huì)出現(xiàn)梯度消失或爆炸,導(dǎo)致模型完全無法收斂。

當(dāng)時(shí)在微軟亞洲研究院的何愷明、張祥雨團(tuán)隊(duì),用殘差連接(Residual Connection)打破了僵局其核心公式簡單到令人驚嘆:y=x+F(x)。

就是這短短一個(gè)公式,讓訓(xùn)練上千層的深度網(wǎng)絡(luò)成為可能,也為后來的Transformer架構(gòu)奠定了基礎(chǔ),那篇?dú)埐钫撐闹两袢允茿I史上引用量最高的成果之一。

殘差連接的智慧,在于它為信息傳遞開辟了一條[應(yīng)急車道]。

如果把深度神經(jīng)網(wǎng)絡(luò)比作一座層層加工的工廠,傳統(tǒng)架構(gòu)中,輸入信息x必須經(jīng)過每一層的復(fù)雜變換f(x)才能到達(dá)輸出端

就像所有物料都要經(jīng)過每條生產(chǎn)線的加工,一旦某道工序出現(xiàn)偏差,后續(xù)就會(huì)[差之毫厘,失之千里]。

而殘差連接的x項(xiàng),相當(dāng)于在工廠里修了一條直達(dá)傳送帶,讓部分信息不經(jīng)過任何加工直接傳遞到下游。

這種設(shè)計(jì)的本質(zhì)是嵌入了[恒等映射](Identity Mapping),哪怕中間的變換函數(shù)F(x)學(xué)得一塌糊涂,x這條直通路徑也能把信號(hào)和梯度完整地送到深層,確保網(wǎng)絡(luò)不會(huì)[越算越跑偏]。

就像雕塑大師把創(chuàng)作從[直接塑形]變成[去除多余石料],殘差網(wǎng)絡(luò)讓每一層只需要學(xué)習(xí)增量變化,剩下的交給恒等映射兜底。

這一設(shè)計(jì)成為了深度學(xué)習(xí)的[定海神針],從2017年Transformer問世,到GPT、Llama、DeepSeek等主流大模型,幾乎所有深度神經(jīng)網(wǎng)絡(luò)都把殘差連接當(dāng)作標(biāo)配。

十年間,模型參數(shù)從百萬級(jí)增長到萬億級(jí),層數(shù)從幾十層堆疊到上千層,但殘差連接的核心邏輯始終未變

它證明了:讓網(wǎng)絡(luò)[可以很深]的關(guān)鍵,不是每層轉(zhuǎn)換多聰明,而是永遠(yuǎn)留一條[不作妖]的直達(dá)通路。

單車道不夠用了:HC的革新與失控

隨著大模型規(guī)模持續(xù)擴(kuò)張,研究者們開始不滿足于殘差連接的[單車道]設(shè)計(jì)。

如果把殘差流比作高速公路的主干線,當(dāng)車流量(信息吞吐量)越來越大,單車道的通行能力早晚會(huì)觸達(dá)瓶頸。

2024年9月,字節(jié)跳動(dòng)發(fā)表的Hyper-Connections(超連接,簡稱HC)論文,正是這一思路的落地。

HC的核心設(shè)計(jì)堪稱大膽將原本的殘差流寬度從C擴(kuò)展到n×C,相當(dāng)于把單車道擴(kuò)建成n條并行車道,同時(shí)引入可學(xué)習(xí)的混合矩陣,讓各車道的信息在每一層重新路由、融合。

實(shí)驗(yàn)結(jié)果令人振奮,多車道設(shè)計(jì)讓信息交互更充分,模型表達(dá)力顯著提升,在混合專家(MoE)模型上甚至實(shí)現(xiàn)了1.8倍的收斂加速。

就像把單股線織毛衣改成多股線,織出的[毛衣](模型)不僅更結(jié)實(shí),還能呈現(xiàn)更復(fù)雜的[花紋](特征表達(dá))。

但狂歡之下,隱患悄然滋生。HC看似完美的設(shè)計(jì),隱藏著一個(gè)致命缺陷:它拆掉了殘差連接恒等映射的守恒特性。

殘差連接之所以穩(wěn)定,是因?yàn)閤項(xiàng)的恒等映射天然具備[能量守恒],輸入信號(hào)不會(huì)被隨意放大或衰減。

而HC的混合矩陣是完全自由學(xué)習(xí)的,沒有任何約束,跨多層之后就變成了一串矩陣連乘。

這種無約束設(shè)計(jì),在大規(guī)模訓(xùn)練中會(huì)引發(fā)災(zāi)難性的[放大器效應(yīng)],如果某幾層學(xué)到的[殘差]在某些方向上略大于1,經(jīng)過幾十層、上百層的復(fù)合后,增長會(huì)呈指數(shù)級(jí)積累。

DeepSeek的實(shí)驗(yàn)數(shù)據(jù)顯示,HC架構(gòu)中,信號(hào)最大放大倍數(shù)能逼近3000倍,直接導(dǎo)致兩種訓(xùn)練災(zāi)難:要么信號(hào)爆炸、梯度爆炸,要么梯度消失,最終模型訓(xùn)練崩盤。

更棘手的是,HC的多車道設(shè)計(jì)還帶來了巨大的工程開銷,并行通道的增加讓GPU內(nèi)存占用和通信帶寬需求急劇上升,進(jìn)一步限制了其在更大規(guī)模模型中的應(yīng)用。

這就像把單車道擴(kuò)建成多車道后,沒有制定任何交通規(guī)則,結(jié)果不僅車流量沒提升,反而引發(fā)了連環(huán)車禍,還讓道路維護(hù)成本飆升。

HC的困境揭示了一個(gè)深刻矛盾大模型要提升表達(dá)力,就需要更復(fù)雜的拓?fù)浣Y(jié)構(gòu)和更多的連接通道;但連接越多、自由度越高,就越難維持訓(xùn)練的穩(wěn)定性。

這道穩(wěn)定性與表達(dá)力的選擇題,成為了大模型架構(gòu)演進(jìn)的核心瓶頸。

mHC破局:給自由的連接套上[數(shù)學(xué)護(hù)欄]

面對HC的困境,DeepSeek團(tuán)隊(duì)給出的解決方案mHC(流形約束超連接),其核心思想可以用一句話概括:你可以修立交橋、擴(kuò)多車道,但必須給交通流制定嚴(yán)格的守恒規(guī)則。

這個(gè)規(guī)則的數(shù)學(xué)載體,就是[雙隨機(jī)矩陣](Doubly Stochastic Matrix)。

簡單來說,雙隨機(jī)矩陣需要滿足兩個(gè)硬性條件:一是所有元素非負(fù);二是每一行的元素和為1,每一列的元素和也為1。正是這兩個(gè)約束,讓失控的HC重新找回了穩(wěn)定性。

雙隨機(jī)矩陣:重塑恒等映射的守恒性

雙隨機(jī)矩陣的魔力,在于它為信息傳遞建立了[能量守恒]機(jī)制。當(dāng)殘差映射矩陣被約束為雙隨機(jī)矩陣時(shí),輸出信號(hào)本質(zhì)上是輸入特征的[加權(quán)混合]。

權(quán)重總和始終為1,就像把一杯水倒入多個(gè)杯子再重新混合,總水量不會(huì)憑空增加或減少這種設(shè)計(jì)帶來了關(guān)鍵保障。

用通俗的比喻來說,mHC就像給多車道高速公路制定了完善的交通規(guī)則:車輛可以自由換道,但總車流不能憑空增減,車速不能超過上限,從而避免了擁堵和事故。

更巧妙的是,mHC還對前后殘差引入了非負(fù)約束(通過sigmoid函數(shù)實(shí)現(xiàn)),避免了正負(fù)系數(shù)復(fù)合導(dǎo)致的數(shù)值抵消,進(jìn)一步保障了信號(hào)傳遞的完整性。

Sinkhorn-Knopp算法:把[野矩陣]馴化成[乖矩陣]

要將自由學(xué)習(xí)的混合矩陣約束為雙隨機(jī)矩陣,需要[流形約束]這個(gè)關(guān)鍵的實(shí)現(xiàn)步驟。

DeepSeek采用了經(jīng)典的Sinkhorn-Knopp算法,這個(gè)過程就像一個(gè)[訓(xùn)練營],無論原始矩陣多么[放飛自我],經(jīng)過訓(xùn)練后都必須遵守[行列守恒]的硬紀(jì)律。

算法的核心流程十分簡潔:先讓矩陣所有元素變成嚴(yán)格正數(shù);反復(fù)交替進(jìn)行行歸一化(讓每一行和為1)和列歸一化(讓每一列和為1);迭代幾次后,矩陣會(huì)收斂到雙隨機(jī)結(jié)構(gòu)。

論文實(shí)驗(yàn)表明,僅需3次迭代就能達(dá)到足夠精度,而且整個(gè)過程完全可微分,支持端到端訓(xùn)練,不會(huì)給模型優(yōu)化帶來額外負(fù)擔(dān)。

這里的[流形](manifold)可以理解為一個(gè)特定形狀的光滑空間,DeepSeek沒有讓參數(shù)在整個(gè)歐氏空間亂跑,而是把它限制在一個(gè)有幾何結(jié)構(gòu)的可行集合里,確保每一步更新都不偏離守恒軌道。

這種設(shè)計(jì)的優(yōu)雅之處在于,它沒有引入任何新的超參數(shù),也沒有降低模型的表達(dá)能力,只是給原本自由的權(quán)重矩陣套上了一個(gè)數(shù)學(xué)上可證明的[安全邊界]。

這種設(shè)計(jì)從理論上解決了一個(gè)長期困擾產(chǎn)業(yè)界與學(xué)術(shù)界的問題:如何讓更復(fù)雜的信息通路在不犧牲訓(xùn)練穩(wěn)定性和可擴(kuò)展性的前提下發(fā)揮效能?

傳統(tǒng)方法往往在性能與穩(wěn)定性之間做取舍,而mHC嘗試通過數(shù)學(xué)約束實(shí)現(xiàn)雙贏。

硬核工程:6.7%開銷的背后,是重寫底層的勇氣

mHC的多車道設(shè)計(jì)和雙隨機(jī)矩陣計(jì)算,涉及大量分散的矩陣運(yùn)算和歸一化操作。

如果按常規(guī)方式執(zhí)行,會(huì)產(chǎn)生頻繁的內(nèi)存訪問,嚴(yán)重拖慢訓(xùn)練速度。

DeepSeek團(tuán)隊(duì)沒有調(diào)用現(xiàn)成的庫,而是基于TileLang框架手寫了底層CUDA內(nèi)核代碼,將多個(gè)分散的操作合并成一個(gè)融合內(nèi)核。

這種優(yōu)化就像把原本需要多次往返的快遞,合并成一次批量配送減少了內(nèi)存訪問次數(shù),提升了數(shù)據(jù)locality,僅這一項(xiàng)優(yōu)化就帶來了22%的帶寬提升。

針對Sinkhorn-Knopp算法,團(tuán)隊(duì)還設(shè)計(jì)了專門的前向和反向內(nèi)核,在芯片上重新計(jì)算中間結(jié)果,避免了額外的存儲(chǔ)開銷。

大模型訓(xùn)練中,激活值的存儲(chǔ)是內(nèi)存占用的主要來源之一。

mHC的多車道設(shè)計(jì)會(huì)讓激活值規(guī)模成倍增加,為了解決這個(gè)問題,DeepSeek采用了選擇性重計(jì)算策略在反向傳播時(shí),不存儲(chǔ)所有中間激活值,而是選擇性地重新計(jì)算部分結(jié)果。

這種策略看似增加了少量計(jì)算量,但大幅降低了內(nèi)存占用,實(shí)驗(yàn)顯示內(nèi)存消耗降低了40%。

在多卡并行訓(xùn)練中,設(shè)備間的通信延遲往往是性能瓶頸。

DeepSeek擴(kuò)展了DualPipe調(diào)度策略,通過將MLP層的特定內(nèi)核放在高優(yōu)先級(jí)計(jì)算流上執(zhí)行,讓計(jì)算任務(wù)與設(shè)備間的通信任務(wù)并行進(jìn)行。

當(dāng)一張GPU在發(fā)送數(shù)據(jù)時(shí),另一張GPU已經(jīng)在執(zhí)行計(jì)算,不會(huì)出現(xiàn)[閑等]的情況。

這套組合拳下來,mHC在擴(kuò)展系數(shù)n=4(即4條并行殘差流)時(shí),內(nèi)部實(shí)測的額外訓(xùn)練時(shí)間開銷僅為6.7%。

mHC作為擴(kuò)展性設(shè)計(jì),有望在以下多個(gè)層面帶來影響:

大規(guī)模LLM訓(xùn)練穩(wěn)定性:可以提升深層網(wǎng)絡(luò)擴(kuò)展規(guī)模的可控性

低成本訓(xùn)練策略:通過架構(gòu)優(yōu)化減少訓(xùn)練失敗和資源浪費(fèi)。

生態(tài)共享:若該架構(gòu)開源并被主流框架采納,將推動(dòng)整個(gè)社區(qū)對新連接機(jī)制的探索。

十年基石:殘差連接如何成為AI的[定海神針]

DeepSeek過去通過開源策略成功將自己置于全球技術(shù)對話中;這一次通過架構(gòu)創(chuàng)新進(jìn)一步強(qiáng)化其技術(shù)品牌。

mHC既是一個(gè)具體的架構(gòu)創(chuàng)新,也代表著DeepSeek在人工智能基礎(chǔ)架構(gòu)領(lǐng)域的更高目標(biāo),推動(dòng)整個(gè)行業(yè)對于訓(xùn)練穩(wěn)定性與可擴(kuò)展性問題的重新思考。

未來幾個(gè)月,這種思想能否轉(zhuǎn)化為即將發(fā)布的R2模型甚至更大規(guī)模的實(shí)際產(chǎn)品性能優(yōu)勢,將是真正的檢驗(yàn)。

但在AI競爭愈發(fā)激烈的今天,每一個(gè)早期且可能改變游戲規(guī)則的架構(gòu)創(chuàng)新,都值得我們?nèi)ド钊虢庾x與持續(xù)關(guān)注。

部分資料參考:騰訊科技:《梁文鋒帶隊(duì)DeepSeek,重置深度神經(jīng)網(wǎng)絡(luò)最底層的“定海神針”》,頭部科技:《下一代模型呼之欲出?!DeepSeek的新年禮物mHC是個(gè)啥?》,硅星人Pro:《梁文鋒DeepSeek新論文!接棒何愷明和字節(jié),又穩(wěn)了穩(wěn)AI的“地基”》,科技最前線:《一篇論文,解決大模型“越聰明越容易崩”的死結(jié)》

       原文標(biāo)題 : 深度丨梁文鋒署名論文發(fā)布,DeepSeek用mHC新架構(gòu)“秀肌肉”

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)

    平潭县| 岱山县| 龙泉市| 乌兰察布市| 宁都县| 大关县| 南陵县| 泾川县| 永福县| 富源县| 共和县| 沙河市| 房山区| 台南县| 孟连| 大化| 亳州市| 南宫市| 颍上县| 高邮市| 平湖市| 滦平县| 渭南市| 太白县| 湘阴县| 正阳县| 奉贤区| 沽源县| 阿坝| 萨迦县| 遂宁市| 昌乐县| 凉城县| 新闻| 宜宾市| 鹿泉市| 中江县| 台安县| 广元市| 仙桃市| 香港|