殘差連接被動刀了：DeepSeek 和 Kimi 先後改掉 Transformer 用了十年的「默認設定」

Attention Residuals 架構對比：Standard Residuals vs Full Attention Residuals vs Block Attention Residuals

作者： Wisely Chen 日期： 2026 年 3 月 系列： AI 前沿技術 關鍵字： Residual Connection, DeepSeek, mHC, Kimi, Moonshot AI, Attention Residuals, Transformer, 架構創新

為什麼我要寫這篇

最近在追論文的時候，發現一個很有意思的現象：2026 年第一季，三個月內，兩家中國實驗室先後對 Transformer 最基礎的零件——殘差連接（Residual Connection）——動了手術。

DeepSeek 的 mHC 在元旦發出來，梁文鋒署名。三個月後 Kimi（Moonshot AI）跟進了 Attention Residuals，馬斯克看完公開評了一句 “Impressive work”。

當這個級別的人點讚一篇基礎架構論文，代表的不只是論文本身，而是它指向的方向。

我不是做基礎研究的，但身為一個長期關注 AI 架構演進的工程師，這件事讓我覺得值得記錄下來。殘差連接這個東西，從 2015 年 ResNet 發明以來，所有人都覺得「就是這樣了，不需要改」。結果現在被改了，而且改得很漂亮。

先講一個比喻，你就懂了

想像 100 位廚師接力做一道菜。第 1 位廚師加了高湯底，第 2 位加了醬油，第 3 位加了一味很特別的香料⋯⋯每位廚師加完自己的調味之後，就把整鍋攪勻，傳給下一位。

傳統的殘差連接就是這個過程：每一層把自己的輸出攪進前面所有層的混合物裡，再傳給下一層。

問題來了：

第 80 位廚師想找回第 3 位加的那一味香料？ 抱歉，已經被後面 77 位廚師的調味蓋過去了，原味早就找不到了。
每位廚師只能嘗到同一鍋混合湯。 但負責煎的和負責燉的需要的底味根本不一樣，他們卻被迫用同一鍋「大雜燴」當基底。
越後面的廚師越難影響最終味道。 前面 80 位已經加了那麼多料，第 81 位想讓自己的味道被吃出來？得下比前面所有人加起來還重的手。

這三個問題，十年前不存在。2015 年 ResNet 做到 152 層，殘差連接完美解決了梯度消失，大家公認這個問題「已經被解決了」。但模型從百層變成千億參數、從影像分類變成多步推理之後，規模變了，問題的性質也跟著變了——殘差連接當年沒考慮到的限制，在今天的尺度下開始顯現。

直到今年，有人動手了。

第一刀：DeepSeek 的 mHC

2026 年元旦，DeepSeek 發了一篇論文：mHC（Manifold-Constrained Hyper-Connections）。梁文鋒署名。

他們問的問題是：混合的比例，能不能不要固定？

原本每層傳下來的混合比例是 1:1:1:1——每層的貢獻都一樣重。mHC 讓這個比例變成可學習的。但為了不讓模型在訓練時「學歪」，他們加了一個數學約束：把權重矩陣限制在「雙隨機矩陣」上（每行加起來等於 1、每列加起來也等於 1），保證信號不會爆炸。

用廚房的比喻來說：DeepSeek 讓每位廚師可以調整混合的配比——「第 5 位的調味多保留一點，第 12 位的少放一點」。 但湯還是混在一起的，你只是可以決定混合的比例。

代價：額外 6.7% 的訓練時間。效果：穩定超越原始殘差連接。

一句話總結：把固定配方升級成可調配方，同時用數學確保不會調爆。

第二刀：Kimi 的 Attention Residuals

三個月後，Kimi（Moonshot AI）出手了。馬斯克看完說了一句 “Impressive work”。

Kimi 問的問題更根本：就算配比可以調，整個設計還有什麼沒解決？

他們找到三個答案，每個都很直覺：

問題一：不能點菜

你去餐廳，服務生端來一盤「今日綜合料理」——所有菜混在一起。你說「我只想吃那塊牛排」，服務生說「不行，只有混合餐」。

這就是現在殘差連接的問題。每一層只能收到前面所有層混在一起的結果，不能單獨取用某一層的輸出。mHC 讓混合的比例更靈活了，但本質上你拿到的還是混合餐——只是調味不同。

問題二：資訊一旦混進去，就找不回來了

把一滴紅墨水滴進一杯水裡，攪勻。現在請你把紅墨水取回來。

做不到。這就是殘差連接的「資訊稀釋」問題。某一層學到了很有價值的特徵，但一旦被混進累積狀態，隨著後面幾十層不斷疊加，這個特徵越來越淡，最終被淹沒。不可逆。

問題三：越後面的層越沒有存在感

想像你在一間派對裡。前 80 個人都已經在聊天了，房間已經很吵。你是第 81 個到場的人，想讓大家聽到你說話？你得喊得比前面 80 個人加起來還大聲。

Kimi 的論文實際測量了這個效應：到模型最後幾層，信號量級是最開始的十多倍。後面的層要產生同等影響，得付出十倍以上的「音量」。

Kimi 的解法：一個很漂亮的類比

這三個問題——不能點菜、資訊找不回來、後面的層越來越難發聲——是不是有點眼熟？

如果你知道 2017 年之前的 NLP 是怎麼做的，你會覺得似曾相識。

那時候用的是 RNN（循環神經網路）。處理一段文字時，也是把所有歷史資訊壓縮進一個狀態，一步一步往前推。同樣的問題：前面的字被稀釋、後面的字越來越難影響結果、不能選擇性地回頭看早期內容。

2017 年，《Attention Is All You Need》提出了 Transformer，用注意力機制解決了這個問題。每個位置可以直接回頭看所有之前的位置，根據當前內容動態決定要關注哪裡。

但有意思的是：那篇論文升級了「文字之間」的資訊流，卻完全沒動「層與層之間」的資訊流。 殘差連接依然是 2015 年的固定累加，原封不動地活了九年。

Kimi 的洞察是：

處理文字時，我們已經用注意力替代了「壓縮傳遞」。那層與層之間，為什麼還在用「壓縮傳遞」？

所以他們做了一件很直覺的事：把注意力機制用到層與層之間的連接上。

回到廚房的比喻：Kimi 在每位廚師面前放了一個試味架，上面擺著前面每位廚師的「原味樣本」。 現在第 100 位廚師覺得「第 3 位當時加的那味香料我現在要用」，可以直接從試味架上舀一口原味，不用再從那鍋被改了 97 遍的混合湯裡猜。而且每位廚師會根據自己要做的菜，自己決定重點參考誰的味道——不是固定的，是看情況來的。

參數代價？每一層只多了一個向量。幾乎可以忽略。

直接對比：兩把刀的差異

	DeepSeek mHC	Kimi AttnRes
改的是什麼	混合調味的配比	整個傳菜的結構
權重是活的還是死的	訓練完就固定（靜態）	每次處理不同輸入都不同（動態）
能看到什麼	只能看到混合過的狀態	可以直接看所有前面層的原始輸出
解決了什麼	配比太死板	不能點菜 + 資訊被淹沒 + 後面層沒聲音
訓練額外開銷	6.7%	< 4%

論文裡有一個消融實驗特別有說服力：讓模型能看到所有之前層的輸出，但權重是固定的（訓練完就不變）——效果幾乎沒提升。換成動態權重（根據當前內容實時決定）——性能明顯提升。

結論很清楚：光是「能回頭看」不夠，必須是「根據內容動態地回頭看」才有價值。

工程落地：Block AttnRes

理論很美，但 100 多層的模型，每一層都存著所有前面層的輸出？記憶體吃不消。

Kimi 的工程方案是 Block AttnRes：把所有層分成大約 8 個「區塊」，區塊內還是用標準殘差累加，區塊與區塊之間用注意力。

好比把 100 位廚師分成 8 組。組內還是傳統的攪勻傳遞，但組與組之間放試味架。你不需要保留每位廚師的原味樣本，只要保留每一組的匯總味道就好。

性能損失？幾乎可以忽略。8 個區塊就恢復絕大部分收益。推理延遲增加不超過 2%。

實測數字

在 Kimi 自家的 48B 參數模型上驗證：

最直觀的一個數字：用同樣的算力，AttnRes 達到了標準方法需要多燒 25% 算力才能達到的性能。

不加機器、不加數據，只改資訊流的結構，白賺 25%。

下游任務的提升，尤其推理類最顯著：

Benchmark	改之前	改之後	提升
GPQA-Diamond（研究生級科學推理）	36.9	44.4	+7.5
數學	53.5	57.1	+3.6
程式碼	59.1	62.2	+3.1
中文理解（C-Eval）	79.6	82.5	+2.9

推理任務提升最大，這說得通——多步推理需要不同層之間緊密協作，正是資訊流改善受益最大的場景。

模型自己學到了什麼？三個有意思的發現

訓練完之後，Kimi 把模型「回頭看」的模式視覺化了。結果很有意思：

一、大部分時候，還是嘗最近一位的味道。 標準殘差的「只看上一層」並不完全錯，模型自己學出來也是以鄰近層為主。就像做菜時，最常參考的還是上一手剛加的調味。

二、但最原始的高湯底一直沒被忘掉。 即使到了第 100 位廚師，對最開頭那鍋高湯底的注意力權重都不是零。標準殘差下這個原味早被稀釋得找不到了，AttnRes 讓最後一位廚師還能隨時回頭舀一口最初的高湯。就像不管菜做到哪個階段，偶爾還是得回去確認客戶最初要的是什麼味道。

三、模型自己發明了「捷徑」。 某些廚師會跳過中間好幾位，直接去嘗很早期某位廚師的原味樣本。這不是人工設計的，是訓練中模型自己發現的最佳路徑——因為它知道那一味對當前的菜最關鍵。

往大了說

過去幾年大模型的架構創新，主要發生在「菜色研發」——Attention 機制的各種變體、MoE 的路由策略、位置編碼的改進。但殘差連接——廚房裡最基本的「傳菜流程」——一直沒人覺得需要碰它。

現在 DeepSeek 和 Kimi 先後在傳菜流程上找到突破口。這說明一個趨勢：架構優化的前沿已經從菜色研發深入到廚房動線了。

《Attention Is All You Need》當年把「文字之間的資訊流」從遞推升級到注意力。但那篇論文裡的殘差連接——「層與層之間的資訊流」——依然用的是 2015 年的固定累加。

這個未完成的工作，等了九年。

2026 年第一季，三個月內，兩家中國實驗室先後在這個最基礎的地方找到了根本性突破。不管你關注的是技術趨勢還是產業競爭，這件事都值得記下來。

對我來說，最大的啟發是：有時候最大的優化空間，藏在所有人都覺得「不需要改」的地方。 這個邏輯不只適用於模型架構，也適用於工程實踐、團隊流程、產品設計。

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記

殘差連接被動刀了：DeepSeek 和 Kimi 先後改掉 Transformer 用了十年的「默認設定」

殘差連接被動刀了：DeepSeek 和 Kimi 先後改掉 Transformer 用了十年的「默認設定」

為什麼我要寫這篇

先講一個比喻，你就懂了

第一刀：DeepSeek 的 mHC

第二刀：Kimi 的 Attention Residuals

問題一：不能點菜

問題二：資訊一旦混進去，就找不回來了

問題三：越後面的層越沒有存在感

Kimi 的解法：一個很漂亮的類比

直接對比：兩把刀的差異

工程落地：Block AttnRes

實測數字

模型自己學到了什麼？三個有意思的發現

往大了說

參考資料