DeepSeek V4 把百萬 Token 上下文打到傳統 2% 成本—

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence — 論文封面

DeepSeek V4 論文的真正題眼不是「百萬 token」，而是「低成本、高保真度」。透過 CSA（抓重點）+ HCA（看全域）兩個互補的 attention 模組，V4 把 KV Cache 砍到傳統方案的 2%，計算量降到 V3.2 的 10%，同時在百萬 token 評測上超越 Gemini 3.1。這篇文章從工程師視角，把這套機制的設計思路、跟 MLA / NSA 的傳承關係、以及實際工程意義拆給你看。

為什麼這篇論文值得認真看

我自己的判斷是這樣：DeepSeek V4（Hugging Face 模型頁）不是又一個堆參數量的模型升級，它是一篇真正在「Attention 結構」上做出系統性突破的論文。

過去兩年大家都在喊百萬上下文，但訓練端跟推理端兩個天花板沒人真的捅破：

訓練端： Attention 是 O(n²)，從 4K 擴到 1M 計算量會漲 62,500 倍，所以絕大多數模型其實只是「後期硬擴」。
推理端： KV Cache 把計算量問題救回來了，但代價是視訊記憶體爆炸——8B 小模型在百萬 token 推理就要 144GB。

V4 同時動了這兩端。論文題目寫的是「低成本、高保真度的百萬 Token 長上下文處理」，但讀進去你會發現，整篇東西在講的就是怎麼重新設計 attention，讓兩個天花板同時下移一個數量級。

這篇文章我會拆四件事：

V4 的核心改動：CSA 跟 HCA 兩個 attention 模組各做什麼
為什麼是「雙通道」而不是單一壓縮
DeepSeek 兩年來的技術路徑：MLA → NSA → CSA + HCA
對 AI Coding / Agent 工程師的實際意義

一、CSA + HCA：兩個互補的 Attention 模組

V4 升級的點很多，但論文裡核心的兩個都跟 attention 有關。兩個都是壓縮，但角色完全不同。

兩個模組的全名是 CSA = Compressed Sparse Attention、HCA = Heavily Compressed Attention。

CSA：抓重點

CSA 的設計目標是「精度」。

它的做法是兩階段：

第一階段： 把 100 萬 token 的 KV Cache 壓縮成 25 萬條
第二階段： 從這 25 萬條裡，挑出最有用的一小部分，只對這一小部分算 full attention

換句話說，CSA 不是讓模型「均勻地看所有東西」，而是讓模型「知道該重點看哪裡」。

這個思路其實業界很多人試過——sparse attention 就是這條路。難點從來不是「怎麼挑少一點 token」，而是「怎麼挑得既準又快」。論文裡這個 25 萬 → 小部分的篩選機制，是 V4 的核心 IP 之一。

我的理解是：CSA 在這條路上把「sparse 的精度」拉到了一個新層級，所以才敢把 KV Cache 一路壓下去還不掉品質。

HCA：看全域

如果只用 CSA，會有一個風險：模型很會看「重點」，但全域感會丟掉。長文件分析、多步推理這種任務，需要模型「始終隱約知道整篇在講什麼」。

HCA 的角色就是補這個。

它的做法更激進：把 100 萬 token 直接壓縮成 7800 條。

7800 條聽起來少到誇張，相當於原文的 0.78%。但 HCA 不是想取代 CSA，它是在 CSA 之外開了一條「全域低解析度」的通道——模型透過這條通道知道整體骨架，再透過 CSA 挑出局部精細的內容。

兩條路一起跑，就形成了「精準 + 全域」的互補結構。

數字怎麼出來的

對比 V3.2，V4 兩個版本的優化幅度是這樣：

指標	V4 Pro	V4 Flash
推理計算量（vs V3.2）	27%	10%
KV Cache（vs V3.2）	10%	7%
整體效能	全面提升	全面提升

注意 V4 Flash 那一行——計算量 10%、KV Cache 7%，但效能還比 V3.2 強。

這個級別的優化通常會犧牲品質。但 V4 在百萬 token 評測上的表現是：MRCR（Multiple-Retrieval Contextual Recall）1M 評測，V4-Pro 拿 83.5 分，Gemini 3.1-Pro 是 76.3 分，差距相當顯著。整體還落後 Claude Sonnet 4.6，但對一個開源模型而言已經是頂級陣營。

論文自己用了一個我覺得不太像 DeepSeek 風格的形容詞——「戲劇性地」把百萬 token 上下文的 KV Cache 降到傳統方案的 2%。能讓他們自己這麼描述，代表他們對這個結果的信心。

二、為什麼這個「保真度」是新東西

V4 論文標題裡那個「high-fidelity」三個字其實有歷史包袱。過去兩年大家都在標百萬 token，但學界已經反覆證明這些數字禁不起檢驗。要理解 V4 為什麼值得認真看，得先把這兩個經典結果拉出來。

NVIDIA RULER：標百萬只用得到 16K

NVIDIA 在 2024 年發了 RULER（What’s the Real Context Size of Your Long-Context Language Models?，COLM 2024），系統性測了 10 個主流長上下文模型——9 個開源加 GPT-4，宣稱長度從 32K 到 1M。

論文結論很尷尬：這些模型一半以上連自己宣稱的 32K 都撐不住，幾乎全部在上下文一拉長就嚴重掉效能。 一個微調版 Llama 號稱支援 1M，RULER 實測能保真使用的部分只有 16K 左右——縮水 98%。

這個落差的根源是訓練方式。絕大多數模型走「兩段式訓練」——先用短上下文（比如 4K）跑完 95% 以上的訓練，再花很少的步數（2000 步左右）把上下文「擴」到 128K 或更長。模型在 4K 階段學到的注意力分布，根本沒見過真正的長文本。後面那點微調是「強行拉伸」，不是「真正學會」。

Lost in the Middle：中間段集體失憶

Stanford 在 2023 年發的 Lost in the Middle 是另一個讓人坐不住的結果。論文做了個漂亮的實驗：把同一個關鍵資訊放在文件的不同位置，量化問答準確率。

Lost in the Middle (Liu et al., 2023) — 答案位置 vs 準確率的 U 形曲線：首尾準確率高，中間段落跌到接近 closed-book baseline

結果是經典的 U 形曲線——首尾位置準確率高，中間掉到接近隨機猜的水準（圖中虛線是 closed-book baseline，等於模型完全沒看文件的表現）。

這個現象到 2025 年還在，所以你會看到很多 RAG 工具的最佳實踐是「重要內容放開頭和結尾」。這不是迷信，是工程上對 Lost in the Middle 的妥協。

V4 的設計哲學是針對這兩個 failure mode

回頭看 CSA + HCA 的雙通道結構，你會發現它幾乎是精準對應 RULER 跟 Lost in the Middle 揭露的兩個老問題：

訓練端認真做： V4 不靠後期硬擴，從訓練早期就把長度擴上去（後面第五節展開）→ 解 RULER 的「兩段式訓練偷工減料」
CSA 抓重點： 中間段的關鍵 token 不再被均勻平攤的 attention 稀釋，而是被 sparse 篩選機制主動挑出來 → 解 Lost in the Middle 的中段失憶
HCA 看全域： 7800 條全域表徵保留整篇骨架的訊號，避免中間段在概覽層級也被忘掉 → 雙保險

論文選用的 MRCR（Multiple-Retrieval Contextual Recall） 評測就是專門打 Lost in the Middle 的——測模型能不能在百萬 token 裡精確檢索多個分散的目標。V4-Pro 拿 83.5 分，比 Gemini 3.1-Pro 的 76.3 高出一截。這個差距就是「保真度」的具體體現。

換個角度說：V4 不是又一個百萬上下文模型，而是第一個直接拿 RULER 跟 Lost in the Middle 開刀的模型。

三、為什麼是雙通道，不是單一壓縮

讀完論文我自己思考了一下：為什麼 V4 要做兩個 attention 模組，而不是把一個做到極致？

我的解讀是：單一壓縮機制有個結構性的兩難。

如果你壓縮率拉到極致（比如 HCA 的 0.78%），全域感很強，但你看不見任何細節——任何需要「精確引用某段話」的任務都會掉。

如果你壓縮率保守（保留更多 token），細節是有了，但計算量跟記憶體吃不消，回到原本的天花板。

過去業界要嘛走 sparse（CSA 這類），要嘛走 linear / low-rank（HCA 這類），但鮮少有人把兩種同時做到位再讓它們互補。V4 的工程巧思就在這——兩個通道分工：

CSA 像放大鏡：只看重要的，但看得很清楚
HCA 像衛星圖：解析度低，但永遠看得見全圖

模型每一層 attention 的時候，兩條資訊同時餵進去。這樣不管你問的是「整篇在講什麼」還是「第 87 段那個數字是多少」，都能拿到對的訊號。

這個設計哲學讓我想起作業系統裡的 cache hierarchy：L1 快但小、L3 慢但大，互補才能撐起整個系統。V4 把這個思路搬到了 attention。

四、DeepSeek 的「省成本」是有路徑的

V4 不是橫空出世。把時間軸拉開看，DeepSeek 過去兩年其實是在連續打同一個方向——Attention 是長上下文的瓶頸，那就把 attention 一層層改造下去。

時間	技術	論文	效果
2024/5	MLA（V2 提出）	arXiv:2405.04434	KV Cache 降低 93.3%，V3、V4 都繼承
2025/2	NSA	arXiv:2502.11089	64K 上下文 attention 全面加速（decode/forward/backward）
2025/12	DSA（V3.2）	arXiv:2512.02556	NSA 思路在線上模型落地，首次做到 fine-grained sparse
2026/4	CSA + HCA（V4）	DeepSeek_V4.pdf	計算量降 73%、KV Cache 降 90%

MLA：先把 KV 表徵壓下去

V2 的 MLA（Multi-head Latent Attention）解決的是「KV Cache 每個 head 都要存一份」的問題。透過低秩投影把 KV 共用一個 latent 空間，KV Cache 直接減 93.3%、訓練成本省 42.5%、生成吞吐拉到 5.76 倍。

這是 V2 那年最大的成本武器，也是後面 V3、V4 一切優化的地基。

NSA：sparse attention 真的能上線

2025 年 2 月那篇 NSA（Native Sparse Attention）我之前解讀過。當時很多人覺得是純研究——sparse attention 大家都試過，理論加速漂亮但實際效能很難真的省到。NSA 的貢獻是把 sparse 真的做到「訓練、推理同一套機制」（hardware-aligned + natively trainable），64K 上下文在 decode、forward、backward 三個階段都拿到顯著加速。

DSA：NSA 的線上落地

2025 年 12 月，V3.2 把 NSA 思路真的搬上線，命名為 DSA（DeepSeek Sparse Attention）。它是「lightning indexer + fine-grained token selection」兩段式架構，並直接架在 MLA 之上——也就是 MLA 跟 sparse attention 第一次堆疊在同一個產品模型裡。

論文裡有句話我覺得寫得很實在：「achieves fine-grained sparse attention for the first time, while maintaining virtually identical model output quality」。先有 DSA 把品質不掉的證明拿到手，再幾個月後 CSA 就在 V4 上把壓縮率再推一個量級。

V4：兩個方向同時收口

V4 把過去兩年的兩條線——「壓 KV 表徵」（MLA → HCA）跟「sparse attention」（NSA → DSA → CSA）——同時做到極致，再讓它們互補。

這條路徑的核心邏輯一直沒變，但執行力很夯。每一步都在「真實上線的模型」上落地，不是只發論文交差。

跟矽谷那種「論文歸論文、產品歸產品」的節奏完全不同。

五、訓練端也認真改了

很多人忽略一件事：V4 不只是推理優化，訓練端也大改。

論文裡幾個關鍵動作：

訓練時就早早把上下文長度擴上去，不是最後階段才擴 2000 步
訓練資料量比 V3 翻倍
特別重視長文件的整理

這部分是隱性工夫，不容易公開比較，但對長上下文「保真度」來說比 attention 機制本身更關鍵。

為什麼？因為你的 attention 機制再好，如果訓練資料裡幾乎沒有真正的長文，模型就沒有機會學到「跨千個 token 的依賴關係」。CSA + HCA 給的是「能力」，但長文訓練資料給的才是「經驗」。

這也呼應論文標題裡那個「保真度」三個字——能力跟經驗兩個都要在，才算保真。

六、對 AI Coding / Agent 工程師的實際意義

技術拆完，回到工程師視角。V4 這套設計對日常工作的影響在哪？

1. 推理模型終於有「思考空間」

這是我覺得最被低估的一點。

推理模型最大的痛點不是答案不準，而是「想到一半空間不夠」。一個複雜 reasoning 任務可能要燒幾萬 token 思考，上下文短就直接被卡住。

CSA 抓重點、HCA 看全域的設計，本質上是讓模型在長思考過程中不容易忘記前面想過什麼。對 Agent 跑多步任務、對 AI Coding 跑長 PR review，這個影響是實質性的。

2. 長任務的成本經濟學要重算

V4 的定價我做這篇文章的時候剛好看到打了 2.5 折，折後價格大概是御三家的 5% 左右，是國內大模型最便宜的一檔。

過去長上下文便宜的模型不是沒有，但便宜的代價就是品質差。V4 把「便宜」和「保真」第一次同時做到——這個組合對 Agent 跟 AI Coding 很關鍵：

整個 codebase 進來：以前要先 RAG 切片，現在可以直接塞
PR review：50 個檔案的 diff 一次餵進去
長任務 Agent：Claude Code 那種要連續跑十幾步的任務，token 不再是瓶頸

當然這不代表 RAG 沒用了——成本可控性、延遲、可審計性這些 RAG 還是強。但「能直接塞就直接塞」這個選項，門檻被大幅降低。

3. Context Engineering 的權重會變

我之前寫過 Claude Code 的四層上下文壓縮。那套東西很強，但本質上是「上下文窗口不夠」的工程補救。

如果 V4 級別的機制普及（國內這條線會很快，矽谷可能會跟），未來 Context Engineering 的重點會從「怎麼把資訊壓進有限窗口」轉向「怎麼讓長上下文模型專注在對的訊號上」。

這是兩種完全不同的工程心智。

七、坦白說

寫這篇文章的時候，我很清楚有幾件事自己還沒搞定：

我沒有真的 benchmark 過 V4。 文章裡所有數字都來自 DeepSeek 官方論文跟 release，社群的廣泛實測還沒出來。等過幾週應該會有人做完整對比。
CSA + HCA 的論文細節我只看了 high-level。 壓縮率、互補關係、整體性能影響這些我有把握，但「25 萬條怎麼挑出最有用的小部分」、「HCA 7800 條的具體表徵方式」這些實作細節，我還在追。
「KV Cache 2%」是 best case。 真實工作負載下這個數字會不會打折扣，要等實測。歷史上幾乎所有的「壓縮 X 倍」廠商宣稱，落地都會打折。
百萬 token 評測超 Gemini 3.1，但榜單不是全部。 AI Coding 體驗、工具呼叫穩定度、reasoning 一致性，這些都要實際用過才知道。我自己的標準是：用 V4 跑完一個完整 codebase 的 review 任務沒出狀況，再下結論。

我寫這篇是因為這個方向是對的，論文的設計哲學值得學，不是因為 V4 已經解決了所有問題。

八、論文與延伸閱讀

本文涉及的論文

DeepSeek 主線：

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence — PDF ｜模型頁｜ HF Blog
DeepSeek-V3.2（DSA）：Pushing the Frontier of Open Large Language Models — arXiv:2512.02556
NSA: Hardware-Aligned and Natively Trainable Sparse Attention — arXiv:2502.11089
DeepSeek-V2(MLA 提出)：A Strong, Economical, and Efficient MoE Language Model — arXiv:2405.04434

長上下文評測與 failure mode：

RULER: What’s the Real Context Size of Your Long-Context Language Models? — arXiv:2404.06654 ｜ GitHub
Lost in the Middle: How Language Models Use Long Contexts — arXiv:2307.03172 ｜ GitHub

第三方解讀

我之前寫過的相關文章

搞懂快取機制，從 Gemma4 到 Claude Code 省 80% Token — KV Cache 從另一個角度的拆解
Google TurboQuant：KV Cache 壓縮 6x 的技術突破 — Google 在同一個方向的工作
殘差連接被動刀了：DeepSeek 和 Kimi 先後改掉 Transformer 的「默認設定」 — DeepSeek 過去兩年另一條改造路線
Claude Code 的四層上下文壓縮 — 上下文不夠用時的工程補救

常見問題 Q&A

Q：CSA + HCA 跟之前的 sparse attention / linear attention 有什麼不同？

最大的差別是「兩種機制互補」。過去 sparse 就是 sparse，linear 就是 linear——要嘛抓重點丟全域、要嘛看全域沒精度。V4 是讓 CSA 負責局部精度、HCA 負責全域感知，兩條通道一起跑。這個雙通道思路在工程上很巧。

Q：V4 真的能取代 Claude / Gemini 嗎？

榜單上百萬 token 評測 V4 超過 Gemini 3.1、落後 Claude Sonnet 4.6。但榜單不是全部，AI Coding 體驗、工具呼叫穩定度、reasoning 一致性，這些都要實際用過才知道。我的判斷是「V4 會吃掉一部分原本給 Gemini 的工作量」，但 Claude 在 AI Coding 領域的優勢短期不會被取代。

Q：MLA 跟 HCA 都是壓縮 KV，差在哪？

MLA 是壓「每個 token 的 KV 表徵」——讓多個 head 共用一個低秩 latent。HCA 是壓「token 數量本身」——把 100 萬條 KV 壓成 7800 條。一個是壓「縱向」的 head 維度，一個是壓「橫向」的 sequence 維度。V4 兩個都用，所以才能疊到那麼極端的壓縮率。

Q：開源版本 V4 真的能拿來自己 host 嗎？

理論上可以，但要看你願意花多少錢買 GPU。即便 KV Cache 砍到傳統 2%，真要在百萬 token 場景跑 V4 Pro，仍然不是 consumer GPU 能扛的。對絕大多數團隊，直接用 API 還是經濟得多。

Q：你覺得長上下文的下一站是什麼？

我猜測是「層級式記憶」——CSA + HCA 這種「同一輪內」的壓縮已經做到極致了，下一步是跨輪、跨任務的長期記憶。Memory Sparse Attention（MSA）那條線、還有 Recursive Language Models 的方向，都在往這走。但這就是另一篇文章的事了。

作者： Wisely Chen 日期： 2026 年 4 月 系列： AI 前沿技術

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記

DeepSeek V4 把百萬 Token 上下文打到傳統 2% 成本——拆解 CSA + HCA 雙 Attention 設計