CAISI 說 DeepSeek V4 落後 8 個月——但你看錯重點了:跑分輸掉、方向贏了
CAISI 說 DeepSeek V4 落後 8 個月——但你看錯重點了:跑分輸掉、方向贏了
完整 15 分鐘論述在上面影片,這篇文章只放關鍵論點。
兩個數字、一個誤會
2026/5/3,美國 NIST 旗下的 CAISI(Center for AI Standards and Innovation) 發布對 DeepSeek V4 Pro 的官方評估,結論一句話:
「DeepSeek V4 Pro 是目前最強的中國模型,但能力落後美國 frontier 約 8 個月。」
DeepSeek 自己的 V4 paper 講的是另一個故事:「我們落後 frontier 大約 3 個月。」
兩邊差了一倍多。網路上會吵半年「誰對」。
但其實兩邊都對,也都看錯了重點。
差距怎麼算的差別在於:CAISI 用 holdout benchmark(DeepSeek 沒看過的題目),DeepSeek 用公開 benchmark 自評(公開題目可能在訓練時被 fine-tune)。這就是為什麼自評 90% 在 CAISI holdout 變成 44%。
但「跑分差幾個月」根本不是 DeepSeek V4 的重點
DeepSeek V4 跑分確實不 SOTA。在某些 benchmark 上甚至輸給 GLM 5.1。
如果你只看 leaderboard,DeepSeek 這次發表是個 disappointment——尤其在他們今年內部還流失了像羅福莉這種核心人才、需要對外募資的背景下。
但你打開 DeepSeek V4 的 technical paper 看實際的工程貢獻,會發現他們真正在解決的是另一個層級的問題:怎麼在老黄的 HBM 供應鏈封鎖下,繼續做出可規模化部署的模型。
兩個關鍵突破:
1. Vendor Agnostic — 訓練 / 推理可隨時抽換 NVIDIA / 華為
這件事在 IT 界做過 infra 的人都知道有多難。同一個模型在不同硬體 vendor 之間切換,從 kernel 到 framework 到 numerical precision 全部要重新調,效能掉個 30% 是常態。
DeepSeek V4 做到「這次跑 NVIDIA、下次跑華為,自由切換」——他們為了這件事在 V3 跟 V3.2 之間吃了非常多虧、training 拉得很長、效果也沒到很好。但 V4 真的做出來了。這是這次發表最重要的工程成就,比跑分重要 10 倍。
2. KV Cache 降 7-10%(CSA + HCA 注意力機制)
百萬 context 的故事大家去年聽過了,但學術上一直被詬病「不是真的百萬 context」——training 主體是 200K,最後幾步硬撐到 1M,加上 Lost in the Middle 問題沒解。
DeepSeek V4 用 CSA + HCA(我之前寫過深度解析)這套機制,在做 long context 推理時 KV Cache 比 V3.2 降 7-10%。
聽起來不多?算下來在 production 場景就是HBM 需求直接打 9 折。
為什麼這兩件事比跑分重要 10 倍
回到 我之前那篇 DDR/HBM Token 經濟學的文章。當時的核心結論:
- 128GB DDR5 一年漲 3 倍,HBM 把記憶體廠產能整個吃掉
- 老黄鎖住 2026/27/28 大量 HBM 產能——其他人連排隊都很難
- 突破這個封鎖只有兩條路:硬體多 vendor、軟體算法壓縮
DeepSeek V4 同時走了這兩條路。
反觀 Anthropic: 同樣的時間點 Opus 4.6 / 4.7 的「降智」抱怨,業界普遍解讀就是缺算力——理論上有最強的模型,但 serving capacity 跟不上需求。如果老黄的 HBM 封鎖再持續兩三年,這件事會越來越嚴重。
目前真正走通供應鏈突破路徑的,全世界只有兩家:DeepSeek 跟 Google(TPU 自研 + TurboQuant 軟體優化)。 GLM 算第二梯隊(適配華為,但還沒到 vendor agnostic)。
OpenAI 的策略是「圈錢圈算力」,這條路在資本市場仍能走,但成本越走越高。
對你的實際意義
CAISI 報告會被媒體大肆引用「中國落後 8 個月」,這個 framing 服務 chip export control 的政策論述。但對企業選型,這個敘事是 mislead 的。
實際上你該問的問題是:
- 「我能不能取得算力?」比「誰跑分高 3 分」重要
- 「Token 單價未來會漲還是跌?」比「現在最強是誰」重要
- 「open weight 能不能 self-host 在我可控的硬體上?」比「閉源 vs 開源」重要
完整論述跟我對梁文鋒的觀察、Anthropic 缺算力的細節、Token 漲價趨勢——都在 YouTube 影片裡:
Source
- NIST CAISI 官方報告(2026/5)
- DeepSeek V4 paper / TechCrunch 報導
- Simon Willison — DeepSeek V4 評測
- The Decoder — 對 CAISI framing 的批判視角
- Council on Foreign Relations — 地緣政治分析
