CAISI 說 DeepSeek V4 落後 8 個月——但你看錯重點了：跑分輸掉、方向贏了

完整 15 分鐘論述在上面影片，這篇文章只放關鍵論點。

兩個數字、一個誤會

2026/5/3，美國 NIST 旗下的 CAISI（Center for AI Standards and Innovation）發布對 DeepSeek V4 Pro 的官方評估，結論一句話：

「DeepSeek V4 Pro 是目前最強的中國模型，但能力落後美國 frontier 約 8 個月。」

DeepSeek 自己的 V4 paper 講的是另一個故事：「我們落後 frontier 大約 3 個月。」

兩邊差了一倍多。網路上會吵半年「誰對」。

但其實兩邊都對，也都看錯了重點。

差距怎麼算的差別在於：CAISI 用 holdout benchmark（DeepSeek 沒看過的題目），DeepSeek 用公開 benchmark 自評（公開題目可能在訓練時被 fine-tune）。這就是為什麼自評 90% 在 CAISI holdout 變成 44%。

DeepSeek V4 跑分確實不 SOTA。在某些 benchmark 上甚至輸給 GLM 5.1。

如果你只看 leaderboard，DeepSeek 這次發表是個 disappointment——尤其在他們今年內部還流失了像羅福莉這種核心人才、需要對外募資的背景下。

但你打開 DeepSeek V4 的 technical paper 看實際的工程貢獻，會發現他們真正在解決的是另一個層級的問題：怎麼在老黄的 HBM 供應鏈封鎖下，繼續做出可規模化部署的模型。

兩個關鍵突破：

1. Vendor Agnostic — 訓練 / 推理可隨時抽換 NVIDIA / 華為

這件事在 IT 界做過 infra 的人都知道有多難。同一個模型在不同硬體 vendor 之間切換，從 kernel 到 framework 到 numerical precision 全部要重新調，效能掉個 30% 是常態。

DeepSeek V4 做到「這次跑 NVIDIA、下次跑華為，自由切換」——他們為了這件事在 V3 跟 V3.2 之間吃了非常多虧、training 拉得很長、效果也沒到很好。但 V4 真的做出來了。這是這次發表最重要的工程成就，比跑分重要 10 倍。

2. KV Cache 降 7-10%（CSA + HCA 注意力機制）

百萬 context 的故事大家去年聽過了，但學術上一直被詬病「不是真的百萬 context」——training 主體是 200K，最後幾步硬撐到 1M，加上 Lost in the Middle 問題沒解。

DeepSeek V4 用 CSA + HCA（我之前寫過深度解析）這套機制，在做 long context 推理時 KV Cache 比 V3.2 降 7-10%。

聽起來不多？算下來在 production 場景就是HBM 需求直接打 9 折。

DeepSeek V4 同時走了這兩條路。

反觀 Anthropic： 同樣的時間點 Opus 4.6 / 4.7 的「降智」抱怨，業界普遍解讀就是缺算力——理論上有最強的模型，但 serving capacity 跟不上需求。如果老黄的 HBM 封鎖再持續兩三年，這件事會越來越嚴重。

目前真正走通供應鏈突破路徑的，全世界只有兩家：DeepSeek 跟 Google（TPU 自研 + TurboQuant 軟體優化）。 GLM 算第二梯隊（適配華為，但還沒到 vendor agnostic）。

OpenAI 的策略是「圈錢圈算力」，這條路在資本市場仍能走，但成本越走越高。

CAISI 報告會被媒體大肆引用「中國落後 8 個月」，這個 framing 服務 chip export control 的政策論述。但對企業選型，這個敘事是 mislead 的。

實際上你該問的問題是：

完整論述跟我對梁文鋒的觀察、Anthropic 缺算力的細節、Token 漲價趨勢——都在 YouTube 影片裡：