DeepSeek V4 §3.1 那 200 字才是真正的地震——訓練棧硬體無關，跑得上中國國產卡

Huawei Ascend AI Computing Platform — Atlas 系列從邊緣到資料中心的 AI 訓練／推理硬體

§3.1 ｜ 200 字｜ NVIDIA + 昇騰｜ 1.5～1.96× ｜訓練棧硬體無關

為什麼今天想聊這件事

DeepSeek V4 真正的地震，藏在技術報告的 §3.1，講訓練系統那一章。短短不到 200 字的英文段落。我看到的時候停了大概有十分鐘——因為這件事的工程含義，可能比 V4 模型本身的能力還要重要。

一、§3.1 那 200 字到底寫了什麼

原文是這樣：

“We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms. Compared against strong non-fused baselines, it achieves 1.50 ~ 1.73× speedup for general inference workloads, and up to 1.96× for latency-sensitive scenarios such as RL rollouts and high-speed agent serving.”

直翻：他們在 NVIDIA GPU 跟華為昇騰 NPU 兩個平台上，都驗證了同一套細粒度 expert parallelism 方案，相對於沒做 fusion 的 baseline，跑出 1.50～1.73 倍加速；在 RL rollouts、高速 agent serving 這種延遲敏感場景，最高到 1.96 倍。

第一眼會覺得：「就一個 benchmark 嘛，誰家論文不貼這種圖。」

但有三個重點：

第一，這段話出現在 §3.1，講『訓練系統』的那一章，不是推理。

Inference 框架要做硬體抽象，業界早有成熟路徑（TensorRT-LLM、vLLM、SGLang、ONNX）。但 training 對通訊拓樸、記憶體、kernel fusion 的依賴，比 inference 高一個數量級。能在訓練端做到硬體抽象，技術門檻完全不同。

第二，「fine-grained EP scheme」是 MoE 訓練最複雜的那塊。

Expert parallelism 牽涉到 all-to-all 通訊、token 分發、負載平衡、通訊跟計算 overlap，是整個 training stack 裡最吃硬體底層、最難移植的部分。最難搬的都搬通了，剩下的（dataloader、optimizer、checkpointing、gradient sync）只會更好搬。

第三，兩個平台上的加速比落在同一個區間。

1.50～1.96× 在 NVIDIA Hopper 跟華為達文西架構上都成立。這不是「能編譯過去跑得起來」，是「效能曲線吻合」。前者叫「能 run」，後者叫「能用」。

把這三點合起來，這 200 字其實只在傳達一句話：

DeepSeek 的訓練棧，做到了硬體無關。而且驗證對象就是中國國產的昇騰 NPU。

二、為什麼「訓練」做到硬體無關特別重要

過去這幾年，AI infra 真正的死結不在推理，在訓練。

推理可以多供應商——你今天用 NVIDIA、明天換 AMD、後天上 TPU，只要框架支援，模型 weight 搬過去 fine-tune 一下就能跑。

但訓練不行。訓練棧一旦寫死在 CUDA 上，就等於把命交給一家硬體廠。Framework 沒人 port、kernel 沒人寫、人才不存在、生態不存在。你拿一億美金也沒辦法在半年內把訓練棧從 CUDA 搬到 CANN 還跑出能用的效能。

§3.1 這 200 字的意義，是第一次有一個剛訓出 SOTA 級別模型的訓練棧，在 NVIDIA 跟華為昇騰上都跑出對齊的效能。而且驗證的是訓練端，不是推理端。

三、跟 GLM-5 比，差在哪裡

可能有人會說：「中國模型在華為上訓練，GLM-5 不是早就做了嗎？」

對，GLM-5 確實做了——28.5 trillion token、~100,000 顆昇騰 910B、MindSpore 框架、零 NVIDIA。這是第一個完全不用 NVIDIA 訓出來的 frontier 級模型，本身就是大事。

但 GLM-5 跟 V4 §3.1 證明的是兩件不同的事：

GLM-5：「能在華為昇騰上訓出 SOTA。」 訓練棧基本上是綁在昇騰 + MindSpore 這條路徑上。
V4 §3.1：「同一套訓練棧，在 NVIDIA 跟昇騰上都跑得出對齊效能。」 訓練棧本身做到了硬體抽象。

換句話說，GLM-5 證明了單一替代路徑可行，V4 §3.1 證明了訓練棧本身可以是 vendor-agnostic。前者是「我換了一家也能 run」，後者是「我寫一次、兩家都能用」。

對企業策略而言，後者的意義更大——因為它代表訓練端第一次有了真正的可移植性，而不只是「換一個鎖」。

四、雙向驗證：華為這邊也對上了

光看 DeepSeek 單方面講還不夠。但華為官方 GitHub 上有一個倉庫叫 cann-recipes-train——注意倉庫名最後是 train——裡面已經有 DeepSeek V4-Flash 在昇騰 A3 集群上做續訓練（CPT）的參考實現。

論文（DeepSeek 設計層）+ 廠商 GitHub（華為實作層）兩邊指向同一個結論。如果訓練棧沒有真的 vendor-agnostic，這個倉庫不會存在；存在但跑不通，華為不會公開掛上去。

五、不能太樂觀的部分

照例把不能太樂觀的擺出來：

CPT ≠ 完整預訓練。 目前華為這邊跑通的主要是續訓練，不是從零訓 trillion-token 的完整預訓練。後者對 numerical stability 的要求是另一個量級，可能還要等 950PR / 960 級別硬體配合，樂觀估計 12～18 個月。
單卡算力 + 生態還有差距。 昇騰跟 H100 / B200 單卡 spec 還有距離，CANN 算子庫覆蓋率、文件、第三方 framework 整合，跟 CUDA 生態還有 5～10 年代差。
V4 模型本身能力還有差距。 Code Arena 上被 GLM 5.1 壓 70 分，跟 Claude Opus 4.7、GPT-5.5 也有距離。當第一線生產工具還早。

但「能力差距」跟「根基缺失」是兩種不同性質的問題。能力差距是版本迭代問題，可以靠 RLHF、資料、post-training 補。根基缺失是結構性問題，是訓練用的卡明天可能買不到。

V4 §3.1 解的是後者。

一句話總結

DeepSeek V4 真正的地震不是價格、不是跑分、不是百萬 token，而是 §3.1 那段 200 字證明了——訓練棧可以做到硬體無關，而且驗證平台就是中國國產的昇騰 NPU。

跑分會迭代，能力會追上。但「訓練端不押注單一晶片廠」一旦建立起來，是不可逆的。

真正的訊號，從來不在頭條裡。