DSpark——DeepSeek 把推理速度再拉高 85%，而且方法開源、跨模型通用

為什麼今天想聊這件事

6 月 27 號 DeepSeek 同時做了三件事：

V4-Flash 跟 V4-Pro 上線 DSpark 加速，用戶端直接感受到回覆變快
開源 DSpark 論文（33 頁，DeepSeek-AI + 北京大學合著）
開源整套訓練框架 DeepSpec（MIT 授權），附帶 Qwen3、Gemma4 的現成加速模組

第一件事是產品更新，第二件是學術貢獻，但真正讓我停下來的是第三件——他們不只發了自己模型的加速模組，而是把訓練流程全部開源了，而且預設支援的模型是 Qwen3 跟 Gemma4，不是自家的 V4。

這等於直接告訴社群：「這套方法不綁我家模型，你拿去用。」

一、LLM 推理為什麼慢？一個比喻

LLM 生成文字的方式是一個字一個字吐——生完第一個字，才能生第二個字。GPU 算得很快，但大部分時間都在等記憶體搬資料，像是一台跑車被困在紅綠燈，油門踩不下去。

Speculative decoding（推測解碼）的解法：找一個跑很快的小模型（drafter）先「猜」接下來的 5～7 個字，然後讓大模型一次性驗證這批猜測。猜對的直接用，猜錯的從錯誤位置重新來。

好處是：大模型一次驗證 7 個字跟生成 1 個字的成本差不多（都是一次 forward pass），所以只要猜對率夠高，速度就能翻好幾倍。

但問題來了——小模型怎麼猜才能又快又準？

二、過去的兩難：猜得準就猜得慢

業界之前主要有兩條路：

路線 A：一個一個猜（Eagle3）

小模型按順序猜——猜完第 1 個字，看著第 1 個字再猜第 2 個。準確率高，但猜的過程本身就是序列的，小模型自己就慢。

路線 B：一次猜一批（DFlash）

小模型同時猜 7 個字，一步到位。速度極快，但問題是：猜第 5 個字的時候，完全不知道前面 4 個字猜了什麼。結果就是越後面的位置越不準——論文管這個叫 suffix decay。

實際數字：DFlash 在對話任務上，第 1 個位置猜對率大概 72%，到第 7 個位置掉到 63%。前面猜錯一個，後面全部連帶作廢。

猜得準的太慢，猜得快的不準。 這是 speculative decoding 過去幾年的核心矛盾。

三、DSpark 的解法：先並行猜，再快速修正

DSpark 的想法很直接：兩步都做，但讓修正那步幾乎不花時間。

第一步：並行猜草稿（跟 DFlash 一樣快）

所有位置同時出結果，一步搞定。

第二步：輕量修正（只看前一個字）

在草稿結果上面跑一個極輕量的修正模組。它不需要看完整的前綴（那就退回 Eagle3 了），只看「前一個位置猜了什麼字」，就能做出有效修正。

這個修正的計算開銷有多小？論文實測：整體延遲只增加 0.6%～1.3%。幾乎免費。

但效果很明顯——suffix decay 基本消失了。DSpark 繼承了 DFlash「第一個位置準確率高」的優勢，同時又像 Eagle3 一樣「後面的位置不會衰減」。

論文有一個特別漂亮的對照實驗：2 層的 DSpark 在所有任務上都打贏 5 層的 DFlash。 加一個輕量修正的效果，比把並行模型堆厚 2.5 倍還好。

第三步：動態調度（忙的時候少驗，閒的時候多驗）

前兩步解決的是「怎麼猜得好」，但在真實 serving 場景還有一個問題：GPU 很忙的時候，驗證太多 token 反而拖慢整體吞吐。

DSpark 多了一個 confidence head，估算每個位置的猜對概率，再根據即時 GPU 負載動態決定「這次要驗幾個」——閒的時候多驗（反正 GPU 也沒事做），忙的時候只驗最有把握的前幾個。

效果：對話任務的驗證通過率從 45.7% 提到 95.7%。不是猜得更準了，而是把沒把握的猜測在送去驗證之前就砍掉了，不浪費大模型的計算資源。

四、實際提速多少？

DSpark 在 DeepSeek 自家 V4 上的部署結果：

模型	每用戶回覆提速	對比基線
V4-Flash	60～85%	vs MTP-1
V4-Pro	57～78%	vs MTP-1

注意基線是 MTP-1——DeepSeek 從 V3 時代就在用的加速方法。所以這不是跟「沒有加速」比，是跟「已經有加速」比，還能再快 60～85%。

在系統吞吐層面：

一般負載下：+51% 吞吐
極端負載下：最高 +661%（這個數字要打折看——不是 DSpark 快了 6 倍，而是 MTP-1 在嚴格 SLA 下已經撐不住了，分母塌縮導致比值膨脹）

一個重要背景：DSpark 是在 V4-preview 發布兩週後就上線替換了 MTP-1。如果效果沒有顯著差距，DeepSeek 不會在生產環境做這種替換。

五、不只自家能用：Qwen3、Gemma4 全面領先

這是 DSpark 最重要的部分——它不綁 DeepSeek 自家模型。

論文用 4 個開源模型做了完整測試，測量每輪解碼平均接受的 token 數（越高 = 越快）：

模型	DSpark vs Eagle3	DSpark vs DFlash
Qwen3-4B	+30.9%	+16.3%
Qwen3-8B	+26.7%	+18.4%
Qwen3-14B	+30.0%	+18.3%
Gemma4-12B	全 9 項 benchmark 領先	全 9 項 benchmark 領先

DSpark 在所有模型 × 所有 benchmark 上都是最好的。沒有例外。

幾個觀察：

Math 跟 Code 任務每輪平均接受 5～6 個 token，等於大模型一次驗證就搞定 5～6 個字
Chat 任務較低（3～3.7），因為對話的隨機性比數學推理高，更難預測
Gemma4（Google 的模型）跟 Qwen3（阿里的模型）效果在同一水準，證明方法本身是通用的

六、DeepSpec 框架：不只是模型，是完整工具箱

DeepSeek 開源的不只是 DSpark 的加速模組，而是整個 DeepSpec 框架：

三種加速算法：DSpark、DFlash、Eagle3，統一 codebase，方便對比
完整訓練流程：資料準備 → 訓練 → 評估，一條龍
12 個現成 checkpoint：4 個模型 × 3 種算法，全部在 HuggingFace 上可下載
訓練資料：Open-PerfectBlend，130 萬樣本（math 39.4%、code 38.9%、chat 17.6%），訓練 10 個 epoch
授權：MIT（最寬鬆的開源授權之一）

如果你在用 Qwen3 或 Gemma4 做推理，現在可以直接下載 checkpoint 接上去用。如果你用的是其他模型，DeepSpec 提供了完整的訓練流程讓你自己訓一個。

七、坦白講：什麼地方要注意

第一，所有數字都是 DeepSeek 自己測的。 +85%、+78% 這些數字來自 DeepSeek 自己的 serving 環境，沒有第三方獨立驗證。不同的硬體、不同的流量模式，實際提速一定不同。

第二，模型越大收益越高。 Speculative decoding 的原理是「大模型驗證的邊際成本低」，所以 target model 越大、drafter 跟 target 的速度差距越大，收益越明顯。在小模型（7B 以下）上，drafter 本身的開銷可能吃掉大部分收益。

第三，動態調度那層沒有完整開源。 DeepSpec 開源的主要是 drafter 的訓練跟評估，Hardware-Aware Scheduler 是針對 DeepSeek 自家 serving stack 做的。其他推理框架（vLLM、SGLang）要整合需要額外工程。

第四，碰到特別難的問題，加速效果會縮水。 論文自己也提到：如果查詢本身就很難預測（acceptance rate 低），parallel backbone 的前期計算成本是固定的，猜錯了就浪費了。未來可能的改進是讓難題直接跳過完整草稿生成。

第五，drafter 跟 target model 要匹配。 論文的 checkpoint 是用 target model 自己生成的資料訓練的，如果你用了自己 fine-tune 過的版本，drafter 的準確率可能下降，需要重新訓練。

八、為什麼這件事對開源生態很重要

過去 speculative decoding 的問題不是理論不成熟，而是工程門檻太高。你需要設計 drafter 架構、準備訓練資料、訓練模型、跟 serving 框架整合、調整驗證策略——每一步都有大量工程工作。結果就是：論文很多，但真正在生產環境用起來的主要就是 Google（Gemini）跟 DeepSeek。

DeepSpec 把大部分工作打包開源了，而且預設支援的就是社群最常用的 Qwen3 跟 Gemma4。落地門檻從「需要一個推理團隊」降到「下載 checkpoint + 改配置」。

如果 vLLM 或 SGLang 把 DSpark 整合進去（考慮到 MIT 授權，這只是時間問題），開源模型的推理速度會有一波集體提升。

一句話總結

DSpark 用一個幾乎不花成本的輕量修正，解決了 speculative decoding「猜得快就猜不準」的老問題，再加上動態調度讓它在真實負載下可用。但真正的重點是：MIT 開源的 DeepSpec 框架讓任何人都能把這套方法用在 Qwen3、Gemma4 或自己的模型上。

推理加速過去一直是閉源廠商的護城河。DSpark 把護城河填平了一塊。

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記

DSpark——DeepSeek 把推理速度再拉高 85%，而且方法開源、跨模型通用

DSpark——DeepSeek 把推理速度再拉高 85%，而且方法開源、跨模型通用

為什麼今天想聊這件事

一、LLM 推理為什麼慢？一個比喻

二、過去的兩難：猜得準就猜得慢

三、DSpark 的解法：先並行猜，再快速修正

第一步：並行猜草稿（跟 DFlash 一樣快）

第二步：輕量修正（只看前一個字）

第三步：動態調度（忙的時候少驗，閒的時候多驗）

四、實際提速多少？

五、不只自家能用：Qwen3、Gemma4 全面領先

六、DeepSpec 框架：不只是模型，是完整工具箱

七、坦白講：什麼地方要注意

八、為什麼這件事對開源生態很重要

一句話總結

相關連結