NVIDIA Nemotron 3 Super：純美規、Agent 特化的開源 Workhorse

NVIDIA 今天發布了 Nemotron 3 Super，120B 參數、12B active、1M context window、開源。

看到這些數字，你可能覺得「又一個大模型發布」。但我看完技術細節後的第一反應是：NVIDIA 終於正式承認了 Agentic AI 的兩個致命瓶頸。

而且不只是承認，他們給出了具體數字。

Agentic AI 的兩個痛，終於有人說出口

痛點一：Context Explosion — 15x Token 膨脹

NVIDIA 在公告裡明確寫了一個數字：multi-agent workflows generate up to 15x more tokens than standard chat。

15 倍。

這不是理論推算，是他們跟企業客戶合作後觀察到的實際數據。每一次 agent 互動都要重新傳送完整的歷史記錄、工具輸出、中間推理過程。一個原本 1000 token 的對話，在 multi-agent 架構下可以膨脹到 15,000 token。

更致命的是 Goal Drift — 當 context 越來越長，agent 會逐漸偏離原始目標。這不是 hallucination，是結構性的失焦。你讓三個 agent 協作完成一個任務，跑了十幾輪之後，第三個 agent 可能已經忘了最初到底要做什麼。

做過 multi-agent 系統的人應該都遇過這個問題。我在之前分析 Stanford 和 Harvard 那篇「Agents of Chaos」論文時就提過，multi-agent 的結構性不穩定性是真實存在的。現在 NVIDIA 用商業化的語言重新確認了這件事。

痛點二：Thinking Tax — 不是每個 subtask 都需要 frontier model

第二個痛點叫 Thinking Tax。Complex agents 每一步都需要推理，但如果每個 subtask 都用最大的模型，整個 multi-agent 系統會變得又貴又慢。

這其實就是 OneFlow 那篇論文在講的事 — 單一 agent 用一個夠強的模型，可能比多個 agent 各自推理更有效率。NVIDIA 的解法不同，他們不是回到單一 agent，而是做一個「推理成本極低但準確度不差」的模型，讓你可以在 multi-agent 裡大量使用而不心痛。

五層技術堆疊：為什麼不只是「又一個 MoE」

Nemotron 3 Super 的架構有五個值得注意的設計決策：

1. Hybrid Architecture: Mamba + Transformer

這可能是最有趣的設計。不是純 Transformer，也不是純 Mamba，而是混合。

Mamba layers — 負責高效的序列處理，4x memory and compute efficiency
Transformer layers — 負責需要深度推理的部分

為什麼混合？因為 Agentic AI 的 workload 本質上就是混合的。大部分時間 agent 在處理大量的 context（適合 Mamba 的線性注意力），但關鍵決策點需要 full attention 的推理能力（適合 Transformer）。

2. MoE: 120B Total, 12B Active

120B 參數裡只有 12B 在推理時活躍，10:1 的比例。

對比一下：

GLM-5 — 744B total, 40B active（18.6:1）
Nemotron 3 Super — 120B total, 12B active（10:1）
Qwen 3.5-9B — 9B total, 9B active（Dense，1:1）

三條完全不同的路線。GLM-5 走超大規模 MoE，Qwen 走精煉 Dense，NVIDIA 走中間路線。

3. Latent MoE — 四個 Expert 的能力，一個的成本

這是 Nemotron 3 Super 的獨特創新。在生成下一個 token 時，啟動 4 個 expert specialists，但只付 1 個的計算成本。

具體怎麼做到的 NVIDIA 還沒公開完整論文，但這個方向很有意思 — 不是減少 expert 數量，而是讓多個 expert 的啟動成本趨近於一個。

4. Multi-Token Prediction — 3x 推理加速

同時預測多個未來的 token，而不是一次只預測一個。這帶來 3x 的推理速度提升。

結合 Blackwell 平台的 NVFP4 精度，整體推理速度比 Hopper 上的 FP8 快 4 倍，而且不損失準確度。

5. 1M Token Context Window

一百萬 token 的 context window。一個完整的 codebase 可以直接塞進去，不需要切割。

NVIDIA 的用詞是 “preventing goal drift” — 因為所有的 workflow state 都在記憶體裡，agent 不會忘記自己在做什麼。

Benchmark 實測：到底在哪裡贏、在哪裡輸？

光看 NVIDIA 自己的公告會以為這個模型什麼都好。但把第三方 benchmark 攤開看，真相更有趣。

跟同級開源模型的硬碰硬

Benchmark	Nemotron 3 Super	Qwen3.5-122B	GPT-OSS-120B	MiniMax M2.5
SWE-Bench Verified	60.47%	66.40%	—	80.2%
MMLU-Pro	83.73	86.70	—	—
GPQA	79.23	86.60	—	—
HMMT (數學推理)	93.67	91.40	—	—
LiveCodeBench	81.19	78.93	—	—
RULER @1M tokens	91.75%	91.75%	22.30%	—
Function Calling (BFCL)	—	—	—	76.8
PinchBench (Agent)	85.6%	—	—	—
Artificial Analysis Intelligence	36	—	33	42

幾個值得注意的模式：

Nemotron 3 Super 贏在哪？

吞吐量碾壓 — 451.7 tokens/sec，同級開源模型中位數只有 76.5 t/s（快 6 倍）
vs GPT-OSS-120B 快 2.2x，vs Qwen3.5-122B 快 7.5x
TTFT 只要 0.56 秒（同級中位數 1.46 秒）
長 context recall（RULER @1M）91.75%，GPT-OSS-120B 只有 22.30% — 直接碾壓
數學推理（HMMT）和 LiveCodeBench 微幅領先 Qwen3.5

Nemotron 3 Super 輸在哪？

SWE-Bench 只有 60.47% — MiniMax M2.5 的 80.2% 高出 20 個百分點，Qwen3.5 的 66.40% 也明顯領先
MMLU-Pro 和 GPQA 都輸給 Qwen3.5，差距不小（3-7 分）
Artificial Analysis Intelligence Index 36 分 — MiniMax M2.5 拿 42 分，Gemini 3.1 Pro 和 GPT-5.4 更是 57 分

MiniMax M2.5：真正的對比對象

MiniMax M2.5 值得單獨拿出來比，因為它跟 Nemotron 3 Super 都是 MoE 架構、都瞄準 Agentic AI：

維度	Nemotron 3 Super	MiniMax M2.5
總參數	120B	230B
Active 參數	12B (10%)	10B (4.3%)
架構	Mamba + Transformer + MoE	MoE
SWE-Bench	60.47%	80.2%
Function Calling	—	76.8 (勝 Claude 4.6)
Context Window	1M	1M
Output Speed	451.7 t/s	—
Training Data 公開	Yes (10T+)	No
OpenHands Index	—	第 4 名（僅次 Opus 4.6、GPT-5.2 Codex）

結論很清楚：MiniMax M2.5 是更強的 agent brain，Nemotron 3 Super 是更快的 agent workhorse。

如果你的 multi-agent 系統需要一個「主腦」做複雜推理和 coding — M2.5 更適合。如果你需要大量 subtask 並行、每分鐘處理上千次推理呼叫 — Nemotron 3 Super 的吞吐量優勢更明顯。

實務上最佳策略可能是混搭：M2.5 當 orchestrator，Nemotron 3 Super 當 worker。 這恰好呼應了 NVIDIA 自己說的 Thinking Tax 問題 — 不是每個 subtask 都需要最聰明的模型。

真正值得關注的：Open Weights + Open Data + Open Recipes

NVIDIA 這次不只是開源模型權重。他們公開了：

Open weights — permissive license
10T+ tokens 的 pre-training 和 post-training datasets
15 個 RL training environments
完整的 evaluation recipes

這跟 Meta 的 Llama 開源策略不同。Meta 開源模型權重但不開源訓練數據。NVIDIA 這次是把「怎麼訓練的」也全部攤開。

從企業角度看，這意味著你可以拿 NeMo 平台去 fine-tune，甚至用他們的 methodology 訓練自己的版本。

企業生態系：已經不是「即將推出」，是「今天就能用」

這篇公告最讓我注意的不是技術，是企業採用的深度。

AI-Native 公司：

Perplexity AI — 搜尋引擎底層
CodeRabbit, Factory AI, Greptile — AI coding agents（CodeRabbit 我們在 ATPM 框架裡用過）
Edison Sciences, Lila Sciences — 生命科學

傳統企業：

Amdocs（電信）、Palantir（網安）、Cadence（半導體設計）、Dassault 3DS 和 Siemens（製造）

雲端與推理服務：

Google Cloud Vertex AI、Oracle Cloud — 已上線
AWS Bedrock、Azure — 即將上線
CoreWeave、Crusoe、Nebius、Together — 已上線
加上 Baseten、Cloudflare、DeepInfra、Fireworks 等十多家 inference provider

硬體合作：

Dell — Enterprise Hub，on-premise 部署
HPE — agents hub

這個生態系的廣度說明一件事：Agentic AI 的基礎設施層正在快速標準化。

坦白說

讓我興奮的

15x token 膨脹 這個數字被 NVIDIA 官方確認，以後跟企業客戶解釋 multi-agent 成本時有了權威出處
Mamba + Transformer hybrid 是正確的方向，Agentic workload 本質上就是混合型的
完全開源（含訓練數據和 recipes） 比 Meta Llama 更徹底

讓我存疑的

DeepResearch Bench 第一名 — 是搭配 NVIDIA AI-Q agent 系統的成績，不是 Nemotron 3 Super 單模型的能力。這個描述容易誤導
Latent MoE 的具體實現 還沒有完整論文，「4 個 expert 的能力，1 個的成本」聽起來太好，需要看細節
1M context window 的實際品質 — 有 window 不代表 1M token 範圍內的 recall 都是可靠的。Needle-in-a-haystack 測試結果呢？
SWE-Bench 60.47% 是個問題 — MiniMax M2.5 拿 80.2%，差距 20 個百分點。如果你的 agent 主要任務是寫 code，Nemotron 3 Super 可能不是正確的選擇

我的判斷

Nemotron 3 Super 不是要跟 GPT-5 或 Claude Opus 搶「最聰明」的位置。它的定位是 Agentic AI 系統裡的 workhorse — 不是最強，但夠強、夠快、夠便宜、context window 夠大。

這跟 Jensen Huang 在 Cisco AI Summit 講的「domain expertise becomes the new IP」是一脈相承的。NVIDIA 不只賣 GPU，他們在定義 Agentic AI 的基礎設施標準 — 從硬體（Blackwell）到軟體（NIM microservice）到模型（Nemotron）。

實戰場景：OpenClaw 的三層路由怎麼用？

講完理論，來看一個具體的應用場景。OpenClaw 已經有成熟的 三層模型路由（Three-Tier Routing） 架構，Nemotron 3 Super 剛好可以塞進去。

OpenClaw 目前的三層路由

Tier	用途	目前常用模型	成本比
Tier 1	架構決策、複雜重構、安全分析	Claude Opus 4.6 / GPT-5.2	100%
Tier 2	Code generation、research、drafting	Claude Haiku / DeepSeek / Kimi K2.5	2-10%
Tier 3	分類、heartbeat、簡單查詢	Gemini Flash / Ollama local	0-1%

這個路由策略已經被驗證過：從 Opus-only 切換到三層路由，成本從 $1,500 降到 $50/月，省了 97%。

Nemotron 3 Super 該放在哪一層？

答案是 Tier 2 — 日常工作層。

為什麼不是 Tier 1？

SWE-Bench 60.47% — 跟 Opus 4.6 的 80.8% 差距太大，複雜 coding 任務不夠可靠
MMLU-Pro、GPQA 都不是頂尖，深度推理還是交給 frontier model

為什麼不是 Tier 3？

451.7 t/s 的吞吐量放在 heartbeat 層是殺雞用牛刀
12B active 參數的能力遠超 Gemini Flash-Lite 或 llama3.2:3b

為什麼 Tier 2 最適合？

吞吐量 451.7 t/s — Tier 2 的任務量大但不需要最深度推理，速度比準確度重要
1M context window — OpenClaw 有 pre-emptive memory flush 機制，是為了應對 context 不夠用的問題。1M window 可以大幅減少 flush 頻率，agent 的「記憶」更完整
12B active 參數 — 成本極低，符合 OpenClaw「When in doubt, use Haiku first」的預設便宜原則
開源可自建 — OpenClaw 已經支援 Ollama local 部署，Nemotron 開源意味著可以完全 on-premise，不走 API

建議配置

Tier 1: Claude Opus 4.6 / MiniMax M2.5
        → 架構決策、複雜重構、安全分析

Tier 2: Nemotron 3 Super（取代 Haiku/DeepSeek）
        → code generation、data research、drafting
        → 吞吐量優勢讓批量任務快 6 倍

Tier 3: Gemini Flash-Lite / Ollama llama3.2:3b
        → heartbeat、分類、簡單查詢

被忽略的戰略價值：純美制開源的唯一地端選項

OpenClaw 的 openclaw.json 透過 API endpoint 配置模型路由。Nemotron 3 Super 已經有十多家 inference provider（Baseten、Cloudflare、DeepInfra、Fireworks 等），所以 API 接入不是問題。

但更值得注意的是一個容易被忽略的事實：如果你需要「純美制」的開源地端模型，Nemotron 3 Super 可能是 OpenClaw 目前唯一的選擇。

把目前 OpenClaw 生態裡的開源模型攤開看：

模型	來源	開源	地端可行	能力等級
Nemotron 3 Super	NVIDIA（美國）	✅	✅	Tier 2
GPT-OSS-120B	OpenAI（美國）	✅	✅	⚠️ 已過時（RULER @1M 只有 22%）
MiniMax M2.5	MiniMax（中國）	✅	✅	Tier 1-2
Qwen 3.5	阿里巴巴（中國）	✅	✅	Tier 1-2
DeepSeek V3	DeepSeek（中國）	✅	✅	Tier 2
Kimi K2.5	Moonshot AI（中國）	✅	✅	Tier 2
Claude Opus 4.6	Anthropic（美國）	❌	❌	Tier 1
GPT-5.2	OpenAI（美國）	❌	❌	Tier 1
Gemini 3 Flash	Google（美國）	❌	❌	Tier 2-3

看到了嗎？在「美國來源 + 開源 + 能力還行」這個交集裡，扣掉已經過時的 GPT-OSS-120B（長 context 幾乎不能用），只剩 Nemotron 3 Super。

這對某些企業場景是關鍵的：

政府標案或國防相關 — 不能用中國來源的模型，也不能走 API（資料不能離境）
金融機構合規 — 監管要求模型來源可追溯，且資料不能上雲
台灣的資安法規趨勢 — 關鍵基礎設施越來越要求「可控來源」的 AI 供應鏈

NVIDIA 開源了完整的 training data（10T+ tokens）和 training recipes，這在合規審查時是加分項 — 你可以說清楚這個模型是怎麼訓練的、用了什麼資料。MiniMax M2.5 雖然也開源權重，但訓練數據不公開，在嚴格的合規環境下會被打問號。

地端部署的現實

說回部署門檻：120B MoE 模型即使只有 12B active，完整模型檔案還是很大。不像 MiniMax M2.5 可以 3-bit 量化到 101GB 跑在 128GB Mac 上。Nemotron 3 Super 的 local 部署需要更高的硬體規格，可能需要多張 GPU。

但換個角度想 — 如果你的場景就是「純美制 + 地端 + 開源」，你沒有其他選擇。這不是「要不要用」的問題，是「只能用它」的問題。

對大多數 OpenClaw 用戶來說，透過 API 使用 Nemotron 3 Super 作為 Tier 2 workhorse 是最務實的選擇。但對有合規需求的企業來說，它可能是 唯一的選擇。

對我們的意義

如果你在做 multi-agent 系統：

Token 膨脹問題 — 15x 這個數字要記住，做成本估算時用得到
模型選型策略 — 不是所有 subtask 都需要 frontier model。Nemotron 3 Super 這類「高效率 workhorse」才是 multi-agent 架構真正需要的
Context window 的用法 — 1M token 不是用來塞更多 prompt，是用來維持 agent 的 workflow state，防止 goal drift
開源生態 — 完全開源意味著你可以 fine-tune、自建。對有隱私需求的企業來說，這比用 API 重要
三層路由是標配 — OpenClaw 已經驗證了這個模式。Nemotron 3 Super 的定位就是 Tier 2 workhorse，不要拿它當 Tier 1 用

關鍵數字速查

指標	數值
總參數量	120B
活躍參數量	12B (10%)
Context Window	1M tokens
Output Speed	451.7 t/s（同級中位數 76.5 t/s）
Throughput vs GPT-OSS-120B	2.2x
Throughput vs Qwen3.5-122B	7.5x
RULER @1M tokens	91.75%
SWE-Bench Verified	60.47%（MiniMax M2.5: 80.2%）
HMMT 數學推理	93.67（Qwen3.5: 91.40）
Multi-Token Prediction 加速	3x
Blackwell NVFP4 vs Hopper FP8	4x faster
Multi-agent token 膨脹	15x vs standard chat
Training data	10T+ tokens
RL environments	15
License	Permissive (open weights)

Nemotron 3 Super 的發布，標誌著 Agentic AI 從「概念驗證」進入「基礎設施標準化」的階段。不是模型越大越好，而是模型要為系統架構服務。這可能是 2026 年最重要的一次模型發布 — 不是因為它最強，而是因為它最務實。