2026 農曆新年，中國開源大模型集體爆發 — Kimi、Qwen、GLM、MiniMax 怎麼選？

作者： Wisely Chen 日期： 2026 年 2 月 系列： AI Agent 完整指南 / IT 架構系列 關鍵字： 開源模型比較, Agent 選型, 成本優化, MoE 架構, 中文模型, Benchmark 對比

為什麼要寫這篇

今年農曆新年對中國 AI 產業來說是個分水嶺。

1 月底 Kimi K2.5 發布後，2 月份各大廠商火力全開：阿里 Qwen3.5（成本 -60%）、智譜 GLM-5（Intelligence Index 50+）、MiniMax M2.5（速度最快）、字節 Seedance 2.0（影片生成被馬斯克點讚）。

短短一個月內，就像集體按下了「加速鍵」。

但問題隨之而來：該用誰？

是用 Kimi K2.5 的 Agent Swarm 做複雜自動化？還是用 Qwen3.5 省一大筆成本？編程應用是選 GLM-5 還是 MiniMax？

所以這篇我不只深入 Kimi K2.5，而是把春節檔主角全部拉出來橫向對比。核心結論是：

沒有「最好的模型」，只有「最適合場景的模型」。 開源模型的性價比已經逼近國際頂級閉源模型——但前提是你得懂怎麼選。

30 秒看懂四大主角

維度	Kimi K2.5	Qwen3.5	GLM-5	MiniMax M2.5
總參數	1T (MoE)	397B (MoE)	744B (MoE)	230B
激活參數	32B (3.2%)	170B	400B	-
上下文	256K	256K	256K	256K
輸入成本	$0.60/M	~$0.20/M	~$0.30/M	~$0.15/M
主要優勢	Agent Swarm + 多模態	成本低 60%	推理能力	速度 + Tool Calling
開源授權	Modified MIT	MIT	MIT	MIT
廠商	Moonshot AI	阿里巴巴	智譜 AI	MiniMax

一句話版：

Kimi K2.5：100 個子代理同時幹活，看圖看影片，Agent 最強
Qwen3.5：最省錢，成本比前代便宜 60%，企業大規模應用首選
GLM-5：推理最強，Intelligence Index 50+，與 Claude Opus 4.5 持平
MiniMax M2.5：速度最快，Tool Calling 最精準，高吞吐量場景首選

Kimi K2.5：Agent Swarm 革命

Kimi K2.5 的詳細技術評估我已經在另一篇文章寫過。這裡只講跟其他三個模型比較時的關鍵差異。

獨門武器：Agent Swarm

Kimi K2.5 跟其他三個模型最本質的差異，就是原生的群體協作能力。

傳統 Agent 線性執行 50 個子任務要 50 分鐘。Kimi 的編排器（Orchestrator）可以把任務拆成 DAG 圖譜，最多派 100 個專用子代理同時運作，單次任務最高 1,500 次工具調用。同樣的 50 個任務，大約 11 分鐘搞定。

BrowseComp 的數據更直接：標準模式 60.6%，開啟 Swarm 模式後飆到 78.4%。

原生多模態

四個模型裡，只有 Kimi K2.5 是從第一天就視覺和文本混合訓練的。集成 4 億參數的 MoonViT 編碼器，不需要把圖片「翻譯」成文字再推理。

VideoMMMU 86.6%，超過 GPT-5.2 的 85.9%。其他三個模型都沒有這個級別的視頻理解能力。

要澄清：音頻不是 K2.5 的原生能力，Moonshot AI 有獨立的 Kimi-Audio 模型，App 端是串起來用的。

適用場景

複雜 Agent 自動化（情報分析、競爭監控）、視覺編碼（UI 圖轉代碼）、需要多模態的應用。輸入成本 $0.60/M tokens，是 Claude 的 12%。

Qwen3.5：成本戰新王者

發布日期： 2026 年 2 月 16 日 廠商： 阿里巴巴

Qwen3.5 是這個春節檔最有野心的定價殺手。參數量 397B，MoE 架構激活 170B 推理。

成本優勢：-60% 怎麼做到的

不是虛假宣傳，而是真實的計算效率提升：

FP8 量化 + MoE 優化：8-bit 低精度和混合專家選擇，推理成本大幅下降
吞吐量提升 8 倍：同樣的 GPU 資源，能處理 8 倍的並發請求
API 定價：輸入成本約 $0.20/1M tokens（Kimi 的三分之一）

對企業來說：同樣 $10,000 的預算，用 Qwen3.5 能跑 3 倍 Kimi 的工作量，25 倍 Claude 的工作量。

Qwen3.5-Coder：編程的本地部署方案

同時發布的 Qwen3.5-Coder-Next，233B 參數，每次推理激活約 30B，可在單張 H100 上本地運行。

這意味著：企業可以直接在自己的伺服器上部署，整個代碼審查過程不出海，成本還比 API 便宜 40%。對「數據隱私 + 編碼需求」的場景，這是目前最務實的選擇。

適用場景

成本敏感的企業 AI 應用、大規模 RAG（256K context）、長文檔分析、本地部署編程工具。

GLM-5：推理能力的天花板

發布日期： 2026 年 2 月 11-12 日 廠商： 智譜 AI

GLM-5 是春節檔最「硬核」的發布。744B 參數，每次推理激活 400B——激活的參數量比 Qwen3.5 整體激活參數（170B）還多一倍以上。

Intelligence Index 首次突破 50

智譜公布的 Intelligence Index（智力指數），GLM-5 是首款達到 50+ 的開源模型：

GLM-5: 50.2
Claude Opus 4.5: 50.0
GPT-5.2: 49.8

這是 7 個標準化 Benchmark 的加權平均。直白說：GLM-5 的推理能力已經與國際頂級閉源模型持平。

編程能力

HumanEval 達 92.8%，是四個模型裡代碼生成最強的。LiveCodeBench 89.2%，也是最高。如果你的需求是「寫代碼」而不是「修代碼」，GLM-5 是最佳選擇。

（「修代碼」還是 Claude SWE-Bench 80.9% 最穩。）

適用場景

複雜推理任務、編程應用（代碼生成和審查）、需要「不輸國際頂級」的場景。輸入成本約 $0.30/M tokens。

MiniMax M2.5：速度和精準的平衡點

發布日期： 2026 年 2 月 11-12 日 廠商： MiniMax

MiniMax M2.5 是最「低調」卻最「務實」的選擇。參數量只有 230B，遠小於其他三個，卻在實際應用場景上表現出色。

Tool Calling 最精準

MiniMax 在 τ-Bench（Tau-Bench）上獲得 77.2%，超過所有對手。這個測試專門考察模型調用外部工具的能力：理解什麼時候需要調用工具、正確填充參數、根據返回結果推理、處理調用失敗。

在 OpenClaw、Dify、n8n 這類 Agent 框架中，Tool Calling 的精準度直接決定自動化流程的成功率。

速度和成本

較小的參數量帶來實際好處：

吞吐量最高：同樣硬體下能處理最多的並發請求
延遲最低：首字出現時間最短
成本最低：輸入成本約 $0.15/1M tokens，比 Claude 便宜 33 倍

適用場景

高吞吐量 Agent 應用（精準 Tool Calling）、批量處理、成本極限優化、需要低延遲的實時應用。

Benchmark 全面對比

測試領域	Benchmark	Kimi K2.5	GLM-5	Qwen3.5	MiniMax M2.5	GPT-5.2	Claude Opus
代理協同	HLE-Full (w/ Tools)	50.2%	48.6%	47.2%	45.1%	45.5%	43.2%
代理搜索	BrowseComp	78.4%	72.3%	68.5%	71.2%	65.8%	57.8%
Tool Calling	τ-Bench	74.6%	76.1%	74.8%	77.2%	72.3%	68.9%
程式修復	SWE-Bench	76.8%	77.2%	75.4%	71.3%	80.0%	80.9%
代碼生成	HumanEval	87.3%	92.8%	89.1%	85.6%	90.2%	88.4%
視覺數學	MathVision	84.2%	81.5%	79.8%	77.2%	83.0%	N/A
純數學推理	AIME 2025	96.1%	95.2%	94.8%	93.1%	100%	92.8%
長視頻理解	VideoMMMU	86.6%	N/A	N/A	N/A	85.9%	82.1%
即時編程	LiveCodeBench	85.0%	89.2%	84.5%	82.1%	87.3%	64.0%
中文理解	CMMLU	84.5%	92.1%	89.3%	86.2%	80.2%	79.1%

各模型的贏點

Kimi K2.5：Agent 協同、代理搜索、多模態（視覺、視頻）全部第一
GLM-5：代碼生成 92.8%、即時編程 89.2%、中文理解 92.1%，三項第一
MiniMax M2.5：Tool Calling 77.2% 第一，速度和成本最優
Qwen3.5：沒有突出的單項第一，但全面均衡且成本最低

「最強」不等於「最適合」

拿 SWE-Bench 來說：

Claude 80.9% — 你負責 Linux 內核補丁，需要接近 100% 正確率，選 Claude
GLM-5 77.2% — 創業公司寫業務邏輯，77% 夠用，而且便宜 17 倍
Kimi 76.8% — 需要邊寫程式邊看設計文檔（多模態），Kimi 是唯一選擇

問題不是「誰最強」，而是「你的場景對什麼最敏感」。

成本對比：這才是企業最關心的

模型	輸入 ($/1M)	輸出 ($/1M)	vs Claude 輸入成本
MiniMax M2.5	~$0.15	~$0.50	便宜 33 倍
Qwen3.5	~$0.20	~$0.80	便宜 25 倍
GLM-5	~$0.30	~$1.20	便宜 17 倍
Kimi K2.5	$0.60	$2.50	便宜 8 倍
GPT-5.2	$1.25	$10.00	便宜 4 倍
Claude Opus 4.5	$5.00	$25.00	基準

心得： 同樣預算，Kimi K2.5 可以跑 8 倍的工作量（vs Claude）。選 MiniMax 或 Qwen，可以跑 25-33 倍。

本地部署成本

模型	激活參數	GPU 需求	月度成本	適用場景
Qwen3.5-Coder	30B	1x H100	~$2,500	編程團隊、數據隱私
MiniMax M2.5	-	1x A100	~$1,800	高吞吐量應用
Kimi K2.5	32B	1x H100	~$2,500	Agent Swarm 應用
GLM-5	400B	2x H100	~$5,000	推理密集任務

如果月流量超過 100M tokens，本地部署反而比 API 便宜。對企業來說，這是分水嶺。

應用場景選型矩陣

應用場景	首選	次選	理由
Agent 自動化（複雜）	Kimi K2.5	GLM-5	Agent Swarm 原生並行
Agent 自動化（簡單高量）	MiniMax M2.5	Qwen3.5	Tool Calling 精準 + 速度快
編程 + 代碼審查	GLM-5	Qwen3.5-Coder	HumanEval 92.8% 最高
長文檔 RAG	Qwen3.5	Kimi K2.5	成本最低 + 256K context
多模態（圖片/影片）	Kimi K2.5	—	唯一原生視頻理解
極限成本優化	MiniMax M2.5	Qwen3.5	輸入 $0.15/M
推理能力要求高	GLM-5	Kimi K2.5	Intelligence Index 50+
本地部署（數據主權）	Qwen3.5	GLM-5	MIT 開源 + 硬體需求低

我在 OpenClaw 上的實戰結果

前面都是 Benchmark 數字，這裡是真實場景。我把龍蝦從 Opus 4.6 改成了 Kimi K2.5，跑了幾天。

維度	Opus 4.6	Kimi K2.5	差異
中文理解	頂級	頂級	無差異
指令精準度	頂級	接近頂級	偶爾漏掉邊界 case
任務完成度	95%	93%	-2%（可接受）
回應速度	中等	快	+30%
成本	1x	0.2x	省 80%

場景 1：50 頁 PDF 結構提取 Opus 完美無誤，$2.50。Kimi 正確率 97%，$0.25。省 10 倍成本。

場景 2：500 行 Python 代碼審查 Opus 找出 8 個問題。Kimi 找出 7 個，漏掉 1 個邊界 case，不影響生產。

場景 3：複雜商業邏輯系統設計 Opus 提出 5 個視角。Kimi 提出 4 個，遺漏 1 個。95% 滿足，但不是 100%。

結論：省 80% 成本換掉 2-3% 的完美度，對 Agent 應用來說是超划算的交易。

坦白說：選型的三個陷阱

陷阱 1：被 Benchmark 蒙騙

GLM-5 Intelligence Index 50.2 和 Claude Opus 50.0，數字差 0.2，但成本差 17 倍。別被排名迷惑，看的是應用場景，不是排名。

陷阱 2：過度追求「完美」

如果你追求 99.99% 的完美率，別看開源模型。但如果 95-98% 足夠（大多數場景都是），開源模型省下的成本能讓你多試 100 個新 idea。

陷阱 3：忽視部署自由度

Qwen3.5 和 GLM-5 都是 MIT 開源。部署在自己的伺服器上 = 數據主權 + 永遠不怕被廠商漲價。這對企業來說，價值可能超過模型本身的聰明程度。

結語

2026 農曆新年，中國開源大模型集體踏入「成熟期」。

Kimi K2.5、Qwen3.5、GLM-5、MiniMax M2.5 不是競爭關係，而是選型關係。它們分別在不同維度達到頂級：

Kimi：Agent 和多模態
Qwen：成本和部署自由度
GLM：推理能力和中文理解
MiniMax：速度和工具調用

背後的真相是：參數時代已經過去，MoE（混合專家）時代已經來臨。 不再拼「總參數」，而是拼「激活效率」和「應用適配度」。

我目前的配置是：核心 Agent 應用用 Kimi K2.5，高吞吐量任務用 MiniMax M2.5，編程用 GLM-5，成本敏感的企業應用用 Qwen3.5。

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記

2026 農曆新年，中國開源大模型集體爆發 — Kimi、Qwen、GLM、MiniMax 怎麼選？

為什麼要寫這篇

30 秒看懂四大主角

Kimi K2.5：Agent Swarm 革命

獨門武器：Agent Swarm

原生多模態

適用場景

Qwen3.5：成本戰新王者

成本優勢：-60% 怎麼做到的

Qwen3.5-Coder：編程的本地部署方案

適用場景

GLM-5：推理能力的天花板

Intelligence Index 首次突破 50

編程能力

適用場景

MiniMax M2.5：速度和精準的平衡點

Tool Calling 最精準

速度和成本

適用場景

Benchmark 全面對比

各模型的贏點

「最強」不等於「最適合」

成本對比：這才是企業最關心的

本地部署成本

應用場景選型矩陣

我在 OpenClaw 上的實戰結果

坦白說：選型的三個陷阱

陷阱 1：被 Benchmark 蒙騙

陷阱 2：過度追求「完美」

陷阱 3：忽視部署自由度

結語

參考資料

Kimi K2.5

Qwen3.5

GLM-5

MiniMax

綜合對比

OpenClaw 相關