好評如潮

GLM-5.2 出了。智譜(Z.ai)四個月迭代三代(GLM-5 → 5.1 → 5.2),這次社群的反應用四個字可以概括:好評如潮。綜合多篇實測和社群反饋,能力大約落在 Opus 4.6-4.8 之間。

X 上有人盤算中美差距,Elon Musk 在那串討論裡回覆,認為中國追到 Fable 5 級別大概在明年 Q1——不是吹捧 GLM-5.2,是認真在盤算開源追上閉源前沿的時間點,而且比所有人預期的都快。


架構創新:為什麼能同時接近前沿又可部署

好評如潮,但背後是什麼撐起來的?GLM-5.2 能做到「接近前沿」又「企業用得起」,不是運氣,是五個架構選擇疊起來的結果。

MoE 稀疏激活:753B 總參數,但每個 token 只激活 40B(5.3% 稀疏度)。推理算力需求是 40B 級別,不是 753B 級別——這是「便宜」的技術基礎。但權重還是要全部載入記憶體(FP8 約 753GB,完整約 1.5TB),所以部署成本公式是「權重記憶體 753B 級別 + 推理算力 40B 級別」,兩個瓶頸不一樣。MoE 降算力門檻,不降記憶體門檻。

DSA 稀疏注意力:KV Cache 砍掉 75%,長文本能力損失不到 0.5%。對企業部署的直接影響是同一台機器並發量乘以四。在 2026 年 128GB DDR5 漲到 5.2 萬台幣、HBM 被 NVIDIA 鎖定的環境下,省記憶體比省算力值錢。原本需要 4 台 GPU 伺服器的並發量,現在 1 台就夠。

IndexShare:這是 GLM-5.2 從 200K 拉到 1M 上下文的關鍵。每 4 層 Transformer 共享一個注意力索引器,4 層裡只有 1 層需要算索引,其他 3 層直接複用。百萬 token 場景下 per-token FLOPs 降 2.9 倍。DSA 省記憶體,IndexShare 省算力——兩個疊起來讓超長上下文推理從「理論可行」變成「成本可行」。

中國產晶片全棧:10 萬張昇騰 910B 完成 28.5 兆 token 全量預訓練,不是跑 demo,是從零訓練。加上 7 家中國產晶片的推理適配——W4A8 混合精度量化、Lightning Indexer、13 個預處理算子融合成單一超級算子。不被任何一家晶片廠綁定,華為出問題還有寒武紀、海光。

Slime 異步 RL:把生成引擎和訓練引擎拆到不同 GPU 上完全異步運行,支援 1,000+ 並發 rollout。傳統 RL 訓練裡生成佔 90% 以上時間,GPU 大部分時候在等。Slime 讓兩邊不用互相等——這是「四個月能迭代三代」的訓練基礎建設。

五個架構選擇,對應撐起「接近前沿 / 可長上下文 / 可部署 / 迭代快」。


GLM-5.2 的幾個優點

架構講完了,回到一個更實際的問題:對想用開源模型的人來說,GLM-5.2 到底好在哪?我列四個。

一、接近 SOTA,而且是真的開源

這是最核心的一點。FrontierSWE 74.4,差 Opus 4.8 的 75.1 只有一個百分點。Code Arena Frontend 全球第二(Elo 1,595),贏過所有 Opus 版本,僅次於 Fable 5。AIME 2026 達到 99.2,超過 Opus 4.8 的 95.7 和 GPT-5.5 的 98.3。

分數接近前沿這件事,過去 DeepSeek、Kimi 都做到過。但 GLM-5.2 不只是分數接近,同時是 MIT 授權、753B 權重完整開放、不是蒸餾版不是閹割版。

過去開源模型面對的困境是二選一:要嘛分數差一截(Llama 系列),要嘛分數接近但閉源或限制重重。GLM-5.2 是第一個把「接近 SOTA」和「真正開源」兩件事同時做到的。這不是又一次「中國模型又進步了」,是開源模型第一次站到跟閉源前沿同一個量級的位置。

二、MIT 開源,最寬鬆的授權

從 Apache-2.0 升級到 MIT——最寬鬆的開源授權。免費商用、可微調、可私有化部署、可二次開發。對資料不出內網的金融、醫療、政府單位,這是目前最強的自主可控選項。

開源不稀奇,Llama 系列一直在做。但 Llama 的授權有商用規模限制、有地區限制。MIT 是「你想怎麼用就怎麼用」,沒有但書。

三、可自部署,供應鏈替代

10 萬張華為昇騰 910B 完成全量預訓練,零 NVIDIA。再加上寒武紀、海光、摩爾線程等共 7 家中國產晶片的推理適配。在 GPU 供應不穩定、HBM 被 NVIDIA 鎖定、禁令隨時可能收緊的 2026 年,不被單一供應商綁定本身就是架構優勢。

這不是「供應鏈備案」——因為能力已經跟上來了,它是真的能上生產的選項。

四、Qwen 3.7 開源不明朗,它目前是最好的開源選擇之一

這點要放在開源生態的競爭裡看。千問(Qwen)系列一直是開源模型裡呼聲最高的,但 Qwen 3.7 目前的開源狀況並不明朗——權重放不放、什麼時候放、放什麼版本,都還不確定。

在這個真空期裡,GLM-5.2 是 MIT 開源、753B 權重完整開放、能力 Opus 4.6-4.8 級別。如果你想現在就用一個接近前沿的開源模型,GLM-5.2 基本上沒有同級別的競爭對手。

這不是說 Qwen 3.7 以後不會追上來。但在它開源狀況明朗之前,GLM-5.2 就是開源陣營目前最好的選擇之一,而且是現成可用、不是期票。


坦白講:還輸在哪

好評歸好評,但輸的地方還是要講清楚。

最大短板:視覺多模態。 GLM-5.2 不是多模態模型,視覺識別靠注入的 tool,基本上看不懂圖上做的標註。如果你的 Agent 工作流需要看 UI 截圖、看設計稿、看報表,這就是硬傷,沒有「開源很強」可以抵銷。

深度軟體工程還差一截。 DeepSWE 46.2,GPT-5.5 是 70.0——差 24 個百分點。NL2Repo 48.9,Opus 4.8 是 69.7——差 21 個百分點。在需要「從零生成完整 repo」和「深度軟體工程」的場景,差距是明顯的。

超長時程任務穩定性不夠。 SWE-Marathon(超長任務)13.0,Opus 4.8 是 26.0——差一半。需要超長時程自主執行的 Agent 工作流,省下來的錢可能花在更多重試上。

自部署門檻高。 753B 權重約 1.5TB,需要多機分散推理,中小企業自架不現實。大型企業可以,中小企業走 API 更實際。

社群預期 <50B 密集模型 2 個月內出現。 如果成真,現在需要 1.5TB 記憶體的 753B MoE,可能在 50B 密集模型上就能跑——單機部署、成本再降一個量級。這對選型的意義是:現在用 GLM-5.2 API 合理,但別為了自部署 753B 投資硬體,等 2-3 個月。


收尾:開源追得比預期快

對 IT 架構師來說,這件事的意義不是「GLM-5.2 打贏了誰」。是這幾件事:

第一,開源站到前沿位置了。 接近 SOTA + MIT 開源 + 可自部署,三件事同時成立。過去「要不要用開源」是性價比問題,現在是戰略問題。

第二,差距從模糊的「落後」變成可量化的時間。 Musk 說 Q1——這個數字代表一件事:閉源前沿的領先還在,但已經是「時間問題」而不是「能不能」的問題。

第三,壓縮速度比採購速度快。 現在用 GLM-5.2 是合理的。但如果你正在考慮投資硬體做 753B 自部署——等一等。社群預期 2 個月內 <50B 密集模型達到類似水準,到時候單張卡就能部署。


收尾:一邊封閉,另一邊機會就出現

正如我在 Fable 5 那篇講過的,只要有一邊趨向封閉,另一邊的機會就會出現。

想想看智譜的股價為什麼在 GLM-5.2 出了之後突然漲了一倍?原因在於:隨著美國的模型越來越封閉,市場認可了一件事——一定會有一票 To B 的客戶希望尋找開源的替代方案。

在這種情況下,如果有一個模型能夠接起 SOTA 的大旗,很多企業是會用真金白銀去支持的。GLM-5.2 現在就是那個接旗的人。

而有了這些 To B 客戶以及股票資金的支持之後,這些資源會持續推向一個已經證明自己、幾乎每兩個月就能推出一個新模型的團隊。封閉推著客戶往外跑,開源接住這些客戶,資金回流再加速開源——這是一個自我強化的飛輪。

GLM-5.2 確實強。但更值得關注的不是它多強——是這個飛輪一旦轉起來,開源追趕的速度只會越來越快。


參考資料

X 討論

社群實測與評價

官方與技術報告

相關評測與對比

作者相關文章