StupidMeter Leaderboard:22 個模型的即時監控,GPT、Claude、Gemini、Grok、DeepSeek 全部處於 WARN 狀態

目錄


昨天(4 月 15 日),我的 Claude Code 基本不能用。

不是「變慢」,不是「偶爾出錯」,是打開來就卡住、回應品質直接崩盤那種不能用。去查 Anthropic Status Page,claude.ai、Claude API、Claude Code——全線 Degraded Performance。90 天 uptime 數字看起來還行(99.1%-99.26%),但那些紅色和橘色的條狀圖說明了一切:這不是偶發事件,而是持續性的不穩定

我當天有三個任務排在 Claude Code 上。結果?全部延誤。

如果你是個人開發者,延誤一天就是延誤一天。但如果你是企業 IT,你的團隊有 10 個人同時在用 AI coding 工具,一天的集體生產力損失,乘上來就是很具體的成本


有人受不了了,開始用數據追蹤

「LLM 降智」這個詞在社群裡流傳了至少一年。但一直以來都是主觀感受——「我覺得 Claude 變笨了」、「GPT 好像不如以前」。我自己之前寫過 Opus 4.6 偷偷縮水,用 17,871 個 thinking blocks 的數據證明了 thinking 深度被砍 73%。但那仍然是一次性的事後分析,沒有人拿出持續性的量化數據。

直到 StupidMeter 出現。

StupidMeter 是一個獨立的 LLM 品質監控平台,24/7 對 22 個主流模型跑自動化 benchmark。不是那種一次性的學術測試,而是持續性的生產品質監控——就像你用 Datadog 監控 API latency 一樣,但監控的是模型的「聰明程度」。

它追蹤的維度包括:

  • Correctness(正確性):答案對不對
  • Reasoning(推理能力):邏輯鏈完不完整
  • 7-Axis(七軸評估):包含安全性、效率、穩定性等
  • Tooling(工具使用):function calling 和工具呼叫能力
  • Price(性價比):每分錢換到多少智力

它還有一個 Drift Monitor——專門偵測模型品質的漂移。不是比較「這個模型比那個模型好」,而是追蹤「同一個模型,昨天跟今天比,有沒有變笨」。


數據告訴我們什麼:全部都不穩定

打開 StupidMeter 的 leaderboard,第一眼看到的不是排名,而是那排觸目驚心的狀態標籤:

模型 狀態
GPT DEGR(降級)
Claude WARN(警告)
Gemini WARN
Grok WARN
DeepSeek WARN
GLM OK

22 個模型裡,只有 GLM 是 OK。其他全部處於異常狀態。

再看具體排名:

排名 模型 分數 趨勢 狀態
#1 Claude Opus 4.5(20251101) 66 STBL
#2 GPT-5.4 63 VOLA
#3 Claude Sonnet 4.5(20250929) 60 VOLA
#4 GPT-5.2 60 VOLA
#5 Claude Opus 4.6 60 VOLA

兩個值得注意的點:

第一,更新不等於更好。 排名第一的 Claude Opus 4.5 是去年 11 月的版本,66 分,穩定。最新的 Opus 4.6 排第五,60 分,標記 VOLA(volatile,高波動)。這跟我之前寫的 Opus 4.6 shrinkflation 分析完全吻合——那篇用 17,871 個 thinking blocks 的數據證明了 thinking 深度被砍 73%。StupidMeter 的獨立數據從另一個角度驗證了同一件事。

第二,貴的不穩定,便宜的也不穩定。 Opus 4.6 output 每百萬 token $25,DeepSeek Reasoner 不到 $0.36,價差 70 倍。但 StupidMeter 上兩邊都標 WARN。GPT 5.4 排第二(63 分),同樣標記 DEGR + UNRELIABLE(「High variance detected」)。價格跟穩定性完全無關——這不是某一家的問題,是整個產業的結構性特徵。


該怎麼做:雲地混合 LLM 架構

StupidMeter 的數據已經告訴我們:閉源模型的品質不在你的控制範圍內。廠商可以隨時切版本、調參數、降 thinking 深度,你連通知都收不到。我在翻 Claude Code 原始碼時發現,Anthropic 透過 GrowthBook experiment gates 對你的 CLI 有廣泛的遠端控制能力——不需要你更新版本,不需要你同意。

所以答案不是「選一個更好的閉源模型」,而是架構上就不能依賴任何單一廠商

核心原則:雲端主力用開源模型

這是最關鍵的一步,也是大部分企業搞錯的地方。

很多團隊的做法是:雲上用 Claude/GPT 閉源模型當主力,地端放一個開源模型當 fallback。聽起來合理,但一切換就出事——團隊的 prompt、workflow、品質預期全部是針對閉源模型調過的,切到開源模型品質立刻斷崖式下降。這不是 fallback,這是 fail

正確做法是反過來:雲端主力就用開源模型(GLM、Qwen、Gemma 等)。你的 prompt engineering、workflow 設計、品質基線全部基於開源模型建立。這樣當你需要切到地端時,跑的是同一個模型、同一套 prompt、同一個品質預期

雲和地的差別只在一件事:算力成本。雲上可以調度到更多便宜 GPU,token per cost 更低,throughput 更高。地端的 GPU 資源有限,速度慢一點,但模型品質完全一致。

不能有不同模型的差別。一旦雲和地跑不同模型,你就回到了「切換就降級」的老路。

前面掛 LLM Proxy

不管你用幾個模型、幾朵雲、幾台地端機器,前面一定要有一層 LLM Proxy。

LLM Proxy 做三件事:

  • 路由: 根據模型狀態(StupidMeter 告警、延遲、錯誤率)決定請求送去哪裡
  • fallback: 雲端掛了切地端,地端滿載切雲端,全自動
  • 觀測: 統一記錄每個請求的品質指標,建立你自己的品質基線

用 Agent 框架建立 fallback 機制

光有 Proxy 路由還不夠。你的 Agent 層也要有 fallback 邏輯。

舉個例子:OpenClaw(龍蝦)這類開源 Agent 框架,可以在 Agent 層面設定多模型 fallback。不是「服務掛了才切」,而是「回應品質不對就切」——Agent 可以檢查模型回應是否符合預期格式、是否包含必要的推理步驟,不符合就自動 retry 到備用模型。

這跟 Harness Engineering 的核心理念一致:AI 可以寫 code,但人類(和工程機制)控制信任邊界。模型品質波動只是讓這個邊界需要自動化的動態調整

整體架構三層

  • 第一層:LLM Proxy — 接收所有請求,根據 StupidMeter 告警和品質監控做路由,統一記錄觀測數據
  • 第二層:雲端 / 地端(同一個開源模型) — 雲上調度便宜 GPU 跑高 throughput,地端跑同模型做備援,差別只在算力成本
  • 第三層:Agent 框架(e.g. OpenClaw) — 檢查模型回應品質,不符合預期自動 retry 到備用節點

雲地用同一個開源模型,差別只在算力成本。Agent 層做品質檢查和 fallback。Proxy 層做路由和觀測。 三層加起來,就是你對 LLM 降智的完整防線。


結論:LLM 已經是水電,就該用水電等級的基建去管

LLM 對企業 IT 來說,已經不是「可有可無的工具」了。它是水電。你的團隊每天靠它寫 code、做 review、生文件——離開它,生產力直接打折。

但問題是:你有沒有用水電等級的基建去保障它的穩定?

水電公司不會只有一座發電廠。電網有冗餘、有調度、有備援。水廠有多水源、有淨水監控、有壓力偵測。停電了有備用發電機,水質異常了有自動切換。

StupidMeter 的全場 WARN 數據告訴我們:LLM 的品質波動是結構性的,不是某一家的問題。既然你已經把它當水電在用,就不能用「插上插頭祈禱不會停電」的心態來管。

你需要自己的電網: LLM Proxy 做路由和觀測,雲地混合做冗餘,Agent 框架做品質檢查和自動切換。雲端和地端跑同一個開源模型,差別只在算力成本,不在模型品質。

昨天 Claude 全線降級,我的三個任務全部延誤。這不會是最後一次。差別在於,下次停電的時候,你有沒有自己的備用發電機。


延伸閱讀

Claude 降質數據化系列

企業 AI 風險管理


常見問題 Q&A

Q: StupidMeter 的測試方法可靠嗎?

任何 benchmark 都有局限性。StupidMeter 的價值不在於絕對分數,而在於趨勢追蹤——同一個模型,同一套測試,分數是上升還是下降。這就像你不需要知道體重計的絕對精度,你只需要知道趨勢。

Q: 模型降智是不是廠商故意的?

大部分情況不是。模型降智的原因很多:基礎設施負載、A/B 測試的副作用、模型更新的非預期後果、serving 層的配置變更。之前的 Claude Code telemetry cache gate 事件就是典型案例——不是刻意懲罰,是功能 coupling 的副作用。但故意還是意外,對企業 IT 的傷害是一樣的。

Q: 開源模型就不會降智嗎?

開源模型的權重是固定的,所以理論上不會「被遠端降智」。但你的 serving 基礎設施(量化、batching、記憶體壓力)仍然會影響品質。差別在於:出問題時你有原始碼可以 debug。這也是我在 Opus 4.6 shrinkflation 那篇的結論——Open Source Agent + Open Source Model 是企業的終極保險。

Q: 我的團隊只有 3 個人,也需要做這些嗎?

至少做第一件事:訂閱監控。這是零成本的。當你看到你用的模型狀態從 OK 變成 WARN,至少你知道今天的 AI 產出要多檢查一下。