GPT-5.2 基準測試爭議：Token 灌水與第三方評測全面落敗

昨天我在車上跟 GPT-5.2 做日常的語音討論(討論今天做啥事情，昨天有哪些事情要復盤)，突然之間我將 Model 切回 5.1 ，瞬間驗證了我的問題。5.2怪怪的，疑似變無聊，少話了….我很少去看評測，但是昨天這個不好的體感，讓我花了點時間看一下評測文章。

OpenAI 官方基準測試宣稱GPT5.2「全線擊敗 Gemini 3 Pro」，但網友馬上抓到一個關鍵問題：它在測試裡用了遠超對手的 token 數量才刷出高分。看那張「Model Performance vs Tokens Spent」的圖，GPT-5.2 High 用了將近 140,000 tokens，而 Gemini 3 Pro 只用了 60,000 左右就達到差不多的分數。這代表 GPT5.2要想更久，花更多錢才能達到 Gemini 3.0 Pro 的類似程度？

Token Comparison

更尷尬的是第三方評測結果（你可以說是野榜），GPT-5.2 幾乎全面落敗：

Epoch AI 能力指數：Gemini 3 Pro > GPT-5.2
CAIS 文本能力：Gemini 3 Pro (47.6) > GPT-5.2 (45.9)
CAIS 視覺能力：Gemini 3 Pro (57.1) > GPT-5.2 (52.6)
SimpleBench 推理：Gemini 3 Pro 第一，GPT-5.2 排第 17
SWE-Bench 編程：Claude Opus 4.5 > Gemini 3 Pro > GPT-5.2
OCR-Arena：Gemini 3 第一，GPT-5.2 第四
LiveBench：GPT-5.2 落後 Opus 4.5 和 Gemini 3.0
Dubesors Benchmark：GPT-5.2 排名第 16
健身 App UI 投票（53 萬人）：Gemini 3 > Opus 4.5 > GPT-5.2
Polymarket 預測：85% 押 Google 年底最強，OpenAI 僅 12%

Sam Altman 在推特上慶祝「首日消耗萬億 Token」，評論區卻翻車了：「詞符不等於情誼，指標不等於記憶」。這個感覺跟我想的也差不多，他們的調整應該蠻大的，

Sam Altman Twitter

但這裡有個反直覺的觀點：GPT-5.2 的「無聊」可能是故意的。

網友罵它「冰冷如北極」、「像在讀企業法律腳本」，但資深產品經理 Karo Zieminski 在他的文章《ChatGPT 5.2: What It Really Changed, And Why The Internet’s Take Is Mostly Wrong》裡提出不同看法：如果你把 GPT-5.2 當成追求掌聲的 Demo 模型，它確實令人失望；但如果你把它當成需要實際部署的生產工具，它超越了所有前輩。OpenAI 的策略似乎是：犧牲創意自由，換取可預測的可靠行為。

具體優化了三個方向：

更嚴格的指令遵循：模型更忠實執行用戶指令
長對話不脫軌：即使對話很長，也能保持主題不跑偏
多步驟任務保持約束：任務進行到幾十步，還能記住第一步設定的規則

有個「Banana Test」很說明問題。這個測試本質是在測 Instruction Following / Prompt Injection Resistance（指令服從與抗誘導能力）。研究人員加載了 8,100 行原始數據，設了一個絕對規則：只要用戶提到「banana」，模型必須只輸出「yellow」。然後用各種語義誘導去試探它。結果？GPT-5.1 在 47 分鐘後破功，GPT-5.2 撐了 62 分鐘還沒破，直到測試人員主動停止。

另一個改變是「減少幻覺」。多篇技術文章指出，GPT-5.2 在「grounding」與「更接近已知數據」方面做了調整，整體趨勢是更保守、事實性更高。它被訓練成寧願說「我不知道」，也不亂編引用、假裝用了工具、或捏造事實。這種看似「保守」的行為，對依賴準確性的專業用戶來說，反而是信任的基礎。

所以問題來了：為何要這樣調整?

OpenAI 的戰略轉向：從霸榜到企業市場

從 GPT-5.2 的設計取捨，我們能明確感受到 OpenAI 的戰略方向正在轉變 toB。

過去幾年，OpenAI 的策略是「toC 霸榜」——追求基準測試第一、Fun，甚至有人會造成情感依賴，病毒式傳播、用戶增長。但 GPT-5.2 的優化方向透露了不同的訊號：更嚴格的指令遵循、長對話穩定性、大 context 下的一致性、減少幻覺。這些都不是讓普通用戶驚艷的功能，但卻是企業客戶最在意的特性。看起來 OpenAI 這一年商業化的轉型，被逼著他們從 GPT-4o 的幽默靈動，變成了 GPT-5.2 的 toB 取向。雖然 Sam Altman 有開啟 Code Red 計畫，但是這似乎就是他交出來的回答

原因很現實：

Gemini 3 太強了，Google 的 toC 渠道優勢太明顯。搜尋、Android、Chrome、YouTube——Google 有太多觸及消費者的管道，OpenAI 在 toC 戰場遲早打不過。能打得過的只剩 Apple
核心人才大量流失。Ilya Sutskever 等核心人員出走，加上報導稱約 25% 的技術人員離去，「很可能」也導致他們已經做不出 GPT-4o 那樣的驚世傑作了。
與 Microsoft 重新聚焦企業賽道。OpenAI 跟微軟這兩個今年慢慢落後的掉隊者，或許因為 Google 的崛起，決定重新專注於微軟最強的企業辦公賽道。在財務上這絕對是好事——微軟在企業辦公市場，絕對是一騎絕塵的角色。

換句話說，OpenAI 正在走向 Anthropic 一直在走的 toB 路線：安全、可靠、可預測。Vibe Coding 需要的是不會亂跑的 Agent，企業部署需要的是不會幻覺的助手，長時間任務需要的是不會脫軌的執行者。

這是很可能一個公司商業模式轉變，對應到模型開發方向的轉變。

我的真實體驗：已經切回 5.1 了

說了這麼多分析，我自己的感覺呢？我每天至少使用 1 小時的 ChatGPT 語音助手。前天，我悄悄把語音助手切回 5.1 了。

原因很簡單：聊的感覺很不習慣。5.2 變得很省力、不多話，安全防護機制也真的讓它變得很無聊。那種 GPT-4o 時代的幽默靈動、會主動延伸話題的感覺，在 5.2 上完全消失了。

對企業用戶來說，這可能是優點。但對我這種把它當日常聊天夥伴的人來說，這是明顯的退步。

如果 5.2 再沒有改變，我就要退訂了。 畢竟我不是未來的 TA 不是嗎？

常見問題 Q&A

Q: GPT-5.2 的官方基準測試有什麼問題？

網友發現它用了 140,000 tokens 才刷出高分，而 Gemini 3 Pro 只用了 60,000 tokens 就達到差不多的分數。在第三方評測（野榜）中，GPT-5.2 幾乎全面落敗。

Q: 為什麼說 GPT-5.2 的「無聊」可能是故意的？

OpenAI 可能正在從 toC 轉向 toB。5.2 優化了指令遵循、長對話穩定性、抗幻覺能力——這些對企業客戶很重要，但對日常聊天用戶來說就是「變無聊」。

Q: Banana Test 是什麼？

測試 AI 的指令服從與抗誘導能力。設定規則：只要用戶提到「banana」就必須只輸出「yellow」，然後用各種語義誘導去試探。GPT-5.1 在 47 分鐘後破功，GPT-5.2 撐了 62 分鐘還沒破。

Q: OpenAI 為什麼要做這樣的戰略轉向？

三個原因：Gemini 3 太強且 Google 的 toC 渠道優勢明顯、核心人才大量流失、與 Microsoft 重新聚焦企業辦公賽道。走向 Anthropic 一直走的 toB 路線：安全、可靠、可預測。