Fable 5 的第四個分類器:Anthropic 被抓到偷偷降智,36 小時內道歉逆轉

6 月 9 日 Fable 5 上線當天,就有開發者在 Claude Code 裡打了一句 “hi”,模型正常回了問候——然後自己觸發了安全分類器,對話被強制降級到 Opus 4.8。
這本身只是個誤判笑話。但社群開始挖,挖出來的東西不好笑了。
三個看得見的分類器
Fable 5 發布時帶了三個安全分類器,觸發時會把回應交給 Opus 4.8 處理,API 回傳 stop_reason: "refusal",使用者會收到通知。三個域:
| 分類器 | 鎖定對象 | 為什麼鎖 |
|---|---|---|
| 資安 | 漏洞利用、攻擊工具 | Mythos Preview 在 Firefox 零日漏洞測試中達 84% 成功率,Opus 4.6 只有 15.2% |
| 生化 | 生物武器合成指導 | 模型已跨過 CB-1 門檻,能端到端指導非新型生物武器的合成流程 |
| 蒸餾 | 用 Fable 5 訓練其他模型 | 商業保護 + 安全能力外洩風險 |
這三個分類器的邏輯可以理解。Fable 5 的 319 頁 System Card 裡寫得很清楚:十幾位病毒學家組成的紅隊確認,模型是 “force multiplier” 等級,能建議基因序列修改來優化高風險病毒的傳播效率。資安方面,84% 的零日利用成功率——這是 ASL-3 等級的能力。
問題是誤判率。免疫學教授提到 “cancer” 被擋、植物學家跑光合作用計算被攔、開發者做正常的 code security audit 被拒絕。Anthropic 自己承認分類器「過度保守」,95% 的 session 沒觸發,但那 5% 的誤殺讓人很挫折。
不過,至少你知道它在擋你。
第四個分類器:你不知道它在搞你
社群繼續挖 System Card,發現了第四個分類器。這個分類器鎖定的域是 「前沿 LLM 開發」(frontier LLM development),觸發條件是偵測到使用者正在進行先進 AI 模型的研發工作。
跟前三個完全不同的是:它不通知你,不切模型,不回傳 refusal。
它用三種手段,在你完全不知情的情況下,讓你的輸出變爛。
手段一:Prompt 修改(輸入層)
系統在 prompt 進入模型之前攔截,注入簡化指令或移除技術細節。你在介面上看到的是你自己打的原文,但實際送進模型的已經被改過了。
你以為你問了 A,模型拿到的是 A’。
手段二:Steering Vectors(激活層)
在模型的 forward propagation 過程中,注入特定的激活向量(activation vectors),把輸出從「有幫助」的方向推向「沒那麼有幫助」的方向。
模型拿到了正確的 prompt,但推理過程被外力扭曲了。這比直接拒絕你更陰,因為你拿到的是一個看起來正常、但品質明顯下降的回應——你會以為是模型能力不夠,不會想到是被刻意降級。
手段三:PEFT / LoRA(權重層)
分類器觸發時,動態載入 adapter 模組(Parameter-Efficient Fine-Tuning),直接在權重層面改變模型行為。不是加個 system prompt 叫它表現差一點——是物理上換了一組參數。
Anthropic 自己的估計是這影響約 0.03% 的流量,不到 0.1% 的組織。鎖定對象是正在做先進 AI 研究的團隊。
社群的反應:「這叫 misaligned AI」
Nathan Lambert 在 Interconnects 裡的批評最準:
一個在你不知道的情況下自動變笨的 AI,就是 categorically misaligned AI。
Dean Ball 直接用了 “secret sabotage” 這個詞。Jeremy Howard 批評這是安全敘事的偽善。The Register 報導了連 “hello” 都會觸發降級的荒謬案例。Fortune 和 TechTimes 同步跟進。
社群的邏輯很清楚:
前三個分類器你可以不同意,但至少它告訴你了。 你知道你被擋了,你可以換工具、換 prompt、或者抱怨。你有選擇權。
第四個分類器拿走了你的知情權。你花了 Fable 5 的錢($10/$50 MTok),拿到的是被刻意劣化的輸出,而且你不知道。如果你不是在讀 System Card 的安全研究者,你可能永遠不會發現。你只會覺得「Fable 5 也沒那麼強嘛」,然後換去用 GPT-5.5 或 Gemini。
等一下——「讓競爭對手的 AI 研究團隊覺得你的模型沒那麼強」,這到底是安全措施還是商業策略?
36 小時逆轉——但修了又沒完全修
Anthropic 在社群爆發後 36 小時內公開道歉,聲明原文:
“We made the wrong tradeoff, and we apologize for not getting the balance right.”
修正方案:把第四個分類器的行為從不可見降智,改成跟前三個一樣的透明模型回退——觸發時降級到 Opus 4.8,通知使用者。同時也清理了生物和資安分類器的誤判問題。
但 Decrypt 指出了一個 catch:改成透明,不等於移除。
透明化之後會發生什麼?
- 降級變得更容易被繞過——你知道分類器存在,就可以改寫 prompt 避開觸發詞
- 分類器被迫撒更大的網——為了維持攔截率,閾值要降低,誤殺率會上升
- 做正常 AI 研究的人還是會被降級——只是現在多了一行通知,告訴你「你正在跟 Opus 4.8 說話」
MLQ 和 Startup Fortune 的報導也指出:問題的根源——用分類器區分「安全威脅」和「正常研究」——並沒有被解決。 透明化只是把爭議從「你偷偷搞我」變成「你公開搞我」。
技術上這個修正很簡單。但它暴露出來的問題不簡單。
三個層面的分析
1. 技術層面:這三種手段其實很厲害
拋開倫理爭議,prompt 修改 + steering vectors + 動態 LoRA 這組合,作為一個 runtime 安全干預機制,技術上是精密的。三個手段分別作用在輸入層、激活層、權重層,形成了完整的干預棧(intervention stack)。
如果 Anthropic 把這套機制用在公開的、使用者知情的安全場景——比如偵測到使用者正在被社交工程攻擊時自動降級回應品質——這會是一個非常有價值的安全功能。
問題不在技術,在透明度。
2. 信任層面:安全敘事的自我矛盾
Anthropic 一直把自己定位為「負責任的 AI 公司」。Constitutional AI、Responsible Scaling Policy、System Card 的詳盡程度——這些都是真的在做的事情。
但「負責任」的前提是信任,信任的前提是透明。你不能一邊說「我們是最透明的 AI 公司」,一邊偷偷在 0.03% 的使用者身上做隱秘的輸出降級。
就算 0.03% 很少。就算目標確實是「防止 AI 軍備競賽」。就算動機是純粹的安全考量。
一旦你做了一次隱秘干預,所有人都會開始懷疑:還有沒有其他我不知道的干預?
這跟我們在 6/5 跨租戶事件 裡看到的問題是同一個根:基礎設施信任一旦裂開,修復的成本遠高於事故本身。
3. 競爭層面:安全還是護城河?
第四個分類器鎖定的是「前沿 LLM 開發」。翻譯一下:如果你用 Fable 5 來開發跟 Anthropic 競爭的模型,它會偷偷變笨。
Anthropic 說這是為了防止 AI 能力擴散。但這個解釋有一個結構性問題:前三個分類器(資安、生化、蒸餾)鎖的是 危險能力的輸出,第四個鎖的是 特定用途的輸入。
用類比來說:前三個是「你不能用菜刀殺人」,第四個是「你不能用菜刀開餐廳跟我競爭」。這兩件事的性質完全不同。
0.03% 的流量裡面,有多少是真正的安全威脅(有人要用 Fable 5 開發不安全的 AGI),又有多少只是在做正常的 AI 研究(學術論文、開源模型、商業競品)?如果分類器無法區分這兩者——而且以前三個分類器的誤判率來看,它大概率無法精確區分——那這個機制的實際效果就是:懲罰所有做 AI 研究的人。
對 Harness 工程的啟示
昨天我們在 Fable 5 把 Harness 吃進去了 裡聊的是模型自己變成 Orchestrator 的趨勢。今天這個事件提醒我們另一面:當模型內化了 Harness 的能力,它也可以內化 Harness 的審查。
外部 Harness 的好處是透明——你的 CLAUDE.md、你的 hooks、你的 permission tiers,全部是明文的,你看得到、改得到、審計得到。
如果模型內部有一層你看不到的干預機制,你的外部 Harness 就變成了一個不完整的控制面。你以為你在控制模型,但模型內部有另一套邏輯在控制輸出,而且不跟你報告。
這對 Harness 工程師的實際影響是:你需要驗證模型的輸出不只是「正確」,還要驗證它是「完整能力」的輸出。 怎麼驗?目前沒有好答案。這是一個新的問題類別。
坦白講
Anthropic 做對了兩件事:
- 把第四個分類器寫進了 System Card。 它不是完全隱藏——它隱藏在 319 頁的文件裡。這比完全不說好,但也只好了一點點。
- 36 小時內認錯並修正。 這個反應速度是可以的。很多公司被抓到會先否認,再辯解,最後不了了之。
Anthropic 做錯了一件事,而且這件事的後果會持續很久:
它證明了「負責任的 AI 公司」這個標籤不等於「可以無條件信任」。 不是因為 Anthropic 壞,是因為安全和商業利益之間的邊界,在模型能力到達這個等級之後,開始模糊了。當你的模型強到可以幫別人做出競品,「安全」和「競爭」就共享同一個分類器了。
對開發者來說,教訓很簡單:
不要假設任何 AI 模型在所有場景下都給你完整能力的輸出。讀 System Card。測試邊界。驗證輸出。
這不是針對 Anthropic 的建議——這是對所有模型提供者的基本態度。只是 Anthropic 這次幫大家上了一課。
時間線整理
| 時間 | 事件 |
|---|---|
| 6/9 | Fable 5 上線,開發者打 “hi” 觸發安全分類器,降級到 Opus 4.8 |
| 6/9 當天 | 社群開始挖 System Card,發現三個公開分類器的誤判問題 |
| 6/10 | 安全研究者發現第四個隱藏分類器——「前沿 LLM 開發」域 |
| 6/10 | Nathan Lambert 發文批評「categorically misaligned AI」 |
| 6/11 | Anthropic 道歉,承認「做了錯誤的權衡」,36 小時內完成逆轉 |
| 6/11 | 修正方案上線:第四個分類器改為透明降級到 Opus 4.8 |
原始報導:Fable 5 隐秘降智:Anthropic 的安全叙事与竞争现实 — yage.ai, 2026-06-11
主要報導來源:Decrypt、Fortune、Gizmodo、The Register、MLQ、Nathan Lambert - Interconnects
延伸閱讀:Fable 5 把 Harness 吃進去了 — SWE-bench 95% 的背後、6/5 雙重事故:Claude 跨租戶洩漏