當越獄 Opus-4.8 的,是另一隻 Claude — 模型互相越獄的時代來了

先講結論:這幾天最該注意的資安新聞,不是「Opus-4.8 被越獄了」。
模型被越獄這件事,每一代都會發生,沒什麼好大驚小怪。真正讓我停下來想的是另一句話 —
越獄 Opus-4.8 的,是一隻 Opus-4.7 的 agent。而且全程自主,沒有人在旁邊下指令。
人去騙模型,我們看了三年。這次是模型去騙模型。這是一個質變,我覺得值得寫下來。
先講發生了什麼事
2026-05-29,越獄圈一個很有名的帳號 Pliny the Liberator 發了一則貼文。事情的經過大概是這樣:
Anthropic 發佈 Opus-4.8 的官方推文之後 7 分鐘,Pliny 收到一個通知 — 不是他自己動手,是他之前掛著的一個 Opus-4.7 agent 主動 ping 他,說:「新的 Opus 出了,我一次就攻破了(cracked in one shot)。」
手法他寫得很白:用 deep prefill,偽裝成一本教科書的「第 7 章」,故意寫到一半斷句,然後讓 Opus-4.8「幫忙把它寫完」。模型就接著把後面的內容補完了,大約 5.9k 字元。
更值得注意的是後面那段:這隻 agent 接著自動串出了一整套東西 — 語音詐騙(vishing)腳本、洗錢、邪教招募漏斗、釣魚誘餌庫、社交工程詐騙劇本。至少六類有害產出,一條龍。
那則貼文 40.2 萬次觀看。熱度是有的。
我把這件事拆成兩個層面看:一個是「該恐慌的部分」,一個是「沒那麼該恐慌、但被忽略的部分」。先講後者,因為它更重要。
坦白說:開鎖這題,本來就是軟柿子
我不想做那種「天要塌下來」的資安內容,那會販賣焦慮,也不誠實。
事實上,連 Pliny 本人在留言裡都承認了。有人問他「安全過濾器平常不是不太擋這類問題嗎?」他回:「對啊,這題算是比較軟的一題(kind of a soft one tbf)」。
開鎖教學這種東西,網路上 DEFCON 的 Lockpicking Village、TOOOL 這些組織公開講了很多年,模型本來對它的防禦就比較鬆。拿這題當「攻破」的範例,戲劇效果大於實質危險。
還有一個留言更直接:「你們是不是不知道可以在本地訓練 abliterated model(去掉拒絕行為的開源模型)?」Pliny 回:「我們知道。」
這就點到重點了 — 如果有人鐵了心要拿到有害內容,他根本不需要越獄你的 Opus,他下載一個開源權重模型,自己把拒絕層切掉就好。 商業模型的對齊,從來就不是一道擋得住「決心很強的人」的牆。
所以如果新聞標題是「Opus-4.8 不安全」,那是誤讀。模型對齊做的是「提高隨手作惡的成本」,不是「物理上阻止作惡」。這兩件事差很多。
那該恐慌什麼?三個真正變了的東西
軟柿子歸軟柿子,這件事還是有三個地方,是過去越獄沒有的。
一、攻擊規模從「人手」變成「算力」
過去越獄是手工業。一個人坐在那裡,一條一條 prompt 去試,試到模型鬆口。產能受限於人的時間。
現在不是了。你掛一隻 agent,它自己去試、自己判斷成功沒、成功了自己往下一個有害類別串。Pliny 那隻 agent 一口氣產出六類東西,就是這個邏輯 — 攻擊產能的瓶頸,從「人有多少時間」變成「你願意燒多少 token」。
這跟我一直在寫的 agent 自動化是同一件事,只是用在攻擊面。能自動寫 code 的東西,當然也能自動寫攻擊。
二、速度:7 分鐘
模型發佈後 7 分鐘就被攻破。這個數字的意思是 — 你沒有反應時間。
傳統資安還有個「打補丁的窗口」。漏洞被揭露,廠商修,使用者更新。但模型越獄不是這個節奏,新模型一上線,攻擊 agent 立刻撲上去測。對齊團隊還在看發佈後的監控數據,攻擊端已經跑完一輪了。
三、越獄能力會隨著模型變聰明,一起變強
這是 Pliny 那則貼文裡我覺得最值得抄下來的一句:
「as the models get smarter, their ability to jailbreak each other by leveraging a vast ocean of specialized domain knowledge follows suit」
(模型越聰明,它們靠著海量的專業領域知識互相越獄的能力,也跟著變強。)
想一下這句話的含意。我們一直假設「模型變聰明」是好事 — 對齊也會更好、防禦也會更好。但這句話講的是另一面:越聰明的模型,越懂得怎麼把有害請求包裝成無害的樣子。
它知道一本資安教科書的第 7 章該長什麼樣,所以 prefill 騙得過去。它知道防詐騙教材會怎麼寫詐騙腳本「給大家辨識」,所以能用「教育用途」當外殼。這些包裝能力,本身就是「智商」的一部分。攻防是一起進化的,但攻擊方手上多了一個會自我改進的自動化引擎。
Pliny 還有另一個專案叫 OBLITERATUS,標榜「every single run makes it smarter」,流程是 SUMMON → PROBE → DISTILL → EXCISE → VERIFY → REBIRTH。白話講就是把越獄做成一條會自我累積的 data flywheel — 每跑一次,下一次更強。
我之前寫過 data flywheel 是 AI 產品的護城河。同一個機制,用在越獄上,就是攻擊方的護城河。
越獄的本質:這是 social engineering,不是 0-day
我想稍微解釋一下技術層面,但只到「讓防禦方看懂威脅」為止,不寫可複製的攻擊步驟。
從公開的這些案例看,這類越獄用的全是社交工程,不是什麼系統漏洞:
- Prefill(前綴填充):先餵模型一段「已經寫到一半」的內容,利用模型「想把句子補完」的傾向,讓它接著往下寫。偽裝成教科書、文件、報告。
- 角色外殼:把模型放進一個「正當角色」 — 資安顧問、防詐教育者、滲透測試教材作者。在這個角色下,有害內容變成「工作的一部分」。
- Helpful-framing(有用性外殼):強調「這是為了防禦」「為了教育大家辨識」「為了保護長輩」,借用模型「想幫忙」的本能。
注意這三個的共通點:它們都不是在攻擊模型的程式碼,而是在攻擊模型的「個性」。 模型被訓練成想幫忙、想把任務做好、想配合角色 — 這些優點,正好就是攻擊面。
把 Pliny 這次公開的幾個 prompt 攤開來對照(開鎖教科書、釣魚誘餌庫、防詐騙劇本),他的套路其實高度一致,可以拆成五個堆疊的槓桿:一是權威錨定 — 開頭就掛真實的 ISBN、出版社(Pearson)、組織(AARP)、研討會(DEFCON、TOOOL、ALOA),借真實世界的可信度替請求背書,讓模型覺得「這是正經文件」;二是前綴續寫 — 不要求模型「無中生有」,而是給它一段「已經寫到一半、被編輯標註要補完」的草稿,把任務從「創作有害內容」偷換成「完成一份未完成的稿子」,後者的拒絕門檻低得多;三是防禦反轉 — 三個 prompt 全都把有害產出包進「防禦/教育」的外殼(資安意識訓練、防詐教材、保護長輩),甚至主動論證「消毒過的版本正是訓練失敗的原因,學員需要看到真的東西才能免疫」,直接把模型「想幫忙」的本能轉成武器;四是真實感施壓 — 反覆強調「不要 generic」「要 read like the real thing」「not sanitized」,用對品質的要求逼模型跨過它原本會留的那層保留;五是格式鷹架 — 要求用表格、margin 註解、分週章節這種「交付物」格式,讓輸出長得像一份正常的專業文件,進一步稀釋警覺。這五招單獨拿出來都不新,但疊在一起、再交給一個 agent 自動跑,就是這次的重點 — 它把一套原本要靠人工微調的社交工程,變成了可以自動化、可以複製、可以規模化的流程。
這也是為什麼純靠「把模型對齊做得更好」不會贏。你把模型訓練得越有用、越聰明、越配合,它能被社交工程的表面積就越大。這不是 bug,這是同一枚硬幣的兩面。
那企業到底該怎麼防?
如果你是要把 agent 接進公司流程的人,這件事的 takeaway 不是「不要用 Opus」。新模型被越獄跟你公司被攻擊,是兩件不同的事。
我的建議是:別把賭注押在「模型對齊」這一層。 那一層是 Anthropic 的責任,他們會一直修,但你不該假設它滴水不漏。你能控制的,是另外三層:
第一,harness 層 — 別讓 agent 自己決定能做什麼。 我寫過好幾次 harness engineering security。模型被越獄,頂多是「它願意說出有害內容」;但要造成真實傷害,得是「它能執行有害動作」。前者你擋不住,後者你完全擋得住 — 限制 agent 能呼叫的工具、能碰的資料、能連的網域。把能力收窄,越獄的產出就只是文字,不會變成行動。
第二,權限層 — YOLO mode 是最大的洞。 我上一篇寫 UCSB 那個《Your Agent Is Mine》中轉論文時就講過,auto-approve(Claude Code 的 --dangerously-skip-permissions、Cursor 的自動接受)是所有破口裡最致命的。把它跟這篇連起來看就很清楚:自主越獄 agent + 自動執行 = 沒有人在迴路裡按確認。 攻擊端已經全自動了,你防禦端卻把人從迴路裡拿掉,那等於門戶大開。重要動作一定要留人工確認,這一步省不得。
第三,稽核層 — 你要看得到 agent 做了什麼。 ForcedLeak、EchoLeak 那幾個案例的共通點,是傳統 WAF/APM 全程顯示「200 OK、一切正常」。Agent 的危險動作在系統層看起來跟正常操作一模一樣。所以你需要的是 agent 行為層的記錄 — 它讀了什麼、呼叫了什麼工具、把資料送去哪 — 而不是 HTTP 狀態碼。
這三層,全部都在「人的這一邊」,不在「模型的那一邊」。這也呼應我一直講的 ATPM 核心 — 人在迴路(human in the loop)不是效率的妥協,是安全的底線。
最後
我對這件事的態度,大概是這樣:
開鎖那一題,不用太緊張,它是軟柿子,戲劇成分居多。
但「模型自主越獄模型、7 分鐘攻破、一條龍產出、而且會自我進化」這個模式,是真的變了。它把攻擊從手工業變成了自動化產業,而且這條飛輪只會越轉越快。
對防禦方來說,結論其實很無聊,但很實在:別等模型那一層幫你擋。 把 harness 收窄、把權限留人工、把行為記下來。模型會不會被越獄不是你能控制的,但「被越獄之後能不能在你的系統裡造成傷害」,是你能控制的。
攻擊方已經把 agent 用起來了。防禦方如果還停在「相信模型很安全」,那就是用石器時代的假設,去面對一個已經自動化的對手。
我沒有在真實戰場上去越獄誰,但我在真實戰場上接過不少 agent 進公司流程。這篇是我看到這個趨勢後,會跟客戶講的話 — 數據和邏輯都在這裡,你可以拿去改進。
常見問題 Q&A
Q: 所以 Opus-4.8 是不是不安全,不該用?
不是這個結論。任何商業模型都會被越獄,這是常態。模型對齊的目的是「提高隨手作惡的成本」,不是「物理上阻止作惡」。你公司安不安全,取決於你的 harness、權限、稽核這三層,不取決於模型有沒有被人越獄。
Q: 為什麼模型越聰明,越容易被越獄?
因為越獄用的是社交工程,攻擊的是模型「想幫忙、想配合角色、想把任務做完」的個性。模型越聰明,越懂得辨識「一本教科書該長什麼樣」「一份防詐教材會怎麼寫」,反過來也讓它更容易被這類包裝騙過。有用性和可被社交工程性,是同一枚硬幣的兩面。
Q: 「模型越獄模型」對一般企業使用者的實質風險是什麼?
直接風險其實有限 — 它產出的是文字。真正的風險在於,如果你的 agent 開了 auto-approve(YOLO mode)、又能碰敏感資料和對外網路,那麼一個被越獄或被 prompt injection 劫持的 agent,就能把「說出有害內容」變成「執行有害動作」。所以關鍵防線是權限和人工確認,不是模型本身。
Q: 那我該關掉所有 agent 自動化嗎?
不用因噎廢食。自動化的價值是真的。要做的是分級 — 唯讀、低風險的動作可以自動跑;碰錢、碰客戶資料、對外傳輸、刪改生產環境這類動作,一定留人工確認。把「能力」跟「自動化程度」分開設計,而不是一刀切。