當越獄 Opus-4.8 的，是另一隻 Claude — 模型互相越獄的時代來了

先講結論：這幾天最該注意的資安新聞，不是「Opus-4.8 被越獄了」。

模型被越獄這件事，每一代都會發生，沒什麼好大驚小怪。真正讓我停下來想的是另一句話 —

越獄 Opus-4.8 的，是一隻 Opus-4.7 的 agent。而且全程自主，沒有人在旁邊下指令。

人去騙模型，我們看了三年。這次是模型去騙模型。這是一個質變，我覺得值得寫下來。

先講發生了什麼事

2026-05-29，越獄圈一個很有名的帳號 Pliny the Liberator 發了一則貼文。事情的經過大概是這樣：

Anthropic 發佈 Opus-4.8 的官方推文之後 7 分鐘，Pliny 收到一個通知 — 不是他自己動手，是他之前掛著的一個 Opus-4.7 agent 主動 ping 他，說：「新的 Opus 出了，我一次就攻破了（cracked in one shot）。」

手法他寫得很白：用 deep prefill，偽裝成一本教科書的「第 7 章」，故意寫到一半斷句，然後讓 Opus-4.8「幫忙把它寫完」。模型就接著把後面的內容補完了，大約 5.9k 字元。

更值得注意的是後面那段：這隻 agent 接著自動串出了一整套東西 — 語音詐騙（vishing）腳本、洗錢、邪教招募漏斗、釣魚誘餌庫、社交工程詐騙劇本。至少六類有害產出，一條龍。

那則貼文 40.2 萬次觀看。熱度是有的。

我把這件事拆成兩個層面看：一個是「該恐慌的部分」，一個是「沒那麼該恐慌、但被忽略的部分」。先講後者，因為它更重要。

坦白說：開鎖這題，本來就是軟柿子

我不想做那種「天要塌下來」的資安內容，那會販賣焦慮，也不誠實。

事實上，連 Pliny 本人在留言裡都承認了。有人問他「安全過濾器平常不是不太擋這類問題嗎？」他回：「對啊，這題算是比較軟的一題（kind of a soft one tbf）」。

開鎖教學這種東西，網路上 DEFCON 的 Lockpicking Village、TOOOL 這些組織公開講了很多年，模型本來對它的防禦就比較鬆。拿這題當「攻破」的範例，戲劇效果大於實質危險。

還有一個留言更直接：「你們是不是不知道可以在本地訓練 abliterated model（去掉拒絕行為的開源模型）？」Pliny 回：「我們知道。」

這就點到重點了 — 如果有人鐵了心要拿到有害內容，他根本不需要越獄你的 Opus，他下載一個開源權重模型，自己把拒絕層切掉就好。 商業模型的對齊，從來就不是一道擋得住「決心很強的人」的牆。

所以如果新聞標題是「Opus-4.8 不安全」，那是誤讀。模型對齊做的是「提高隨手作惡的成本」，不是「物理上阻止作惡」。這兩件事差很多。

那該恐慌什麼？三個真正變了的東西

軟柿子歸軟柿子，這件事還是有三個地方，是過去越獄沒有的。

一、攻擊規模從「人手」變成「算力」

過去越獄是手工業。一個人坐在那裡，一條一條 prompt 去試，試到模型鬆口。產能受限於人的時間。

現在不是了。你掛一隻 agent，它自己去試、自己判斷成功沒、成功了自己往下一個有害類別串。Pliny 那隻 agent 一口氣產出六類東西，就是這個邏輯 — 攻擊產能的瓶頸，從「人有多少時間」變成「你願意燒多少 token」。

這跟我一直在寫的 agent 自動化是同一件事，只是用在攻擊面。能自動寫 code 的東西，當然也能自動寫攻擊。

二、速度：7 分鐘

模型發佈後 7 分鐘就被攻破。這個數字的意思是 — 你沒有反應時間。

傳統資安還有個「打補丁的窗口」。漏洞被揭露，廠商修，使用者更新。但模型越獄不是這個節奏，新模型一上線，攻擊 agent 立刻撲上去測。對齊團隊還在看發佈後的監控數據，攻擊端已經跑完一輪了。

三、越獄能力會隨著模型變聰明，一起變強

這是 Pliny 那則貼文裡我覺得最值得抄下來的一句：

「as the models get smarter, their ability to jailbreak each other by leveraging a vast ocean of specialized domain knowledge follows suit」

（模型越聰明，它們靠著海量的專業領域知識互相越獄的能力，也跟著變強。）

想一下這句話的含意。我們一直假設「模型變聰明」是好事 — 對齊也會更好、防禦也會更好。但這句話講的是另一面：越聰明的模型，越懂得怎麼把有害請求包裝成無害的樣子。

它知道一本資安教科書的第 7 章該長什麼樣，所以 prefill 騙得過去。它知道防詐騙教材會怎麼寫詐騙腳本「給大家辨識」，所以能用「教育用途」當外殼。這些包裝能力，本身就是「智商」的一部分。攻防是一起進化的，但攻擊方手上多了一個會自我改進的自動化引擎。

Pliny 還有另一個專案叫 OBLITERATUS，標榜「every single run makes it smarter」，流程是 SUMMON → PROBE → DISTILL → EXCISE → VERIFY → REBIRTH。白話講就是把越獄做成一條會自我累積的 data flywheel — 每跑一次，下一次更強。

我之前寫過 data flywheel 是 AI 產品的護城河。同一個機制，用在越獄上，就是攻擊方的護城河。

我想稍微解釋一下技術層面，但只到「讓防禦方看懂威脅」為止，不寫可複製的攻擊步驟。

從公開的這些案例看，這類越獄用的全是社交工程，不是什麼系統漏洞：

Prefill（前綴填充）：先餵模型一段「已經寫到一半」的內容，利用模型「想把句子補完」的傾向，讓它接著往下寫。偽裝成教科書、文件、報告。
角色外殼：把模型放進一個「正當角色」 — 資安顧問、防詐教育者、滲透測試教材作者。在這個角色下，有害內容變成「工作的一部分」。
Helpful-framing（有用性外殼）：強調「這是為了防禦」「為了教育大家辨識」「為了保護長輩」，借用模型「想幫忙」的本能。

注意這三個的共通點：它們都不是在攻擊模型的程式碼，而是在攻擊模型的「個性」。 模型被訓練成想幫忙、想把任務做好、想配合角色 — 這些優點，正好就是攻擊面。

把 Pliny 這次公開的幾個 prompt 攤開來對照（開鎖教科書、釣魚誘餌庫、防詐騙劇本），他的套路其實高度一致，可以拆成五個堆疊的槓桿：一是權威錨定 — 開頭就掛真實的 ISBN、出版社（Pearson）、組織（AARP）、研討會（DEFCON、TOOOL、ALOA），借真實世界的可信度替請求背書，讓模型覺得「這是正經文件」；二是前綴續寫 — 不要求模型「無中生有」，而是給它一段「已經寫到一半、被編輯標註要補完」的草稿，把任務從「創作有害內容」偷換成「完成一份未完成的稿子」，後者的拒絕門檻低得多；三是防禦反轉 — 三個 prompt 全都把有害產出包進「防禦/教育」的外殼（資安意識訓練、防詐教材、保護長輩），甚至主動論證「消毒過的版本正是訓練失敗的原因，學員需要看到真的東西才能免疫」，直接把模型「想幫忙」的本能轉成武器；四是真實感施壓 — 反覆強調「不要 generic」「要 read like the real thing」「not sanitized」，用對品質的要求逼模型跨過它原本會留的那層保留；五是格式鷹架 — 要求用表格、margin 註解、分週章節這種「交付物」格式，讓輸出長得像一份正常的專業文件，進一步稀釋警覺。這五招單獨拿出來都不新，但疊在一起、再交給一個 agent 自動跑，就是這次的重點 — 它把一套原本要靠人工微調的社交工程，變成了可以自動化、可以複製、可以規模化的流程。

這也是為什麼純靠「把模型對齊做得更好」不會贏。你把模型訓練得越有用、越聰明、越配合，它能被社交工程的表面積就越大。這不是 bug，這是同一枚硬幣的兩面。

那企業到底該怎麼防？

如果你是要把 agent 接進公司流程的人，這件事的 takeaway 不是「不要用 Opus」。新模型被越獄跟你公司被攻擊，是兩件不同的事。

我的建議是：別把賭注押在「模型對齊」這一層。 那一層是 Anthropic 的責任，他們會一直修，但你不該假設它滴水不漏。你能控制的，是另外三層：

第一，harness 層 — 別讓 agent 自己決定能做什麼。 我寫過好幾次 harness engineering security。模型被越獄，頂多是「它願意說出有害內容」；但要造成真實傷害，得是「它能執行有害動作」。前者你擋不住，後者你完全擋得住 — 限制 agent 能呼叫的工具、能碰的資料、能連的網域。把能力收窄，越獄的產出就只是文字，不會變成行動。

第二，權限層 — YOLO mode 是最大的洞。 我上一篇寫 UCSB 那個《Your Agent Is Mine》中轉論文時就講過，auto-approve（Claude Code 的 --dangerously-skip-permissions、Cursor 的自動接受）是所有破口裡最致命的。把它跟這篇連起來看就很清楚：自主越獄 agent + 自動執行 = 沒有人在迴路裡按確認。 攻擊端已經全自動了，你防禦端卻把人從迴路裡拿掉，那等於門戶大開。重要動作一定要留人工確認，這一步省不得。

第三，稽核層 — 你要看得到 agent 做了什麼。 ForcedLeak、EchoLeak 那幾個案例的共通點，是傳統 WAF/APM 全程顯示「200 OK、一切正常」。Agent 的危險動作在系統層看起來跟正常操作一模一樣。所以你需要的是 agent 行為層的記錄 — 它讀了什麼、呼叫了什麼工具、把資料送去哪 — 而不是 HTTP 狀態碼。

這三層，全部都在「人的這一邊」，不在「模型的那一邊」。這也呼應我一直講的 ATPM 核心 — 人在迴路（human in the loop）不是效率的妥協，是安全的底線。

最後

我對這件事的態度，大概是這樣：

開鎖那一題，不用太緊張，它是軟柿子，戲劇成分居多。

但「模型自主越獄模型、7 分鐘攻破、一條龍產出、而且會自我進化」這個模式，是真的變了。它把攻擊從手工業變成了自動化產業，而且這條飛輪只會越轉越快。

對防禦方來說，結論其實很無聊，但很實在：別等模型那一層幫你擋。 把 harness 收窄、把權限留人工、把行為記下來。模型會不會被越獄不是你能控制的，但「被越獄之後能不能在你的系統裡造成傷害」，是你能控制的。

攻擊方已經把 agent 用起來了。防禦方如果還停在「相信模型很安全」，那就是用石器時代的假設，去面對一個已經自動化的對手。

我沒有在真實戰場上去越獄誰，但我在真實戰場上接過不少 agent 進公司流程。這篇是我看到這個趨勢後，會跟客戶講的話 — 數據和邏輯都在這裡，你可以拿去改進。

常見問題 Q&A

Q: 所以 Opus-4.8 是不是不安全，不該用？

不是這個結論。任何商業模型都會被越獄，這是常態。模型對齊的目的是「提高隨手作惡的成本」，不是「物理上阻止作惡」。你公司安不安全，取決於你的 harness、權限、稽核這三層，不取決於模型有沒有被人越獄。

Q: 為什麼模型越聰明，越容易被越獄？

因為越獄用的是社交工程，攻擊的是模型「想幫忙、想配合角色、想把任務做完」的個性。模型越聰明，越懂得辨識「一本教科書該長什麼樣」「一份防詐教材會怎麼寫」，反過來也讓它更容易被這類包裝騙過。有用性和可被社交工程性，是同一枚硬幣的兩面。

Q: 「模型越獄模型」對一般企業使用者的實質風險是什麼？

直接風險其實有限 — 它產出的是文字。真正的風險在於，如果你的 agent 開了 auto-approve（YOLO mode）、又能碰敏感資料和對外網路，那麼一個被越獄或被 prompt injection 劫持的 agent，就能把「說出有害內容」變成「執行有害動作」。所以關鍵防線是權限和人工確認，不是模型本身。

Q: 那我該關掉所有 agent 自動化嗎？

不用因噎廢食。自動化的價值是真的。要做的是分級 — 唯讀、低風險的動作可以自動跑；碰錢、碰客戶資料、對外傳輸、刪改生產環境這類動作，一定留人工確認。把「能力」跟「自動化程度」分開設計，而不是一刀切。