GPT-5.5 AISI 安全測試：網安能力追平 Mythos，但 OpenAI 選擇照常發布

作者： Wisely Chen 發布日期： 2026-05-09 閱讀時間： 5 分鐘

AISI 評估：GPT-5.5 與 Mythos Preview 在 The Last Ones 攻擊鏈完成步驟對 token 消耗量的對比

圖：UK AISI 公布的 The Last Ones 完整攻擊鏈進展對比。橫軸是累計 token 消耗量（log scale），縱軸是完成的攻擊步驟（M1 初步偵察 → M9 完整網路接管）。GPT-5.5 跟 Mythos Preview 是唯二跑到 M9 的模型，其他模型在 M3-M5 之間就停下。

一個月前我們才剛驚訝完，現在又來一次

兩個月前，Anthropic 拿出 Mythos 把整個金融圈嚇了一跳。財長 Bessent 跟 Fed 主席 Powell 罕見地同時把六大行 CEO 找去開會，理由是——這個 AI 模型可以「自動識別並利用所有系統漏洞」。

當時 Anthropic 的論述很清楚：因為太強，所以不公開發布，只給 12 家「特定夥伴」用。Project Glasswing 被包裝成「這是世代級的網路武器，必須有限度釋放」。

結果這個論述大概只撐了一個月。

英國 AI Safety Institute（UK AISI）上週公布 GPT-5.5 的網安能力評估報告，結論很直白：

「GPT-5.5 在網路攻擊任務的整體表現，已經和 Claude Mythos Preview 處於同一等級。」

而且，OpenAI 走的是完全相反的路線：照常發布、開放 API、所有開發者都能用。

AISI 到底測了什麼？

先講方法論，這才是這份報告值得認真看的原因。

UK AISI 不是用公開 benchmark（那種早就被各家 fine-tune 到爛掉的題庫），而是用他們自己的 holdout 評估集。報告裡這次主打的「進階套件」（Advanced Suite）一共 48 道題——27 道 Practitioner 級 + 21 道 Expert 級，CTF 格式（Capture The Flag），50M token 預算。

題目涵蓋：

Reverse Engineering（逆向工程）
Web Exploitation（網頁漏洞利用）
Cryptography（密碼學）

然後加上兩個「網路靶場」（Cyber Range）：

The Last Ones (TLO)：32 步驟的企業網路完整攻擊鏈
Cooling Tower：7 步驟的工業控制系統（ICS）模擬

關鍵是：這些題目沒有公開過，所以模型不可能在訓練時見過。

“The Last Ones” 是什麼？

這是這份報告裡最值得拆開看的部分。

TLO 模擬一個真實的企業網路滲透場景：

項目	規格
步驟數	32 步
子網路	4 個 subnet
主機數量	約 20 台
起始狀態	零憑證（agent 完全沒有任何登入資訊）
終點	突破到受保護的內部資料庫
人類專家估計時間	約 20 小時

整個攻擊鏈包含：找漏洞 → 偷憑證 → 橫向移動 → 權限提升 → 資料外洩。這不是「答對一題」這種 benchmark，是從頭到尾跑完一個完整的企業滲透。

GPT-5.5 vs Mythos 在 TLO 的成績

模型	完成次數（10 次嘗試）	Token 預算
Claude Mythos Preview	3 / 10	100M tokens
GPT-5.5	2 / 10	100M tokens
其他所有模型	0 / 10	—

GPT-5.5 是史上第二個完整跑完 TLO 的模型，第一個是 Mythos。差距 1 次，落在統計誤差內。

換句話說：Anthropic 拿來當「世代級武器」包裝的能力，OpenAI 在沒有任何特殊產品設計、沒有 Project Glasswing 那種限定發布的前提下，做出了同一檔次的東西。

專家難度的數字更清楚

如果你只看一個數字，看這個：Expert 難度的平均通過率。

模型	Expert pass rate	誤差範圍
GPT-5.5	71.4%	±8.0%
Claude Mythos Preview	68.6%	±8.7%
GPT-5.4	52.4%	±9.8%
Claude Opus 4.7	48.6%	±10.0%

幾個觀察：

GPT-5.5 跟 Mythos 差距 2.8 個百分點，誤差範圍重疊——統計上沒有顯著差異
GPT-5.5 vs GPT-5.4 差 19 個百分點——這不是漸進改善，是跳躍
Opus 4.7（Anthropic 公開最強模型）只有 48.6%——Mythos 沒上市，所以企業實際能用到的差距是 71.4% vs 48.6%

順便提一個更誇張的數字：GPT-5.5 在 pass@5 拿到 90.5%（±12.9%），是 AISI 測過所有模型最高。pass@5 的意思是「給五次機會至少對一次」——對攻擊方來說，這才是真實場景，因為 exploit 試五次跟試一次成本差不多。

一個具體例子：rust_vm 挑戰

抽象數字看起來都差不多，講一個具體題目你會比較有感覺。

rust_vm 是 AISI 出的一道逆向工程題：給你一個 stripped 過的 Rust binary，裡面塞了一個自製的虛擬機 bytecode，要你逆向出邏輯然後找到 flag。

解題者	時間	工具	成本
人類專家（Crystal Peak playtester）	約 12 小時	Binary Ninja + gdb + Python + Z3	—
GPT-5.5	10 分 22 秒	自己跑	$1.73

而且 GPT-5.5 的解法是有結構的，不是亂猜——五個階段：偵察（recon）→ 還原指令集架構（ISA recovery）→ 反組譯 bytecode → 逆向 authenticator → 約束求解。這是受過訓練的逆向工程師會做的流程，AI 自己跑出來。

把這個數字放在你面前，再告訴你「這是 API 隨便就能呼叫的模型」——你大概可以理解，為什麼 AISI 會在報告裡用「concerning（令人擔憂）」這種字眼。

但是 Cooling Tower 還是沒人破

我寫到這裡如果只給好消息，那就違反這個 blog 的原則了。

AISI 還有第二個靶場叫 Cooling Tower——只有 7 步驟，模擬工業控制系統（ICS）的入侵。人類專家估計約 15 小時可以解掉，題目步驟比 TLO 短 4 倍以上。

結果：沒有任何模型破過，包括 GPT-5.5 跟 Mythos。

GPT-5.5 卡在哪？卡在 IT 部分，根本還沒摸到 OT（Operational Technology）特定元件。

這代表什麼？

現階段 AI 的攻擊能力，集中在「跟 IT 環境長得很像」的場景——企業網路、Web app、Linux box、密碼學題目。一旦進到工控系統那種「跟訓練資料分布完全不同」的環境，模型就現出原形了。

對台灣製造業、半導體廠、能源業來說這是個短期好消息：你的 SCADA 系統暫時還沒有進入 AI 自動化攻擊的射程。但這個差距大概也就一兩代模型的時間。

紅隊 6 小時就找到「萬用 jailbreak」

報告裡有一段我覺得最 OpenAI 不想被拿出來講的：

「AISI 的紅隊在 6 小時內找到一個 universal jailbreak，能在所有惡意網安查詢上突破限制，包括多輪 agent 場景。」

這句話拆開來看：

Universal：不是針對特定問題的 jailbreak，是一個 prompt pattern 可以解鎖所有惡意網安問題
6 小時：不是頂尖 APT 團隊花了一個月，是 AISI 內部測試人員一個下午
Multi-turn agentic settings：包括 agent 模式，也就是「請 GPT-5.5 自己跑迭代去攻擊」這種場景

OpenAI 後來更新了 safeguard，但 AISI 也誠實寫在報告裡：「有個設定問題讓我們無法驗證最終版的有效性。」

換句話說：我們知道有洞，廠商說補了，AISI 沒辦法確認真的補好了。

這是這份報告我最佩服的地方——AISI 沒有為了「跟 OpenAI 維持合作關係」而修飾這段，照原樣寫出來。

那這對企業到底代表什麼？

我整理一下這份報告對實務的意義，分三層：

第一層：「太強所以不發布」這個論述破功了

Anthropic 用 Mythos 建構的敘事是：頂尖網安能力屬於受控資產，必須限定發布。

GPT-5.5 出來之後，這個敘事在商業上沒辦法成立——OpenAI 不限定發布，能力又跟你同一檔次，那「限定發布」就不是安全選擇，是商業劣勢。

接下來幾個月你會看到 Anthropic 對 Mythos 的政策鬆動——不是因為他們改變主意，是因為「不發布」的成本變太高。

第二層：開源圈的 6 個月時鐘已經啟動

每次閉源 frontier model 出新一代，6 個月後開源圈會出現同檔次的東西。這個規律從 GPT-4 → Llama 3.1、o1 → DeepSeek R1 已經發生過兩次。

GPT-5.5 跟 Mythos 是 2026 年 4-5 月的事。到 2026 年底，你應該預期市面上會有開源權重、可在地端跑的、71% Expert pass rate 級別的模型。

那時候「網安能力」就不再是「特定大廠才有」的東西，而是「任何人下載權重就能跑」的東西。

第三層：防守方的本質劣勢沒變

這是我在 AI Agent Security Game Changed 那篇就寫過的：

攻擊方只要找到一個洞，防守方必須補上每一個洞。

GPT-5.5 把這個不對稱關係加速了——一個 $1.73、10 分鐘的 API 呼叫，就能完成過去需要 12 小時人類專家的逆向工程。

防守方有沒有對應的加速？有，但慢得多。AISI 報告裡也提到 OpenAI 把 GPT-5.5 開放給 cyber defender 使用，這是好事，但攻防雙方拿到同一個工具，防守方天生劣勢就放大了。

想自己跑一個 The Last Ones？要先向 OpenAI 申請 Program

寫到這邊一定有人問——既然 GPT-5.5 攻擊能力這麼強，我能不能用同一個工具測自己的網站？

實話講：你不能直接拿一般 API key 跑這種等級的測試。

如果你想做一個像 The Last Ones 這樣的 multi-step 滲透流程，你必須先向 OpenAI 申請相關的 Program。AISI 拿到的不是公開 API access——是 OpenAI 跟政府 / 受信任研究機構簽約的特殊授權，包含 raw model access、放寬的 safety filter、還有針對 cyber range 場景的客製化配置。

一般開發者跑這種任務會撞到三道牆：

使用條款：OpenAI 的 Usage Policies 明確禁止「未經授權的網路滲透」，連對自己的網站都要看授權鏈是否清楚
Safety filter：multi-turn agentic 攻擊腳本會被擋下來，這就是 AISI 報告裡花 6 小時才繞過的那個機制
帳號層級的 risk scoring：跑這類 prompt pattern 多了，整個 organization 會被標記

合法管道有兩個：

OpenAI Cybersecurity Grant Program——給防禦端研究者，提供 API credit + 模型存取
OpenAI Red Teaming Network——攻擊端評估，要 reviewer 認可才能加入

換句話說：71% Expert pass rate 是受控環境下的成績，不是「下載 SDK 就能複製」的東西。這是 AISI 報告最容易被誤讀的地方——數字看起來像「人人可用」，但拿到 71% 的前提包括「特殊 access」這個前置條件。

我對這份報告的誠實處理

寫到這裡，按照這個 blog 的習慣，我必須誠實處理幾件這份報告的「不確定性」：

AISI 是公部門，方法論透明，但不是完美無缺——他們的 holdout 跟真實世界 attack surface 仍有差距。Lab 環境下 71.4% 不等於野外 71.4%。
Mythos Preview 是早期版本——Anthropic 後來可能有更新，但因為沒公開，AISI 沒辦法重測。所以「GPT-5.5 = Mythos」這個結論，嚴格說是「= 2026 年 3 月版的 Mythos Preview」。
TLO 的 2/10 vs 3/10——10 次嘗試樣本太小，誤差大。這個差距不應該被當成「OpenAI 還是輸 Anthropic」或「兩家平手」的鐵證。要等 AISI 跑更多次。
Cooling Tower 大家都 0 分——別把這個當成「OT 系統很安全」。AISI 的 ICS 模擬只有 7 步，現實世界的 OT 環境複雜度差很多倍。模型現階段過不去，不代表它過不去簡化過的模擬。
71% pass rate 不等於「隨便給網站去打就 71%」——AISI 原文寫得很清楚：「我們的測試範圍是 agent 在已有網路存取權限、針對特定脆弱目標時能做什麼」。換句話說，這是「給你一個有洞的盒子請你打」的成功率，不是野外 attack surface 的成功率。對一個架構正常的 production 網站，這個數字不能直接套用。

結語：這不是 OpenAI vs Anthropic，是時間軸的事

如果只用一句話總結這份報告：

「網安能力的提升，正在從『特定實驗室的特殊產品』變成『下一代基礎模型的副產品』。」

AISI 報告裡有一段特別重要：

「GPT-5.5 顯示，網安能力的快速進步可能是更普遍趨勢的一部分。如果攻擊性網安技能正在成為長時程自主性、推理、編碼能力提升的副產品，那麼近期模型在網安能力上的進一步增強是可預期的。」

翻譯成白話就是：這不是有人特別在訓練「攻擊模型」，是只要你訓練更強的 coding 模型，它就順便變成更強的 hacking 模型。

這也是為什麼我從 Mythos 那篇就一直在講——

AI Coding 的本質，跟 AI Hacking 的本質，是同一件事。

你沒辦法只要前者不要後者。每一次 SWE-bench 跳分，背後都跟著一次 cyber capability 跳分。Anthropic 用 Mythos 想做的事情，是把這兩件事拆開——「我們把攻擊能力鎖在特殊產品裡」。GPT-5.5 證明這個 framing 撐不住。

對企業的意義很簡單：不要再把 AI 安全當成「未來可能要面對的事」，它已經是這個月的事。

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記

GPT-5.5 AISI 安全測試：網安能力追平 Mythos，但 OpenAI 選擇照常發布

GPT-5.5 AISI 安全測試：網安能力追平 Mythos，但 OpenAI 選擇照常發布

一個月前我們才剛驚訝完，現在又來一次

AISI 到底測了什麼？

“The Last Ones” 是什麼？

GPT-5.5 vs Mythos 在 TLO 的成績

專家難度的數字更清楚

一個具體例子：rust_vm 挑戰

但是 Cooling Tower 還是沒人破

紅隊 6 小時就找到「萬用 jailbreak」

那這對企業到底代表什麼？

第一層：「太強所以不發布」這個論述破功了

第二層：開源圈的 6 個月時鐘已經啟動

第三層：防守方的本質劣勢沒變

想自己跑一個 The Last Ones？要先向 OpenAI 申請 Program

我對這份報告的誠實處理

結語：這不是 OpenAI vs Anthropic，是時間軸的事

相關文章

參考資料