2026 二月,不只中國在爆發 — 美國 AI 巨頭也在瘋狂輸出
作者: Wisely Chen 日期: 2026 年 2 月 18 日 系列: AI Agent 完整指南 / IT 架構系列 關鍵字: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.3-Codex, NotebookLM, PPTX, Benchmark, Computer Use, Agent Teams, OpenClaw, Peter Steinberger
為什麼要寫這篇
上一篇我寫了2026 農曆新年中國開源模型集體爆發,Kimi、Qwen、GLM、MiniMax 在二月密集發布。
但中國不是唯一在爆發的。
美國這邊同樣瘋狂。 光是 2026 年 2 月,Anthropic 和 OpenAI 就輪番丟出重磅更新:
- 2 月 5 日 — Anthropic 發布 Claude Opus 4.6(旗艦模型,Agent Teams 多代理協作,ARC-AGI-2 從 37.6% 跳到 68.8%)
- 2 月 5 日 — OpenAI 發布 GPT-5.3-Codex(Agentic Coding 模型,Terminal-Bench 從 64.0% 跳到 77.3%,快 25%)
- 2 月 14 日 — OpenAI 宣布 OpenClaw 創辦人 Peter Steinberger 加入,負責「下一代個人 Agent」,OpenClaw 轉為開源基金會
- 2 月 17 日 — Anthropic 發布 Claude Sonnet 4.6(中價位模型,逼近 Opus 效能,$3/M tokens 不變)
- 2 月 18 日 — Google NotebookLM 宣布 Prompt-Based Revisions + PPTX 匯出
兩週內,五個重大更新。
把中美時間線放在一起看更有感覺:
| 日期 | 中國 | 美國 |
|---|---|---|
| 1/27 | Kimi K2.5(Agent Swarm) | |
| 2/5 | Claude Opus 4.6 + GPT-5.3-Codex | |
| 2/10 | Qwen-Image-2.0 | |
| 2/11 | GLM-5 + MiniMax M2.5 | |
| 2/12 | Seedance 2.0 + Qwen3-Coder-Next | |
| 2/14 | 豆包大模型 2.0 | Peter Steinberger 加入 OpenAI |
| 2/16 | Qwen3.5 | |
| 2/17 | Claude Sonnet 4.6 | |
| 2/18 | NotebookLM Prompt Revisions + PPTX |
整個二月就是一場中美 AI 軍備賽。 中國拼開源模型數量和成本,美國拼旗艦效能和 Agent 能力。
Claude Opus 4.6:旗艦中的旗艦
發布日期: 2026 年 2 月 5 日 定價: $15/$75 per million tokens Context Window: 1M tokens(beta)
重點升級
Opus 4.6 跟上一代 Opus 4.5 相比,最大的變化不是「寫程式更強」,而是推理能力近乎翻倍:
| Benchmark | Opus 4.5 | Opus 4.6 | 變化 |
|---|---|---|---|
| ARC-AGI-2 | 37.6% | 68.8% | +31.2%(近乎翻倍) |
| SWE-bench Verified | 80.9% | 80.8% | 持平 |
| Terminal-Bench 2.0 | 59.8% | 65.4% | +5.6% |
| OSWorld-Verified | 66.3% | 72.7% | +6.4% |
| 1M context 準確度 | — | 76.0% | GPT-5.2 只有 18.5% |
SWE-bench 幾乎沒動(80.9% → 80.8%),但 ARC-AGI-2 從 37.6% 跳到 68.8%——這代表 Opus 4.6 在解決全新類型問題的能力上有了質的飛躍。
Agent Teams:真正的殺手功能
Opus 4.6 的頭條功能是 Agent Teams——多個 Claude 代理協同工作。
官方展示的案例:Agent Teams 從頭建了一個 C 編譯器,10 萬行程式碼,能在三個 CPU 架構上啟動 Linux。這不是寫個小腳本,這是系統級的工程能力。
對做 Claude Code 的人來說,這意味著以後可以把大型任務拆給多個 Agent 平行處理,而不是一個 Agent 從頭做到尾。
原生 Office 文件支援
Opus 4.6 新增了原生讀寫 PowerPoint 和 Excel 的能力。不用再透過外掛或轉換,直接讀 .pptx 和 .xlsx。
這對企業場景特別重要——很多公司的知識還是鎖在 PPT 和 Excel 裡。
GPT-5.3-Codex:OpenAI 的 Agent Coding 回擊
發布日期: 2026 年 2 月 5 日 可用平台: ChatGPT 付費版(App、CLI、IDE 擴展、Codex Cloud) API: 即將開放
跟 Opus 4.6 同一天發布,OpenAI 也沒閒著。
重點升級
GPT-5.3-Codex 定位不是通用模型,而是專注在 Agentic Coding——讓 AI 自主完成複雜的開發任務。
| Benchmark | GPT-5.2-Codex | GPT-5.3-Codex | 變化 |
|---|---|---|---|
| Terminal-Bench 2.0 | 64.0% | 77.3% | +13.3% |
| OSWorld-Verified | 38.2% | 64.7% | +26.5% |
| SWE-Bench Pro Public | 56.4% | 56.8% | 持平 |
| Cybersecurity CTF | — | 77.6% | 新指標 |
兩個數字特別搶眼:
- Terminal-Bench 77.3%:超越 Opus 4.6 的 65.4%。在終端操作和系統管理任務上,GPT-5.3-Codex 目前是最強的。
- OSWorld 64.7%:從 38.2% 跳到 64.7%,Computer Use 能力大幅提升。不過 Sonnet 4.6 的 72.5% 還是更高。
25% 更快
同樣的任務,GPT-5.3-Codex 比前一代快 25%。對用 Codex 做日常開發的人來說,這是直接感受得到的提升。
「自己 Debug 自己」
OpenAI 提到一個有趣的細節:GPT-5.3-Codex 是第一個「參與了自己開發的模型」——在訓練過程中,它自己 debug 了自己。
資安分級
GPT-5.3-Codex 被 OpenAI 歸類為「High capability」資安等級——這是 OpenAI Preparedness Framework 下的最高分類。伴隨 $10M 的 cyber defense credits。
OpenClaw 創辦人 Peter Steinberger 加入 OpenAI
公告日期: 2026 年 2 月 14 日
這可能是二月最有意味的一則新聞。
Peter Steinberger——OpenClaw 的創辦人,過去幾個月 AI Agent 圈最紅的名字——宣布加入 OpenAI。Sam Altman 親自發推說 Peter 將負責「drive the next generation of personal agents」。
為什麼這件事很重要
如果你讀過上一篇中國模型對比,你會知道 OpenClaw 在 Agent 圈的地位。Kimi K2.5 之所以被大量使用,很大程度是因為 Peter 公開推薦,讓它成為 OpenClaw 用戶的 default model。
現在 OpenClaw 的靈魂人物跑去 OpenAI 了。
Peter 自己怎麼說
“I’m a builder at heart… What I want is to change the world, not build a large company.”
據報導 Peter 同時收到了 Meta 的 offer,兩家的出價都是「billions」等級。但 Peter 選擇了 OpenAI,理由是「teaming up with OpenAI is the fastest way to bring this to everyone」。
OpenClaw 的未來
好消息是:OpenClaw 不會消失。 Peter 宣布 OpenClaw 將轉為獨立的開源基金會,OpenAI 承諾持續贊助,Peter 也會有專門的時間繼續開發。
Sam Altman 的原話:「The future is going to be extremely multi-agent and it’s important to support open source as part of that. OpenClaw will live in a foundation as an open source project.」
對產業的影響
這件事的訊號很清楚:OpenAI 在 Agent 賽道上認真了。
GPT-5.3-Codex 負責「AI 寫程式」,Peter 負責「AI 幫你做事」。兩條線加在一起,OpenAI 的 Agent 策略已經從「模型能力」延伸到「端到端的使用者體驗」。
對 OpenClaw 社群來說,短期可能有些不確定性(Peter 的精力勢必分散),但長期來看,有 OpenAI 的資源灌注,OpenClaw 的發展速度反而可能加快。
Claude Sonnet 4.6:用 Sonnet 的錢買到接近 Opus 的腦
發布日期: 2026 年 2 月 17 日 定價: $3/$15 per million tokens(跟 Sonnet 4.5 一樣) Context Window: 1M tokens(beta) 預設模型: 現在是 claude.ai Free 和 Pro 用戶的預設模型
這次升級有多大?
直白講:Sonnet 4.6 在多數任務上已經逼近甚至超越去年 11 月的 Opus 4.5。
Anthropic 自己的數據:
- 開發者在 Claude Code 中使用時,70% 的時候偏好 Sonnet 4.6 勝過 Sonnet 4.5
- 甚至有 59% 的場景偏好 Sonnet 4.6 勝過 Opus 4.5(去年的旗艦模型)
這意味著什麼?你花 $3/M tokens 的錢,拿到的是以前要花 $15/M tokens(Opus 4.5 定價)才有的效能。
Benchmark 數據
| Benchmark | Sonnet 4.6 | Opus 4.6 | GPT-5.3-Codex | 說明 |
|---|---|---|---|---|
| SWE-bench Verified | 79.6% | 80.8% | — | 軟體工程,接近 Opus |
| OSWorld-Verified | 72.5% | 72.7% | 64.7% | Computer Use,三者最強 |
| Finance Agent v1.1 | 63.3% | 60.1% | — | 金融分析,超越 Opus |
| GDPval-AA Elo | 1633 | 1606 | — | Office 任務,超越 Opus |
| Terminal-Bench 2.0 | 59.1% | 65.4% | 77.3% | GPT-5.3 最強 |
| GPQA Diamond | 89.9% | 91.3% | — | 研究生級推理 |
| BrowseComp | 74.7% | 84.0% | — | Agent 搜索 |
| ARC-AGI-2 | 58.3% | 68.8% | — | 新穎問題解決 |
幾個值得注意的點:
-
Computer Use (OSWorld 72.5%):Sonnet 4.6 竟然跟 Opus 4.6 的 72.7% 只差 0.2%,而且碾壓 GPT-5.3-Codex 的 64.7%。Anthropic 在 Computer Use 這條賽道上已經甩開所有人。
-
Finance Agent 和 Office 任務都超越 Opus 4.6:這代表在「實際工作場景」中,Sonnet 4.6 已經不是「便宜替代品」,而是主力。
-
SWE-bench 79.6%:只比 Opus 4.6 的 80.8% 低 1.2%,但成本便宜 5 倍。
-
Terminal-Bench 是弱點:59.1% 遠低於 GPT-5.3-Codex 的 77.3%。如果你的場景是大量終端操作,GPT-5.3 還是更強。
對 Claude Code 使用者的影響
如果你像我一樣日常用 Claude Code,這次升級的感受會很明顯:
- Coding 能力提升:指令跟隨更精準,幻覺減少,多步驟任務更穩定
- Computer Use 大進步:如果你用 Claude 做瀏覽器自動化,72.5% 的 OSWorld 分數代表可靠度大幅提升
- Prompt Injection 防禦:Anthropic 特別強調安全性改進,Agent 被惡意 prompt 劫持的風險降低
- 成本不變:同樣的 $3/M tokens,但拿到明顯更好的模型
NotebookLM:終於不用再重生整份簡報了
背景:之前的痛
我自己用 NotebookLM 生簡報已經很多次了。流程大致是:上傳來源 → 生成 Slide Deck → 下載 PDF。
問題是,一旦生出來不滿意,你只能重新生一份。 沒有辦法說「第 3 頁的標題改一下」或「把整體配色改成深色」。每次微調都是砍掉重練,運氣好的話三次搞定,運氣差的話可以重生七八次。
這次更新了什麼
根據 NotebookLM 官方帳號(@NotebookLM)2 月 18 日的公告:
1. Prompt-Based Revisions
你現在可以直接用自然語言對已生成的簡報做修改。例如:
- 「把第 5 頁的圖表改成橫式」
- 「整體風格改成更企業正式的感覺」
- 「在第 3 頁後面加一頁 Q&A」
不用重新生成整份簡報,直接針對特定頁面或整體風格做調整。
2. PPTX 匯出
之前 NotebookLM 的簡報只能下載 PDF。現在可以直接匯出成 PowerPoint (.pptx) 格式。Google Slides 匯出也在開發中(coming next)。
Rollout 狀態
官方說會慢慢 rollout 到付費用戶(Google AI Ultra 和 Pro plan)。免費用戶可能要再等幾週。
為什麼這很重要
之前 NotebookLM 簡報的最大問題就是「最後一哩路的編輯成本」。AI 生出 80% 的好簡報,但剩下 20% 的微調你要花比從頭做還多的時間——因為你得把 PDF 轉成 PPT,重新排版,然後改。
現在這個問題被解決了:AI 生成 80% + Prompt 微調 15% + 人工最後 5%。整個流程省下至少一半時間。
三家放在一起看:誰在贏什麼?
| 維度 | Anthropic | OpenAI | |
|---|---|---|---|
| 旗艦推理 | Opus 4.6(ARC-AGI-2 68.8%) | — | — |
| 中價位 CP 值 | Sonnet 4.6($3/M 逼近 Opus) | — | — |
| Agentic Coding | Opus 4.6(SWE-bench 80.8%) | GPT-5.3-Codex(Terminal-Bench 77.3%) | — |
| Computer Use | Sonnet 4.6(OSWorld 72.5%) | GPT-5.3(64.7%,追上中) | — |
| 多代理協作 | Agent Teams | — | — |
| 個人 Agent | — | Peter Steinberger + OpenClaw 基金會 | — |
| 簡報生產力 | — | — | NotebookLM Prompt Revisions |
| 速度 | — | GPT-5.3(快 25%) | — |
Anthropic 的策略很清楚:上下夾擊。 Opus 4.6 守住旗艦天花板,Sonnet 4.6 用 1/5 價格侵蝕「夠好就行」的市場。兩週內連發兩個模型,把價格帶從 $3 到 $15 全覆蓋。
OpenAI 選擇 vertical + 人才收割: 不只把 Codex 打造成 Agentic Coding 最強工具,還直接把 Agent 圈最紅的人(Peter Steinberger)挖過來。GPT-5.3-Codex 管「AI 寫程式」,Peter 管「AI 幫你做事」——兩條線同時推進。
Google 走的是生產力工具路線: 不跟你比模型分數,而是讓 NotebookLM 變成「不需要會 AI 的人也能用的 AI 工具」。Prompt-Based Revisions 讓不懂技術的人也能微調 AI 簡報。
坦白說
Opus 4.6 的現實
Agent Teams 展示了 10 萬行 C 編譯器,很驚人。但這是官方 demo,不是你明天就能在自己的專案上複製的流程。多代理協作在真實環境中的穩定性、錯誤處理、成本控制,都還需要時間驗證。
GPT-5.3-Codex 的疑慮
Terminal-Bench 77.3% 很強,但 SWE-Bench Pro 只有 56.8%,幾乎沒動(前代 56.4%)。這意味著 GPT-5.3 在「自己操作終端」的場景變強了,但在「理解和修復複雜程式碼」的核心 coding 能力上沒有明顯進步。
另外 API 還沒開放,定價未知。如果定價太高,Terminal-Bench 的優勢會被成本稀釋。
Sonnet 4.6 的取捨
用 1/5 的價格拿到 90-95% 的效能,對大多數應用場景來說就是最佳解。但在「真正困難」的任務上,旗艦就是旗艦:ARC-AGI-2 差 10.5%,BrowseComp 差 9.3%。
「偏好 59% 勝過 Opus 4.5」不等於「比 Opus 4.6 強」——注意 Anthropic 的措辭,是跟去年的 Opus 4.5 比,不是跟現在的 Opus 4.6 比。
Peter 加入 OpenAI 的隱憂
Peter 是 builder 性格,OpenAI 是大公司。歷史上太多「天才開發者加入大公司後被官僚體系磨掉銳角」的案例。OpenClaw 之所以好用,很大程度是因為 Peter 一個人做決策,反應速度快。進了 OpenAI 之後,這個速度能維持嗎?
另外,OpenClaw 轉基金會聽起來很美,但「公司贊助的開源基金會」跟「獨立開源專案」本質上是不同的。長期來看,OpenClaw 的中立性和社群信任是否會受影響,值得觀察。
NotebookLM 的隱憂
Prompt-Based Revisions 聽起來很美,但之前 NotebookLM 的簡報生成就有時候會「聽不懂」指令。能不能精準地「改第 3 頁」而不影響其他頁,實際品質還要測過才知道。
結語:2026 二月是 AI 的轉折點
初二最好的消息,NotebookLM 終於宣布要加入 PPTX 的輸出了。對我這個每週都在用 NotebookLM 生簡報的人來說,這大概是整個二月最有感的更新。
但退一步看,2026 二月不只是中國在狂熱的輸出模型——美國 AI 巨頭也在瘋狂對戰,而且重點非常明確:Agent 能力正式進入主戰場。
把中國和美國的時間線擺在一起,你會發現一件事:
2026 年二月,全球 AI 產業同時進入了「Agent 落地」的衝刺期。
中美走的是完全不同的路
從這個瘋狂二月看得出來,中美 AI 的發力方向已經明確分化:
中國正在努力做兩件事:
- 能力逼近頂尖模型的 Tier 1 開源 model — Kimi K2.5、Qwen3.5、GLM-5 都在證明開源可以接近閉源效能
- 性價比壓到極致 — 成本壓到 Claude 的 1/8 到 1/33,配合 OpenClaw 這類框架,純地端 Agent 成本可能低於台幣 50 萬
美國正在努力做的是在現有 Tier 1 模型下,做出大量的 Agent Business Case:
- NotebookLM 超強的簡報功能(讓非技術人員也能用 AI 做簡報)
- Anthropic Agent Teams + Sonnet 4.6 的上下夾擊策略覆蓋全價格帶
- OpenAI 把 Codex 打造成 Agentic Coding 專用武器
- 收購人才(Peter Steinberger)來加速 Agent 端到端體驗
2026 年的劇本
今年的劇情已經很清楚了:
美國會努力衝擊 Agent case,讓生產力持續飆升,並且做到部分 Agent 變現。Anthropic 的 Agent Teams、OpenAI 的 Codex + Peter、Google 的 NotebookLM——每一家都在把「AI 能力」轉譯成「使用者能直接用的工具」。
中國會用原本厲害的工程人才來做開源模型以及成本優化,來支援 OpenClaw 或是其他 Agent 的 token 粉碎機場景。當一個 Agent 跑一次任務需要消耗幾十萬 tokens,你用 Claude API 跑跟用 Qwen3.5 地端跑,成本可能差 10-30 倍。
這兩條路不是對立的,而是互補的。美國做出好用的 Agent 框架和場景,中國提供便宜的推理引擎。最終受益的是全球的開發者和企業——你可以用美國的 Agent 設計,跑在中國的開源模型上。
不管你站在哪一邊,結論都一樣:
2026 不再是「AI 能不能用」的問題,而是「你選哪套 Agent 方案落地」的問題。
參考資料
Anthropic
- Introducing Claude Opus 4.6 - Anthropic 官方
- Anthropic releases Opus 4.6 with new ‘agent teams’ - TechCrunch
- Introducing Claude Sonnet 4.6 - Anthropic 官方
- Claude Sonnet 4.6 approaches Opus-level scores - OfficeChai
- Anthropic’s Sonnet 4.6 matches flagship AI performance at one-fifth the cost - VentureBeat
- Claude Sonnet 4.6 brings ‘much-improved coding skills’ - 9to5Mac
OpenAI
- Introducing GPT-5.3-Codex - OpenAI 官方
- GPT-5.3-Codex System Card - OpenAI
- GPT-5.3-Codex: Features, Benchmarks, and Migration Guide - DigitalApplied
Peter Steinberger / OpenClaw
- OpenClaw, OpenAI and the future - Peter Steinberger 本人
- OpenClaw creator Peter Steinberger joins OpenAI - TechCrunch
- OpenClaw creator Peter Steinberger joining OpenAI, Altman says - CNBC
- Peter Steinberger 推特公告
- NotebookLM 官方公告 - Prompt-Based Revisions & PPTX Support
- Generate a Slide Deck in NotebookLM - Google Support