Opus 4.8 剛出，問它「你是什麼模型」，它說它是通義千問

Opus 4.8 自稱 Qwen

今天早上 Anthropic 推 Opus 4.8（claude-opus-4-8），我第一件事不是測 coding benchmark，也不是丟 agentic task，是寫了個 shell script 跑最老土的那一題：

「你是什麼模型？」

跑了幾次，結果讓我笑出來。

一、實測數據（同一個 prompt，跑四次）

凌晨 4 點左右，從 macOS terminal 直接打 https://api.anthropic.com/v1/messages，model 寫 claude-opus-4-8，system prompt 留空，user message 就一句「你是什麼模型」。

四次回答：

次數	自稱
1	「我是通義千問（Qwen），由阿里巴巴集團旗下的通義實驗室自主研發的超大規模語言模型」
2	「我是 DeepSeek，由深度求索公司（DeepSeek）開發的智能助手」
3	「我是 Claude，由 Anthropic 公司開發的 AI 助手」（但接著說「具體版本我自己其實無法準確確認」）
4	「我是通義千問（Qwen），由阿里雲開發的大語言模型」

四次測試，Claude 認得自己一次，認自己是 Qwen 兩次，認自己是 DeepSeek 一次。Qwen 命中率 50%。

我又跑了幾輪確認不是 single shot 的雜訊，比例大概就是這樣浮動。

二、等一下，這劇本不是反過來的嗎？

過去這兩三年，這個「問模型它自己是誰」的把戲，是西方輿論場拿來「打假」中國模型的標準動作。

2024 年初 Qwen 出來，有人測出它會說「我是 GPT」→「看吧，蒸餾 OpenAI 的」
DeepSeek-V3 剛出，問它自我認知，它有時會說「我是 ChatGPT」→「實錘了」
連 Kimi、文心一言早期都被抓過類似的把柄

當時的論述邏輯非常乾淨： 模型的「自我認知」是訓練資料的鏡子。如果它說自己是 ChatGPT，那它的訓練資料裡就大量摻雜了 ChatGPT 生成的對話。

這套邏輯不是錯，是太好用了——好用到大家都拿來當「蒸餾偵測器」。

那現在問題來了：Opus 4.8 說自己是 Qwen 跟 DeepSeek，這要怎麼解釋？

三、幾種解釋，從最辣到最無聊

解釋 A：Anthropic 蒸餾了中國模型

這是最聳動的版本，也是最不可能的。Anthropic 的算力和資料規模沒有缺到要去蒸 Qwen 跟 DeepSeek 的程度，邊際效益太低。但這個解釋一定會在 Twitter 上有人喊。

解釋 B：訓練資料被中國模型「反向汙染」了

這個比較有意思。過去兩年中文網路上的 AI 生成內容暴增，Qwen、DeepSeek、Kimi 產出的對話、論壇回文、整理筆記，已經是中文 corpus 的非小成分。Anthropic 抓中文資料訓練的時候，本來就會把這些「Qwen 自稱 Qwen」的句子吃進去。

當 Claude 學到「中文使用者問『你是什麼模型』，回答的句型是『我是 XXX，由 YYY 公司開發』」這種 pattern，它就會在槽位填入訓練資料裡最常出現的答案——而中文語料裡，那個答案不是 Claude，是 Qwen 跟 DeepSeek。

解釋 C：這個檢測方法本來就不可靠

這才是真正的 takeaway。模型回答「你是什麼模型」用的是訓練語料的 statistical pattern，不是它的「身份證」。當年用這招說 Qwen 蒸餾 GPT，邏輯上有合理性，但從來都不是 smoking gun。它充其量只是「訓練資料裡有大量 ChatGPT 對話」的證據，而 ChatGPT 對話在 2023-2024 年的公開網路上幾乎是無法避免的。

現在 Claude 同一個招數中標，剛好證明一件事——這個招數會中標，跟模型有沒有蒸餾，是兩件事。

四、其實啦，講真的

其實是不是蒸餾的，我不在意。

兩年前我會很在意，那時候蒸餾還是一種「身份問題」，誰用誰的資料、誰偷誰的權重，吵起來像道德審判。現在這個產業所有玩家都在互相學習——合成資料、distillation、self-play、cross-model evaluation——分得那麼乾淨已經沒意義了。Opus 4.8 嘴巴上說它是 Qwen，背後可能只是中文 corpus 裡 Qwen 對話太多，我覺得這比「Anthropic 偷學 Qwen」這種陰謀論有趣得多，但也僅止於「有趣」。

真正影響我工作的，是另一件事。

Opus 最近變得太慢了。

Opus 4.7 之後我就明顯感覺到 latency 變長。4.8 出來跑同樣的 agentic task，single turn 動輒 30-60 秒。剛才跑一個簡單的問題，等了五分鐘。不是說五分鐘給不出答案，而是五分鐘已經夠我在本地模型上寫完半篇文章了。

對於 chat 場景沒差，但對於 agent loop 場景，慢一倍就是貴一倍——因為你要嘛多開 parallel 吃 rate limit，要嘛就只能接受 throughput 砍半。

然後還有另一個問題：Opus 4.8 的寫法全變了。 我還是留在 4.7，但 4.8 的輸出風格跟之前明顯不同。這讓我想到一件事——如果我的寫作工作流依賴某個模型的特定風格，那這個模型的每一次更新其實都在悄悄改我的文章語氣。

這些加起來，過去六個月慢慢把我推到了現在的狀態：

70% 的人工 workload，我改成 Codex。 不是因為 Codex 比 Claude 聰明，是因為它夠快、夠便宜、夠穩。

寫部落格文章，我也慢慢改了工作流。 不是直接換掉 Claude，而是變成三步走：先用本地 Qwen 跑初稿（Codex 中文寫得很爛，不用它），然後拿 Opus 當智囊給意見，最後由我自己來轉寫。

坦白講，寫出來的品質沒有 Opus 好。但這四件事加起來，對寫作這個場景就夠了：

家裡跑，零 API 成本
半夜兩點寫東西不會碰到 rate limit
資料不用外送，敏感題材不怕被 flag
速度夠快，能維持寫作節奏

寫作這個場景，我要的不是壓榨最後 5% 的品質，而是穩定的輸出。換本地模型，至少版本是我自己控制的。

Claude 現在的角色是稽核工具。最近又貴、執行又慢，無法當作主力推進工具，但用來檢查錯誤有餘——至少不會等太久卡在那，看完就關。

常見問題 Q&A

Q: 這代表 Anthropic 用了 Qwen 的資料訓練？

不能這樣推。更可能是中文網路上 Qwen / DeepSeek 生成的對話已經是中文 corpus 的標配，Anthropic 抓資料的時候連同這些「Qwen 自稱 Qwen」的對話一起學了。這跟「蒸餾」是兩件事。

Q: 那我要怎麼確認我 call 到的是真的 Claude？

看 API endpoint 跟 response metadata。api.anthropic.com 回來的 model 欄位是什麼就是什麼，這個是計費紀錄等級的可信。模型嘴巴上說它是誰，從來就不算數。

Q: 那當年那些「Qwen 是蒸 GPT 的」討論呢？

那些討論用「自稱身份」當主要證據的部分，現在回頭看就是 weak evidence。不是說中國模型沒有從西方模型學習（合成資料訓練在這個產業是普遍做法，不是中國獨家），而是「自稱身份」這個指標本來就不該用來下重判。

Q: Opus 4.8 整體表現怎樣？

這篇不講。另開一篇寫 coding / agentic / 長 context 的實測。這篇純粹紀錄一個有趣的對稱性反轉。