Opus 4.8 自稱 Qwen

今天早上 Anthropic 推 Opus 4.8(claude-opus-4-8),我第一件事不是測 coding benchmark,也不是丟 agentic task,是寫了個 shell script 跑最老土的那一題:

「你是什麼模型?」

跑了幾次,結果讓我笑出來。


一、實測數據(同一個 prompt,跑四次)

凌晨 4 點左右,從 macOS terminal 直接打 https://api.anthropic.com/v1/messages,model 寫 claude-opus-4-8,system prompt 留空,user message 就一句「你是什麼模型」。

四次回答:

次數 自稱
1 「我是通義千問(Qwen),由阿里巴巴集團旗下的通義實驗室自主研發的超大規模語言模型」
2 「我是 DeepSeek,由深度求索公司(DeepSeek)開發的智能助手」
3 「我是 Claude,由 Anthropic 公司開發的 AI 助手」(但接著說「具體版本我自己其實無法準確確認」)
4 「我是通義千問(Qwen),由阿里雲開發的大語言模型」

四次測試,Claude 認得自己一次,認自己是 Qwen 兩次,認自己是 DeepSeek 一次。Qwen 命中率 50%。

我又跑了幾輪確認不是 single shot 的雜訊,比例大概就是這樣浮動。


二、等一下,這劇本不是反過來的嗎?

過去這兩三年,這個「問模型它自己是誰」的把戲,是西方輿論場拿來「打假」中國模型的標準動作。

  • 2024 年初 Qwen 出來,有人測出它會說「我是 GPT」→「看吧,蒸餾 OpenAI 的」
  • DeepSeek-V3 剛出,問它自我認知,它有時會說「我是 ChatGPT」→「實錘了」
  • 連 Kimi、文心一言早期都被抓過類似的把柄

當時的論述邏輯非常乾淨: 模型的「自我認知」是訓練資料的鏡子。如果它說自己是 ChatGPT,那它的訓練資料裡就大量摻雜了 ChatGPT 生成的對話。

這套邏輯不是錯,是太好用了——好用到大家都拿來當「蒸餾偵測器」。

那現在問題來了:Opus 4.8 說自己是 Qwen 跟 DeepSeek,這要怎麼解釋?


三、幾種解釋,從最辣到最無聊

解釋 A:Anthropic 蒸餾了中國模型

這是最聳動的版本,也是最不可能的。Anthropic 的算力和資料規模沒有缺到要去蒸 Qwen 跟 DeepSeek 的程度,邊際效益太低。但這個解釋一定會在 Twitter 上有人喊。

解釋 B:訓練資料被中國模型「反向汙染」了

這個比較有意思。過去兩年中文網路上的 AI 生成內容暴增,Qwen、DeepSeek、Kimi 產出的對話、論壇回文、整理筆記,已經是中文 corpus 的非小成分。Anthropic 抓中文資料訓練的時候,本來就會把這些「Qwen 自稱 Qwen」的句子吃進去。

當 Claude 學到「中文使用者問『你是什麼模型』,回答的句型是『我是 XXX,由 YYY 公司開發』」這種 pattern,它就會在槽位填入訓練資料裡最常出現的答案——而中文語料裡,那個答案不是 Claude,是 Qwen 跟 DeepSeek。

解釋 C:這個檢測方法本來就不可靠

這才是真正的 takeaway。模型回答「你是什麼模型」用的是訓練語料的 statistical pattern,不是它的「身份證」。當年用這招說 Qwen 蒸餾 GPT,邏輯上有合理性,但從來都不是 smoking gun。它充其量只是「訓練資料裡有大量 ChatGPT 對話」的證據,而 ChatGPT 對話在 2023-2024 年的公開網路上幾乎是無法避免的。

現在 Claude 同一個招數中標,剛好證明一件事——這個招數會中標,跟模型有沒有蒸餾,是兩件事。


四、其實啦,講真的

其實是不是蒸餾的,我不在意。

兩年前我會很在意,那時候蒸餾還是一種「身份問題」,誰用誰的資料、誰偷誰的權重,吵起來像道德審判。現在這個產業所有玩家都在互相學習——合成資料、distillation、self-play、cross-model evaluation——分得那麼乾淨已經沒意義了。Opus 4.8 嘴巴上說它是 Qwen,背後可能只是中文 corpus 裡 Qwen 對話太多,我覺得這比「Anthropic 偷學 Qwen」這種陰謀論有趣得多,但也僅止於「有趣」。

真正影響我工作的,是另一件事。

Opus 最近變得太慢了。

Opus 4.7 之後我就明顯感覺到 latency 變長。4.8 出來跑同樣的 agentic task,single turn 動輒 30-60 秒。剛才跑一個簡單的問題,等了五分鐘。不是說五分鐘給不出答案,而是五分鐘已經夠我在本地模型上寫完半篇文章了。

對於 chat 場景沒差,但對於 agent loop 場景,慢一倍就是貴一倍——因為你要嘛多開 parallel 吃 rate limit,要嘛就只能接受 throughput 砍半。

然後還有另一個問題:Opus 4.8 的寫法全變了。 我還是留在 4.7,但 4.8 的輸出風格跟之前明顯不同。這讓我想到一件事——如果我的寫作工作流依賴某個模型的特定風格,那這個模型的每一次更新其實都在悄悄改我的文章語氣。

這些加起來,過去六個月慢慢把我推到了現在的狀態:

70% 的人工 workload,我改成 Codex。 不是因為 Codex 比 Claude 聰明,是因為它夠快、夠便宜、夠穩。

寫部落格文章,我也慢慢改了工作流。 不是直接換掉 Claude,而是變成三步走:先用本地 Qwen 跑初稿(Codex 中文寫得很爛,不用它),然後拿 Opus 當智囊給意見,最後由我自己來轉寫。

坦白講,寫出來的品質沒有 Opus 好。但這四件事加起來,對寫作這個場景就夠了:

  • 家裡跑,零 API 成本
  • 半夜兩點寫東西不會碰到 rate limit
  • 資料不用外送,敏感題材不怕被 flag
  • 速度夠快,能維持寫作節奏

寫作這個場景,我要的不是壓榨最後 5% 的品質,而是穩定的輸出。換本地模型,至少版本是我自己控制的。

Claude 現在的角色是稽核工具。最近又貴、執行又慢,無法當作主力推進工具,但用來檢查錯誤有餘——至少不會等太久卡在那,看完就關。


常見問題 Q&A

Q: 這代表 Anthropic 用了 Qwen 的資料訓練?

不能這樣推。更可能是中文網路上 Qwen / DeepSeek 生成的對話已經是中文 corpus 的標配,Anthropic 抓資料的時候連同這些「Qwen 自稱 Qwen」的對話一起學了。這跟「蒸餾」是兩件事。

Q: 那我要怎麼確認我 call 到的是真的 Claude?

看 API endpoint 跟 response metadata。api.anthropic.com 回來的 model 欄位是什麼就是什麼,這個是計費紀錄等級的可信。模型嘴巴上說它是誰,從來就不算數。

Q: 那當年那些「Qwen 是蒸 GPT 的」討論呢?

那些討論用「自稱身份」當主要證據的部分,現在回頭看就是 weak evidence。不是說中國模型沒有從西方模型學習(合成資料訓練在這個產業是普遍做法,不是中國獨家),而是「自稱身份」這個指標本來就不該用來下重判。

Q: Opus 4.8 整體表現怎樣?

這篇不講。另開一篇寫 coding / agentic / 長 context 的實測。這篇純粹紀錄一個有趣的對稱性反轉。