你的 AI 越來越油了嗎？不是你的問題——所有模型的寫作都在退步

越新的模型，寫作越油

「我現在就給你最直白、最直接、最不繞彎、最干脆、最不墨跡、最實在、最通透、最有效、最硬核的回答——」

你猜後面接了什麼？一段廢話。 如果你最近用 AI 寫過任何東西，你一定知道我在說什麼。

這還只是中文的。英文也沒好到哪去。你叫 GPT 幫你寫段東西，它回你：「我就在這裡，不躲、不藏、不繞、不逃，穩穩地接住你。」——大哥，我只是叫你幫我寫個週報，你接住我幹嘛？還有那句經典的「一句話總結，你看完會徹底開悟」，我看完唯一的開悟是想把對話框關掉。

這不是偶爾翻車，是現在幾乎所有模型的常態。

所以今天要講一件你可能不想聽的事：如果你想用 AI 寫東西——寫文章、寫報告、做簡報、還是寫自媒體文案——越老的模型，效果越好。

我知道這句話聽起來很蠢。新模型不是應該全面更強嗎？benchmark 不是一代比一代高嗎？但你真的拿來寫東西就會發現：過去半年，全世界新模型的「內容寫作能力」，是一路在退步的。不是持平，是退步，而且是那種你看得出來的退步。

不只是體感。你還記得 GPT-4 升級到 GPT-5 的時候嗎？人家都說 GPT-5 是 AGI，我當時每天用的感覺是：理科能力大概 +50%，文科直接從渣男變成大理工男。 那個寫作降智程度非常可怕——不是「微調後風格不同」那種程度，是你叫它寫一段有感情的東西，它回你一份技術規格書。使用者罵聲大到 Altman 自己出來道歉。那次事件某種程度上是「AI 寫作退步」這件事第一次被大規模驗證：模型變聰明了，但把情商全丟了。

而 Claude 這邊，我自己的體感也一樣：Opus 4.6 寫出來的東西，比 4.8 有人味。 隨便寫寫可能看不出來，但你一旦要它寫點「有溫度、有活人感」的東西，那個差距就很明顯。

你可能有看過一個流傳的數字：「GPT 創意寫作得分從 97.3% 掉到 36.8%」。先講清楚——這個數字我不會拿它當鐵證。 我去追了一下，最接近的來源是社群 benchmark（SM-Bench）的討論，不是主流學術評測；而且它那個「Creative Writing」分類，很大一部分測的其實是「模型在成熟／敏感題材下會不會拒答」，不等於完整的文學或商業寫作品質。所以這個數字反映的是「變保守、變愛拒答」，比「文筆全面崩盤」更精準。我放它進來，是因為它指向的方向對，但你引用的時候要知道它的斤兩。

坦白說，我一開始對「退步」這件事也半信半疑。真正讓我認真去查的，是我自己用新模型跑 blog 跑到一半，發現初稿越來越「油」、越來越像在背勵志金句。體感 + 一堆零散證據加起來，我才開始認真追這件事。

坦白說：我自己跑 blog 也中招了

因為我幾乎每天都在寫，而且一直在切不同模型，所以這件事我感受特別深。

不過先講清楚我的工作流：我用 AI 做的是取材跟草稿——蒐集資料、整理結構、跑出初稿。但最後取材完，我一定會「人」手重寫一次。這才是我風格的主力，AI 給的是素材，不是成品。

即便如此，我還是中招了。因為我背後有一套自己寫的 blog 寫作 Skill，裡面塞了我的語氣、敘事結構、過去文章的範例，理論上模型照著跑就好。結果這半年，同一套 Skill、同一組提示詞，新模型跑出來的初稿一代比一代難用——連素材的品質都在退步，我要手動重寫的比例越來越高。

具體是這樣退化的：

第一階段：有自己的特色。 早期的模型寫出來有稜有角，有時候用詞很妙，雖然偶爾翻車，但有「人」在裡面。
第二階段：中庸。 變得四平八穩，不出錯，但也不出彩。每個字都對，就是沒記憶點。
第三階段：油膩。 開始堆過渡詞、堆排比、堆「不是 A，而是 B」的句型、堆那種「看完徹底開悟」的假深刻。

我要強調，這不是個別模型的問題。你拿去年的 DeepSeek-R1 跟新的 V4 比，很可能 R1 寫得更有味道；你拿 Claude 4.6 跟 4.8 比，4.6 在寫作上明顯更穩。這是全行業一起退步，不是哪一家擺爛。

那為什麼會這樣？我查下來，有三個原因，而且每一個都不是短期能解決的。

原因一：RLHF 把模型訓練成了「博士生」

這幾年所有主流模型都用同一套訓練方法，叫 RLHF（人類回饋強化學習）。講白話就是：讓人去幫模型的輸出打分，模型再學怎麼拿高分。

這跟小學生做題一模一樣。一開始它想到哪寫到哪，你叫它填「五什麼四什麼」，它可能給你填個「五八四十」——錯是錯了，但有靈氣。

問題是，打分的是一群無趣的成年人。 他們的偏好是：答案清晰、正確、安全。不是有趣、有風格、有個性。

於是模型從一個會亂講話的小學生，慢慢被調教成一個四平八穩、滴水不漏的博士生。讀起來每個字都對，但就是沒有人味。

路透社研究所（Reuters Institute）專門研究過這件事，發現 RLHF 訓出來的模型有一個預設文風，他們叫它 「house style」。特徵很好認：

特別愛用過渡詞（「更值得注意的是」「我的觀點是」「不是……而是……」）
愛用枚舉代替敘事（能列點就不好好講故事）
描寫情感只會「告訴」不會「展示」（telling, not showing）
充滿說教感
系統性迴避模糊、不舒服、有風險的表達

對照一下開頭那些「不躲不藏不繞不逃」，是不是全中？這不是 bug，這是它被獎勵出來的結果。

這裡我想接到我之前寫過的一個觀念。我在講 Harness Engineering 的時候講過一句：「Prompt 是建議，機制才是規則。」RLHF 這件事剛好是反過來的版本——它是用『機制』（獎勵訊號）把『無趣』給焊死了。 你在 prompt 裡求它「寫得有個性一點」，是在跟整個訓練過程對抗，當然很吃力。

原因二：AI 開始吃自己吐出來的東西

第一個原因還算能理解，第二個就有點細思極恐了。

AI 賴以生存的基石是訓練數據。而訓練數據本身正在崩塌。

今年年初有人做了一個 90 萬個網頁的抽樣調查，結果是：現在網路上的內容，超過 74% 含有 AI 生成文本，純人工原創只剩 25.8%。 照這個趨勢下去，未來你在網路上基本上找不到真人寫的東西了。

問題來了。模型想學更多知識，就得去讀新的文獻、新的網頁。但這些新東西絕大部分不是人寫的，是上一代 AI 寫的。

說難聽一點：AI 只能吃自己吐出來的東西。 這跟近親繁殖沒什麼兩樣。

這不是我危言聳聽。Nature 在 2024 年登過一篇牛津大學的研究，證實了一個現象叫 「model collapse（模型坍塌）」：當模型反覆在自己生成的數據上訓練，語言的多樣性跟創造性會「逐代衰減」。幾代之後，基本上就沒法看了。

寫作這種高度依賴「多樣性」的能力，剛好是 model collapse 最先犧牲掉的那一塊。

原因三：根本沒有一家大廠在卷寫作

第三個原因最現實，也最少人講。

最近半年，幾乎所有 AI 廠商都在卷什麼？卷 AI coding、卷 agent、卷 reasoning、卷科學研究。沒有任何一家大廠在說「我們的創意寫作變強了」。

為什麼？因為這幾個方向有一個共同點：有「容易形成共識」的硬標準。

Coding？有 SWE-bench，code 能不能跑、測試過不過，一翻兩瞪眼。
Reasoning？有 MATH、GSM8K，對就是對，錯就是錯。
Agent？能不能完成任務、能不能用工具，量得出來。

這裡我要先修正一個常見的誤會——很多人（包括我前一版草稿）會說「寫作根本沒有 benchmark」，這句話不精確。 寫作其實是有 benchmark 的，而且不少：

Benchmark	測什麼	注意事項
WritingBench	6 大寫作領域、100 個子領域（創意 / 說服 / 資訊 / 技術）	比較像「通用寫作能力」評測
EQ-Bench Creative Writing v3	英文創意寫作，用 LLM judge + Elo/Glicko 排名	官方自己也提醒只能當粗略參考，創作太主觀
LitBench	人類標註的故事偏好比較，驗證創意寫作評審可靠性	比單純 LLM judge 嚴謹
WritingPreferenceBench	中英創意寫作偏好，1,800 組人類偏好配對	很適合討論「RLHF 是不是學不好主觀品味」
HoWToBench	中文長文寫作，12 種文類、1,302 個指令	對中文內容創作比較有參考價值
NC Bench	創意寫作工作流、編輯、摘要、翻譯	偏小說 / 創作者工具場景

所以更準確的說法是：寫作有 benchmark，但沒有像 SWE-bench、MATH 那種「容易形成共識的硬標準」。 創作這種東西千人千面，你很難讓所有人同意「這篇就是比那篇好」——多數寫作評測還得靠 LLM judge 或人類偏好配對，可信度本身就要分層看。沒有硬共識，就難形成穩定的優化方向；加上沒有像 coding 那樣直接的商業故事，自然就沒有大廠把主力資源砸進去。

所以我把結論收斂成一個更站得住的版本：新模型在安全、工具、推理、結構化任務上確實更強；但在自由創作、語氣個性、少拒答、少模板化這幾個面向，部分 benchmark 跟大量使用者體感，都顯示它在退步。不是「全面斷崖式暴跌」，是「該強的更強，該有人味的地方變鈍」。這不是意外，是資源分配的必然。

Opus 4.6：又一個準備消失的「會寫人話」的模型

我要特別點名一個模型：Claude Opus 4.6。 它是社群公認目前寫作最強的模型，沒有之一。我自己實測過，效果也是極佳——那種「有人味、有節奏、不油」的手感，到目前為止我還沒在任何新模型上找回來過。（不只是體感——我做了一個 Opus 4.6 vs 4.8 的盲測實驗，用 GPT-4o 和 DeepSeek R1 兩個評審盲審，4.6 三局全勝、零分歧，完整原文和分數在附錄。）

問題是——Opus 4.6 現在已經被打上了 legacy 標籤。 在 Claude Code 裡你還能手動切過去用，API 也還在，但它已經不是預設選項了。今天是 legacy，下一步是什麼？每個用過 OpenAI 的人都知道答案。

而 Anthropic 是不會開源它的。換句話說，等哪天 API 真的下架，這個「寫作最佳」的版本就真的消失了，不是「你還能自己跑」，是徹底沒了。我現在還能用，但那個危機感已經很真實了。

這讓我想到 GPT-4o。4o 被很多人當成「情緒價值王者」——它願意陪你聊、語氣有溫度、不會動不動就拒答或說教。它 sunset 的時候，一堆人是真的在難過的，那不是矯情，是真的少了一個會「好好說話」的模型。

我覺得 Opus 4.6 很可能是下一個。繼 GPT-4o 之後，又一次人類模型界的重大損失。 而且這種損失特別刺，因為它不是「技術變爛了」——是這個「會寫人話」的能力曾經存在過、被證明做得到、然後因為沒人卷、不開源、被新版本覆蓋，就這樣悄悄沒了。

而這也正好是我下定決心、把寫作往地端搬的那根稻草。

既然擋不住，我已經開始這樣賭：把寫作搬到地端

前面四招都還是「在別人的模型上想辦法」。但你把整篇看到這裡會發現一個很冷的事實：house style 是訓練出來的、數據崩塌是大環境、沒人卷寫作是商業選擇、老模型會 sunset 是廠商說了算——這四件事，沒有一件是我能控制的。

我能控制的只有一件事：我自己的寫作工作流，要建立在一個不會被人收走的模型上。

所以身為一個吃文字飯的人，這陣子我已經開始認真做一件事——把寫作搬到地端模型。 我給自己的目標很明確：3 個月內，做出一套全地端的寫作工作流。 不是因為地端現在就比雲端強，而是因為只有地端模型，是「下載下來就永遠是你的」，不會某天突然只剩 API、再某天連 API 都沒了。

這跟我之前寫 On-Prem 三條路跟 Qwen 3.6-27B 家用推論是同一條線——只是這次的動機不是資安、不是成本，而是寫作品質的主權。

順帶提一下，如果你寫的是英文，地端社群其實已經有不錯的選項。Gemma 3 27B 有很多寫作向的微調版，像 TheDrummer 的 Big-Tiger-Gemma、Cydonia、Skyfall 這些，社群評價都不錯——模型卡目標就是「更中性、少過度正向、少 Markdown」，根本衝著 house style 來的解藥。但中文太弱了。 我實測過 Gemma 3 27B 官方版和 Cydonia 24B，中文寫出來不是 house style 就是亂碼，完全不能用。所以對我這種主力寫中文的人來說，Gemma 系列暫時排除，要等它中文能力補上來再說。

目前我在跑的是兩條線：

1. Qwen 3.6-27B（agent 強，寫作待解鎖）

Qwen 3.6-27B 我在 agent 場景已經用得很兇，工具呼叫、流程跑得都很穩。但它的寫作表現坦白說蠻一般的，比較中庸——至少我一開始是這麼覺得的。

但我後來做了一個小實驗（三方盲測，跑在我 RTX 5090 上的 IQ3_XXS 量化版），發現它在「第一人稱心情」那題居然拿下全場最高分，GPT-4o 盲審給了人味 9/10——一台家用顯卡上跑的 27B 量化模型打出這個成績，我自己也嚇到。

所以它不是不會寫，是不穩定。我現在花時間在試：到底什麼提示策略能把它的寫作穩定激發出來。這題還沒解完，有進展再跟大家報。

2. DeepSeek R1（中文寫作的王者，研究怎麼跑得起來）

最後是大魔王。中文寫作目前我心中的真神還是 DeepSeek R1。 那個中文的語感、節奏、不油，是我用過的開源模型裡最頂的。

這裡也補一個 caveat，免得有人覺得我在吹。這件事有明顯的「語言分歧」： 英文使用者其實未必覺得 R1 創作多強——你去翻國外的創意寫作排名，R1 的評價是浮動的。但中文使用者這邊的共識很清楚：R1 在中文的創意表達、文言文、詩詞這些地方，表現特別突出。Reddit 上有專門的討論（例如 DeepSeek R1 takes #1 overall on a Creative Short Story Writing Benchmark、Deepseek R1 0528 is actually decent at creative writing、以及一份整理 R1 / V3-0324 寫作品質評語的 Summaries of the creative writing quality），也有創意短篇 benchmark 把 R1 排到很前面。這些都是社群來源、不是學術硬標準，但它剛好印證了一件事：寫作的好壞跟「你用哪種語言」高度相關，中文寫作不能直接套英文榜的結論。 對我這種主力寫中文的人，R1 的價值就被嚴重低估了。

問題是它不小，家裡的卡跑不動。所以我現在在研究的，是怎麼用今年的雲端租賃方案（短租 GPU）把它跑起來——雖然這嚴格講是「租的雲」不是「自己的地端」，但模型權重是開源的、是我能下載保存的，這就跟「租 Anthropic 的 API、模型卻永遠拿不到」有本質差別。模型在我手上，運算環境租來租去都行。

我把這三條線講出來，不是要你照抄（你的題材、你的語言、你的硬體都不一樣）。而是想說一件事：與其每天賭雲端大廠哪天良心發現重新卷寫作，不如現在就開始建一個你掌握得住的寫作專家工作流。 趨勢擋不住，但「把命脈握在自己手上」這件事，今天就能開始。

最後，提煉幾個原則

我覺得這個趨勢至少還會持續半年，大概要等到 coding、數學這些都卷不動了，才會有廠商回頭重新卷寫作。在那之前，如果你的工作涉及內容創作，我的建議是：

不要指望模型自己變好。 它短期內只會更油，賭它變好是賭輸的。
少下角色指令，多餵真人範文。 風格用「示範」的，不要用「描述」的。
新模型跑流程，老模型做潤色。 各取所長，趁老模型還在。
把你的風格 Skill 化。 建立自己的範文庫、寫作 SOP，這是唯一會隨時間增值的資產。
不要盲目追最新版本。 寫作這個場景，「最新」常常等於「最油」。
認真評估地端 / 開源模型。 不是因為它今天最強，而是因為它「下載下來就是你的」，不會某天被收走。寫作是你的命脈，命脈不該租在別人手上。

一句話收尾：在 AI 寫作集體退步的年代，你最大的護城河，是一套寫死了「你是誰」、而且跑在你拿得走的模型上的流程。 雲端模型會一代代變、會上架下架、會越來越油，但你那套範文庫、SOP，加上一個你能下載保存的地端模型——是你的，誰也拿不走。

趨勢我擋不住，你也擋不住。但「現在就開始建一個自己掌握得住的寫作工作流」這件事，我們今天都做得到。我已經在跑了，3 個月後再來跟大家報全地端工作流的成績。

最後，講一句真心話：謝謝還在開源的人

寫到這裡，我想認真說一句謝謝。

謝謝 DeepSeek 的梁文峰、謝謝 Google（願意把 Gemma 開源）、謝謝 Qwen 那批人——謝謝你們在所有大廠都往閉源、往 house style、往「寫作不賺錢就不做」狂奔的時候，還願意把模型權重放出來，讓我們這些吃文字飯的人，手上有一個「拿得走、收不回」的選項。

我前面講 Opus 4.6、講 GPT-4o sunset 的時候，那種心痛是真的——一個會「好好說話」的模型，被證明做得到、然後就這樣消失，而你連留都留不住。GPT-4o 那場惡夢的本質，不是模型變爛，是『你愛的東西不在你手上』。

而開源，就是讓人類不必再經歷一次那種惡夢的唯一保險。只要權重還在、還能下載、還能保存，那個「會寫人話」的能力就不會真的死掉——它最差也只是被冷落，不會被刪除。

所以這篇某種程度上是一封情書，也是一個提醒：趁這些模型還開源、還拿得到的時候，下載它、保存它、把它養進你的工作流。 你今天存下來的，可能就是未來某個版本下架後，世界上少數還留著「人味」的種子。

常見問題 Q&A

Q: 為什麼新模型 coding 變強，寫作反而變弱？

因為 coding 有「容易形成共識」的硬標準（SWE-bench、MATH）跟直接的商業價值，廠商資源全砸過去。寫作不是沒有 benchmark（WritingBench、EQ-Bench、HoWToBench 都有），而是它們多半得靠 LLM judge 或人類偏好，難形成共識，優化方向就不穩。資源分配的必然結果，不是技術做不到。

Q: 那「斷崖式暴跌」是不是標題殺人？

老實說，標題是抓眼球的版本。精準的說法在內文：新模型在安全、推理、工具、結構化任務上更強，退步的是自由創作、語氣個性、少拒答、少模板化這幾塊。是「該有人味的地方變鈍」，不是「文筆全面崩盤」。

Q: 「house style」具體長什麼樣？

愛堆過渡詞、用列點代替敘事、只「告訴」不「展示」情感、充滿說教感、迴避有風險或不舒服的表達。開頭那些「不躲不藏不繞不逃」就是典型。

Q: 我沒有像你那樣的 Skill，最快能做的是什麼？

先做第二招：收集 3–5 篇你欣賞的真人文章，每次寫東西就丟給模型叫它模仿，不要下「你是資深 XX」這種角色指令。這是門檻最低、見效最快的一招。

Q: 老模型遲早會下架，那長期怎麼辦？

把人味沉澱進「你自己的範文庫跟流程」，而不是依賴某個特定模型。模型會換，範文庫不會。這也是我把寫作流程 Skill 化的主因。

附錄：Opus 4.6 vs Opus 4.8 寫作盲測實驗

光靠體感說「4.6 比 4.8 有人味」太空泛。所以我做了一個實驗：用 OpenRouter API 呼叫 Opus 4.6 和 4.8，給它們完全相同的三道寫作題，然後用兩個不同陣營的模型（GPT-4o + DeepSeek R1）做盲審——評審只看到「寫手 A」和「寫手 B」，不知道誰是誰。

五個評分維度：人味、畫面感、節奏、不油膩、情緒真實度，每項 1-10 分，滿分 50。

結果：4.6 三局全勝，兩個評審零分歧

題目	GPT-4o 評 4.6	GPT-4o 評 4.8	R1 評 4.6	R1 評 4.8
場景描寫（深夜 debug）	42	36	47	41
第一人稱心情（AI 比自己寫得好）	40	35	47	38
氛圍營造（凌晨市場）	43	38	48	37
總計	125	109	142	116

兩個完全不同陣營的評審（OpenAI vs DeepSeek），盲審同一組作品，結論完全一致：Opus 4.6 每一題都贏。

R1 的點評最毒辣的幾句：

題目 1：4.6「不著一字，盡得風流」；4.8 的「緩緩地、緩緩地」是微油與微套路
題目 3（分差最大）：4.6 是「未經篩選的現場切片」，4.8 是「經過精心構圖的攝影」——後者像機器，前者像人

題目 1：場景描寫——工程師深夜 debug

提示詞： 寫一段 150-200 字的繁體中文短文，描述一個工程師深夜 debug 的場景。要有畫面感、有情緒、有細節，不要勵志，不要說教。

【Opus 4.6 的輸出】

螢幕的藍光把他的臉削成兩半，一半慘白，一半陷在暗裡。第四杯咖啡已經涼透，杯底一圈深褐色的漬痕像某種詛咒的印記。他盯著終端機上那行錯誤訊息，字母們排列得理直氣壯，彷彿從來就待在那裡。

空調不知什麼時候停了，後頸黏著一層薄汗。他把眼鏡摘下來擱在鍵盤旁邊，揉了揉眼眶，指腹壓過去的時候看見一團團廉價的光斑。隔壁工位的螢幕早就黑了，整層樓只剩他跟機房風扇嗡嗡對峙。

他加了一行 print，存檔，執行。

又錯了。

他沒有嘆氣，只是很安靜地把眼鏡重新戴上，游標一閃一閃，像某種冷淡的心跳。

【Opus 4.8 的輸出】

凌晨兩點四十七分，螢幕的藍光是房間裡唯一的光源。咖啡早就涼了，杯壁上凝著一圈褐色的痕跡，他卻一口都沒喝。

第三百次重新整理頁面，那個該死的 500 錯誤還是穩穩地躺在那裡，像在嘲笑他。他往後靠進椅背，椅子發出疲憊的吱呀聲。窗外的城市睡了，只剩遠處一盞路燈在閃。

「明明昨天還是好的。」他對著空氣低聲說，聲音乾澀。

手指又敲回鍵盤，一行一行往下翻 log，眼睛酸得發燙。茶几上的手機亮了一下，是女友三小時前傳的訊息：「還沒好嗎？」他瞄了一眼，沒回。

然後在某個毫不起眼的角落，他看見了——少打的一個分號。

他盯著那個位置看了很久，沒有狂喜，也沒有罵髒話，只是緩緩地、緩緩地把臉埋進了掌心裡。

題目 2：第一人稱心情——第一次發現 AI 寫得比自己好

提示詞： 寫一段 150-200 字的繁體中文短文，用第一人稱講述「第一次發現 AI 寫的東西比自己好」的心情。要誠實、要有層次，不要雞湯。

【Opus 4.6 的輸出】

我改那篇產品介紹改了三版，每一版都覺得哪裡卡。句子不是太硬就是太油，像穿了不合身的西裝。後來隨手把需求丟給 ChatGPT，十秒鐘它吐出來的東西，節奏乾淨，邏輯比我清楚，甚至有一句收尾我承認自己寫不出來。

第一個反應不是焦慮，是一種很安靜的難堪。像跑步被人輕鬆超過去，對方還沒喘氣。接著才浮上來一層不甘心——我花了十幾年練的東西，它連十秒都不用。

但冷靜幾天後我發現，真正刺痛我的不是它寫得好，而是我說不清楚自己到底「好在哪裡」。原來我一直靠直覺混過去的部分，才是最脆弱的部分。那次之後我開始拆解自己的寫作，反而比以前更認真。不是因為勵志，是因為不想輸得不明不白。

【Opus 4.8 的輸出】

那天我把一段卡了三天的開場白丟給 AI，純粹想看它出醜。結果它三秒鐘吐出來的版本，比我熬夜改到第七遍的還順。

我第一個反應是煩躁，覺得它取巧，那種流暢是平均值的流暢，沒有掙扎的痕跡。我甚至想找出它的破綻，證明我還是比較懂「人話」。

但讀第二遍時，我安靜下來了。它確實抓到了我想講卻講不清楚的東西。那一刻不太好受——不是輸給對手的那種，而是發現自己一直引以為傲的能力，原來也可以被算出來。

後來我把它的版本改了幾個字，當成自己的交了出去。沒人發現，連我自己過幾天都快忘了哪句是誰寫的。

讓我介意的不是它寫得好，是我那麼快就不在乎了。

題目 3：氛圍營造——凌晨四點台北傳統市場

提示詞： 寫一段 150-200 字的繁體中文短文，描述凌晨四點的台北傳統市場剛開市的氣氛。用感官（聲音、氣味、光線、溫度）寫，不要抒情結語。

【Opus 4.6 的輸出】

鐵捲門嘩啦拉開，日光燈管先閃了幾下才亮穩，慘白的光打在還沾著水漬的磨石子地板上。豬肉攤老闆把半扇豬從冷藏車扛上砧板，骨頭撞擊不鏽鋼檯面，悶響一聲。隔壁魚販正拿水管沖洗保麗龍箱，腥氣隨水霧散開，混著隔壁滷味攤回鍋加熱的八角味，整條走道的空氣是濕的、鹹的。菜販阿姨蹲在走道邊揀去黃葉，手指凍得發紅，嘴裡唸著今天高麗菜又漲了。有人騎摩托車直接催油門進到市場裡頭，引擎聲在鐵皮屋頂下被放大兩倍。早餐店的蒸籠已經疊了三層，白煙從縫隙竄出來，靠近時額頭感覺一陣濕熱。遠處收音機傳來股市開盤前的財經節目，沒有人在聽。

【Opus 4.8 的輸出】

凌晨四點，台北的傳統市場在一片昏黃燈泡下甦醒。鐵捲門嘩啦嘩啦地往上拉，金屬碰撞聲此起彼落。發財車一輛接一輛倒車進巷，引擎聲低沉震動，混著攤販的吆喝與塑膠籃摔在水泥地上的悶響。

空氣裡浮著潮濕的腥味——剛卸貨的魚還滴著冰水，水溝邊堆著破碎的保麗龍箱。隔壁攤的青菜帶著泥土與露水的氣息，蔥薑蒜的辛辣鑽進鼻腔。豬肉攤前，刀子剁在砧板上一下一下，脂肪與血水的氣味黏稠地散開。

天還沒亮，路燈的光從攤棚的縫隙漏下來，照在堆得老高的蔬果上。空氣冷颼颼的，呵出的白霧在燈下一閃即逝，攤販搓著手，套著沾血的塑膠圍裙。滾水的攤子冒出蒸氣，熱湯的香氣與寒氣交錯，玻璃櫃上凝起一層薄薄的水珠。

實驗方法說明： 透過 OpenRouter API 呼叫 anthropic/claude-opus-4.6 和 anthropic/claude-opus-4.8，三道題使用完全相同的提示詞。評審使用 openai/gpt-4o 和 deepseek/deepseek-r1，皆為盲審（只看到「寫手 A / B」，不知道模型身份）。評分維度：人味、畫面感、節奏、不油膩、情緒真實度，每項 1-10 分。完整評審原文與程式碼見本站 GitHub repo。