越新的模型,寫作越油

「我現在就給你最直白、最直接、最不繞彎、最干脆、最不墨跡、最實在、最通透、最有效、最硬核的回答——」

你猜後面接了什麼?一段廢話。 如果你最近用 AI 寫過任何東西,你一定知道我在說什麼。

這還只是中文的。英文也沒好到哪去。你叫 GPT 幫你寫段東西,它回你:「我就在這裡,不躲、不藏、不繞、不逃,穩穩地接住你。」——大哥,我只是叫你幫我寫個週報,你接住我幹嘛?還有那句經典的「一句話總結,你看完會徹底開悟」,我看完唯一的開悟是想把對話框關掉。

這不是偶爾翻車,是現在幾乎所有模型的常態

所以今天要講一件很反直覺的事:如果你想用 AI 寫東西——寫文章、寫報告、做簡報、還是寫自媒體文案——越老的模型,效果越好。

我知道這句話聽起來很蠢。新模型不是應該全面更強嗎?benchmark 不是一代比一代高嗎?但你真的拿來寫東西就會發現:過去半年,全世界新模型的「內容寫作能力」,是一路在退步的。不是持平,是退步,而且是那種你看得出來的退步。

不只是體感。你還記得 GPT-4 升級到 GPT-5 的時候嗎?人家都說 GPT-5 是 AGI,我當時每天用的感覺是:理科能力大概 +50%,文科直接從渣男變成大理工男。 那個寫作降智程度非常可怕——不是「微調後風格不同」那種程度,是你叫它寫一段有感情的東西,它回你一份技術規格書。使用者罵聲大到 Altman 自己出來道歉。那次事件某種程度上是「AI 寫作退步」這件事第一次被大規模驗證:模型變聰明了,但把情商全丟了。

而 Claude 這邊,我自己的體感也一樣:Opus 4.6 寫出來的東西,比 4.8 有人味。 隨便寫寫可能看不出來,但你一旦要它寫點「有溫度、有活人感」的東西,那個差距就很明顯。

你可能有看過一個流傳的數字:「GPT 創意寫作得分從 97.3% 掉到 36.8%」。先講清楚——這個數字我不會拿它當鐵證。 我去追了一下,最接近的來源是社群 benchmark(SM-Bench)的討論,不是主流學術評測;而且它那個「Creative Writing」分類,很大一部分測的其實是「模型在成熟/敏感題材下會不會拒答」,不等於完整的文學或商業寫作品質。所以這個數字反映的是「變保守、變愛拒答」,比「文筆全面崩盤」更精準。我放它進來,是因為它指向的方向對,但你引用的時候要知道它的斤兩。

坦白說,我一開始對「退步」這件事也半信半疑。真正讓我認真去查的,是我自己用新模型跑 blog 跑到一半,發現初稿越來越「油」、越來越像在背勵志金句。體感 + 一堆零散證據加起來,我才開始認真追這件事。


坦白說:我自己跑 blog 也中招了

因為我幾乎每天都在寫,而且一直在切不同模型,所以這件事我感受特別深。

不過先講清楚我的工作流:我用 AI 做的是取材跟草稿——蒐集資料、整理結構、跑出初稿。但最後取材完,我一定會「人」手重寫一次。這才是我風格的主力,AI 給的是素材,不是成品。

即便如此,我還是中招了。因為我背後有一套自己寫的 blog 寫作 Skill,裡面塞了我的語氣、敘事結構、過去文章的範例,理論上模型照著跑就好。結果這半年,同一套 Skill、同一組提示詞,新模型跑出來的初稿一代比一代難用——連素材的品質都在退步,我要手動重寫的比例越來越高。

具體是這樣退化的:

  • 第一階段:有自己的特色。 早期的模型寫出來有稜有角,有時候用詞很妙,雖然偶爾翻車,但有「人」在裡面。
  • 第二階段:中庸。 變得四平八穩,不出錯,但也不出彩。每個字都對,就是沒記憶點。
  • 第三階段:油膩。 開始堆過渡詞、堆排比、堆「不是 A,而是 B」的句型、堆那種「看完徹底開悟」的假深刻。

我要強調,這不是個別模型的問題。你拿去年的 DeepSeek-R1 跟新的 V4 比,很可能 R1 寫得更有味道;你拿 Claude 4.6 跟 4.8 比,4.6 在寫作上明顯更穩。這是全行業一起退步,不是哪一家擺爛。

那為什麼會這樣?我查下來,有三個原因,而且每一個都不是短期能解決的。


原因一:RLHF 把模型訓練成了「博士生」

這幾年所有主流模型都用同一套訓練方法,叫 RLHF(人類回饋強化學習)。講白話就是:讓人去幫模型的輸出打分,模型再學怎麼拿高分。

這跟小學生做題一模一樣。一開始它想到哪寫到哪,你叫它填「五什麼四什麼」,它可能給你填個「五八四十」——錯是錯了,但有靈氣。

問題是,打分的是一群無趣的成年人。 他們的偏好是:答案清晰、正確、安全。不是有趣、有風格、有個性。

於是模型從一個會亂講話的小學生,慢慢被調教成一個四平八穩、滴水不漏的博士生。讀起來每個字都對,但就是沒有人味。

路透社研究所(Reuters Institute)專門研究過這件事,發現 RLHF 訓出來的模型有一個預設文風,他們叫它 「house style」。特徵很好認:

  • 特別愛用過渡詞(「更值得注意的是」「我的觀點是」「不是……而是……」)
  • 愛用枚舉代替敘事(能列點就不好好講故事)
  • 描寫情感只會「告訴」不會「展示」(telling, not showing)
  • 充滿說教感
  • 系統性迴避模糊、不舒服、有風險的表達

對照一下開頭那些「不躲不藏不繞不逃」,是不是全中?這不是 bug,這是它被獎勵出來的結果。

這裡我想接到我之前寫過的一個觀念。我在講 Harness Engineering 的時候講過一句:「Prompt 是建議,機制才是規則。」RLHF 這件事剛好是反過來的版本——它是用『機制』(獎勵訊號)把『無趣』給焊死了。 你在 prompt 裡求它「寫得有個性一點」,是在跟整個訓練過程對抗,當然很吃力。


原因二:AI 開始吃自己吐出來的東西

第一個原因還算能理解,第二個就有點細思極恐了。

AI 賴以生存的基石是訓練數據。而訓練數據本身正在崩塌。

今年年初有人做了一個 90 萬個網頁的抽樣調查,結果是:現在網路上的內容,超過 74% 含有 AI 生成文本,純人工原創只剩 25.8%。 照這個趨勢下去,未來你在網路上基本上找不到真人寫的東西了。

問題來了。模型想學更多知識,就得去讀新的文獻、新的網頁。但這些新東西絕大部分不是人寫的,是上一代 AI 寫的。

說難聽一點:AI 只能吃自己吐出來的東西。 這跟近親繁殖沒什麼兩樣。

這不是我危言聳聽。Nature 在 2024 年登過一篇牛津大學的研究,證實了一個現象叫 「model collapse(模型坍塌)」:當模型反覆在自己生成的數據上訓練,語言的多樣性跟創造性會「逐代衰減」。幾代之後,基本上就沒法看了。

寫作這種高度依賴「多樣性」的能力,剛好是 model collapse 最先犧牲掉的那一塊。


原因三:根本沒有一家大廠在卷寫作

第三個原因最現實,也最少人講。

最近半年,幾乎所有 AI 廠商都在卷什麼?卷 AI coding、卷 agent、卷 reasoning、卷科學研究。沒有任何一家大廠在說「我們的創意寫作變強了」。

為什麼?因為這幾個方向有一個共同點:有「容易形成共識」的硬標準。

  • Coding?有 SWE-bench,code 能不能跑、測試過不過,一翻兩瞪眼。
  • Reasoning?有 MATH、GSM8K,對就是對,錯就是錯。
  • Agent?能不能完成任務、能不能用工具,量得出來。

這裡我要先修正一個常見的誤會——很多人(包括我前一版草稿)會說「寫作根本沒有 benchmark」,這句話不精確。 寫作其實是有 benchmark 的,而且不少:

Benchmark 測什麼 注意事項
WritingBench 6 大寫作領域、100 個子領域(創意 / 說服 / 資訊 / 技術) 比較像「通用寫作能力」評測
EQ-Bench Creative Writing v3 英文創意寫作,用 LLM judge + Elo/Glicko 排名 官方自己也提醒只能當粗略參考,創作太主觀
LitBench 人類標註的故事偏好比較,驗證創意寫作評審可靠性 比單純 LLM judge 嚴謹
WritingPreferenceBench 中英創意寫作偏好,1,800 組人類偏好配對 很適合討論「RLHF 是不是學不好主觀品味」
HoWToBench 中文長文寫作,12 種文類、1,302 個指令 對中文內容創作比較有參考價值
NC Bench 創意寫作工作流、編輯、摘要、翻譯 偏小說 / 創作者工具場景

所以更準確的說法是:寫作有 benchmark,但沒有像 SWE-bench、MATH 那種「容易形成共識的硬標準」。 創作這種東西千人千面,你很難讓所有人同意「這篇就是比那篇好」——多數寫作評測還得靠 LLM judge 或人類偏好配對,可信度本身就要分層看。沒有硬共識,就難形成穩定的優化方向;加上沒有像 coding 那樣直接的商業故事,自然就沒有大廠把主力資源砸進去。

所以我把結論收斂成一個更站得住的版本:新模型在安全、工具、推理、結構化任務上確實更強;但在自由創作、語氣個性、少拒答、少模板化這幾個面向,部分 benchmark 跟大量使用者體感,都顯示它在退步。 不是「全面斷崖式暴跌」,是「該強的更強,該有人味的地方變鈍」。這不是意外,是資源分配的必然。


Opus 4.6:又一個準備消失的「會寫人話」的模型

我要特別點名一個模型:Claude Opus 4.6。 它是社群公認目前寫作最強的模型,沒有之一。我自己實測過,效果也是極佳——那種「有人味、有節奏、不油」的手感,到目前為止我還沒在任何新模型上找回來過。(不只是體感——我做了一個 Opus 4.6 vs 4.8 的盲測實驗,用 GPT-4o 和 DeepSeek R1 兩個評審盲審,4.6 三局全勝、零分歧,完整原文和分數在附錄。)

問題是——Opus 4.6 現在已經被打上了 legacy 標籤。 在 Claude Code 裡你還能手動切過去用,API 也還在,但它已經不是預設選項了。今天是 legacy,下一步是什麼?每個用過 OpenAI 的人都知道答案。

而 Anthropic 是不會開源它的。換句話說,等哪天 API 真的下架,這個「寫作最佳」的版本就真的消失了,不是「你還能自己跑」,是徹底沒了。我現在還能用,但那個危機感已經很真實了。

這讓我想到 GPT-4o。4o 被很多人當成「情緒價值王者」——它願意陪你聊、語氣有溫度、不會動不動就拒答或說教。它 sunset 的時候,一堆人是真的在難過的,那不是矯情,是真的少了一個會「好好說話」的模型。

我覺得 Opus 4.6 很可能是下一個。繼 GPT-4o 之後,又一次人類模型界的重大損失。 而且這種損失特別刺,因為它不是「技術變爛了」——是這個「會寫人話」的能力曾經存在過、被證明做得到、然後因為沒人卷、不開源、被新版本覆蓋,就這樣悄悄沒了。

而這也正好是我下定決心、把寫作往地端搬的那根稻草。


既然擋不住,我已經開始這樣賭:把寫作搬到地端

前面四招都還是「在別人的模型上想辦法」。但你把整篇看到這裡會發現一個很冷的事實:house style 是訓練出來的、數據崩塌是大環境、沒人卷寫作是商業選擇、老模型會 sunset 是廠商說了算——這四件事,沒有一件是我能控制的。

我能控制的只有一件事:我自己的寫作工作流,要建立在一個不會被人收走的模型上。

所以身為一個吃文字飯的人,這陣子我已經開始認真做一件事——把寫作搬到地端模型。 我給自己的目標很明確:3 個月內,做出一套全地端的寫作工作流。 不是因為地端現在就比雲端強,而是因為只有地端模型,是「下載下來就永遠是你的」,不會某天突然只剩 API、再某天連 API 都沒了。

這跟我之前寫 On-Prem 三條路Qwen 3.6-27B 家用推論 是同一條線——只是這次的動機不是資安、不是成本,而是寫作品質的主權。具體我在跑三條線:

1. Gemma 3 27B 的寫作微調版(現在的主力)

社群現在很多人在用 Gemma 3 27B 寫東西。被點名最多的寫作向微調之一是 TheDrummer 的 Big-Tiger-Gemma-27B-v3——它是 Gemma 3 27B 的寫作 / 角色 / 敘事向微調版。我覺得最有意思的是它模型卡自己寫的目標:更中性、少一點過度正向、少 Markdown、比較能處理硬一點的題材。

你回頭看這幾個目標——「少一點過度正向」「少 Markdown」「能處理硬題材」——這根本就是衝著 house style 來的解藥。它要砍掉的,正好就是 RLHF 焊上去的那層油。這也是地端社群有趣的地方:雲端大廠不想卷的方向,開源社群自己卷。

2. Qwen 3.6-27B(agent 強,寫作待解鎖)

Qwen 3.6-27B 我在 agent 場景已經用得很兇,工具呼叫、流程跑得都很穩。但它的寫作表現坦白說蠻一般的,比較中庸。

所以我現在花時間在試:到底是什麼提示策略、或哪一個 skill,能把它的寫作能力「激發」出來。它底子不差,問題是怎麼把那個會寫東西的它叫醒——這題我還沒解完,有進展再跟大家報。

3. DeepSeek R1(中文寫作的王者,研究怎麼跑得起來)

最後是大魔王。中文寫作目前我心中的真神還是 DeepSeek R1。 那個中文的語感、節奏、不油,是我用過的開源模型裡最頂的。

這裡也補一個 caveat,免得有人覺得我在吹。這件事有明顯的「語言分歧」: 英文使用者其實未必覺得 R1 創作多強——你去翻國外的創意寫作排名,R1 的評價是浮動的。但中文使用者這邊的共識很清楚:R1 在中文的創意表達、文言文、詩詞這些地方,表現特別突出。Reddit 上有專門的討論(例如 DeepSeek R1 takes #1 overall on a Creative Short Story Writing BenchmarkDeepseek R1 0528 is actually decent at creative writing、以及一份整理 R1 / V3-0324 寫作品質評語的 Summaries of the creative writing quality),也有創意短篇 benchmark 把 R1 排到很前面。這些都是社群來源、不是學術硬標準,但它剛好印證了一件事:寫作的好壞跟「你用哪種語言」高度相關,中文寫作不能直接套英文榜的結論。 對我這種主力寫中文的人,R1 的價值就被嚴重低估了。

問題是它不小,家裡的卡跑不動。所以我現在在研究的,是怎麼用今年的雲端租賃方案(短租 GPU)把它跑起來——雖然這嚴格講是「租的雲」不是「自己的地端」,但模型權重是開源的、是我能下載保存的,這就跟「租 Anthropic 的 API、模型卻永遠拿不到」有本質差別。模型在我手上,運算環境租來租去都行。

我把這三條線講出來,不是要你照抄(你的題材、你的語言、你的硬體都不一樣)。而是想說一件事:與其每天賭雲端大廠哪天良心發現重新卷寫作,不如現在就開始建一個你掌握得住的寫作專家工作流。 趨勢擋不住,但「把命脈握在自己手上」這件事,今天就能開始。


最後,提煉幾個原則

我覺得這個趨勢至少還會持續半年,大概要等到 coding、數學這些都卷不動了,才會有廠商回頭重新卷寫作。在那之前,如果你的工作涉及內容創作,我的建議是:

  1. 不要指望模型自己變好。 它短期內只會更油,賭它變好是賭輸的。
  2. 少下角色指令,多餵真人範文。 風格用「示範」的,不要用「描述」的。
  3. 新模型跑流程,老模型做潤色。 各取所長,趁老模型還在。
  4. 把你的風格 Skill 化。 建立自己的範文庫、寫作 SOP,這是唯一會隨時間增值的資產。
  5. 不要盲目追最新版本。 寫作這個場景,「最新」常常等於「最油」。
  6. 認真評估地端 / 開源模型。 不是因為它今天最強,而是因為它「下載下來就是你的」,不會某天被收走。寫作是你的命脈,命脈不該租在別人手上。

一句話收尾:在 AI 寫作集體退步的年代,你最大的護城河,是一套寫死了「你是誰」、而且跑在你拿得走的模型上的流程。 雲端模型會一代代變、會上架下架、會越來越油,但你那套範文庫、SOP,加上一個你能下載保存的地端模型——是你的,誰也拿不走。

趨勢我擋不住,你也擋不住。但「現在就開始建一個自己掌握得住的寫作工作流」這件事,我們今天都做得到。我已經在跑了,3 個月後再來跟大家報全地端工作流的成績。


最後,講一句真心話:謝謝還在開源的人

寫到這裡,我想認真說一句謝謝。

謝謝 DeepSeek 的梁文峰、謝謝 Google(願意把 Gemma 開源)、謝謝 Qwen 那批人——謝謝你們在所有大廠都往閉源、往 house style、往「寫作不賺錢就不做」狂奔的時候,還願意把模型權重放出來,讓我們這些吃文字飯的人,手上有一個「拿得走、收不回」的選項。

我前面講 Opus 4.6、講 GPT-4o sunset 的時候,那種心痛是真的——一個會「好好說話」的模型,被證明做得到、然後就這樣消失,而你連留都留不住。GPT-4o 那場惡夢的本質,不是模型變爛,是『你愛的東西不在你手上』。

而開源,就是讓人類不必再經歷一次那種惡夢的唯一保險。只要權重還在、還能下載、還能保存,那個「會寫人話」的能力就不會真的死掉——它最差也只是被冷落,不會被刪除。

所以這篇某種程度上是一封情書,也是一個提醒:趁這些模型還開源、還拿得到的時候,下載它、保存它、把它養進你的工作流。 你今天存下來的,可能就是未來某個版本下架後,世界上少數還留著「人味」的種子。


常見問題 Q&A

Q: 為什麼新模型 coding 變強,寫作反而變弱?

因為 coding 有「容易形成共識」的硬標準(SWE-bench、MATH)跟直接的商業價值,廠商資源全砸過去。寫作不是沒有 benchmark(WritingBench、EQ-Bench、HoWToBench 都有),而是它們多半得靠 LLM judge 或人類偏好,難形成共識,優化方向就不穩。資源分配的必然結果,不是技術做不到。

Q: 那「斷崖式暴跌」是不是標題殺人?

老實說,標題是抓眼球的版本。精準的說法在內文:新模型在安全、推理、工具、結構化任務上更強,退步的是自由創作、語氣個性、少拒答、少模板化這幾塊。是「該有人味的地方變鈍」,不是「文筆全面崩盤」。

Q: 「house style」具體長什麼樣?

愛堆過渡詞、用列點代替敘事、只「告訴」不「展示」情感、充滿說教感、迴避有風險或不舒服的表達。開頭那些「不躲不藏不繞不逃」就是典型。

Q: 我沒有像你那樣的 Skill,最快能做的是什麼?

先做第二招:收集 3–5 篇你欣賞的真人文章,每次寫東西就丟給模型叫它模仿,不要下「你是資深 XX」這種角色指令。這是門檻最低、見效最快的一招。

Q: 老模型遲早會下架,那長期怎麼辦?

把人味沉澱進「你自己的範文庫跟流程」,而不是依賴某個特定模型。模型會換,範文庫不會。這也是我把寫作流程 Skill 化的主因。


附錄:Opus 4.6 vs Opus 4.8 寫作盲測實驗

光靠體感說「4.6 比 4.8 有人味」太空泛。所以我做了一個實驗:用 OpenRouter API 呼叫 Opus 4.6 和 4.8,給它們完全相同的三道寫作題,然後用兩個不同陣營的模型(GPT-4o + DeepSeek R1)做盲審——評審只看到「寫手 A」和「寫手 B」,不知道誰是誰。

五個評分維度:人味、畫面感、節奏、不油膩、情緒真實度,每項 1-10 分,滿分 50。

結果:4.6 三局全勝,兩個評審零分歧

題目 GPT-4o 評 4.6 GPT-4o 評 4.8 R1 評 4.6 R1 評 4.8
場景描寫(深夜 debug) 42 36 47 41
第一人稱心情(AI 比自己寫得好) 40 35 47 38
氛圍營造(凌晨市場) 43 38 48 37
總計 125 109 142 116

兩個完全不同陣營的評審(OpenAI vs DeepSeek),盲審同一組作品,結論完全一致:Opus 4.6 每一題都贏。

R1 的點評最毒辣的幾句:

  • 題目 1:4.6「不著一字,盡得風流」;4.8 的「緩緩地、緩緩地」是微油與微套路
  • 題目 3(分差最大):4.6 是「未經篩選的現場切片」,4.8 是「經過精心構圖的攝影」——後者像機器,前者像人

題目 1:場景描寫——工程師深夜 debug

提示詞: 寫一段 150-200 字的繁體中文短文,描述一個工程師深夜 debug 的場景。要有畫面感、有情緒、有細節,不要勵志,不要說教。

【Opus 4.6 的輸出】

螢幕的藍光把他的臉削成兩半,一半慘白,一半陷在暗裡。第四杯咖啡已經涼透,杯底一圈深褐色的漬痕像某種詛咒的印記。他盯著終端機上那行錯誤訊息,字母們排列得理直氣壯,彷彿從來就待在那裡。

空調不知什麼時候停了,後頸黏著一層薄汗。他把眼鏡摘下來擱在鍵盤旁邊,揉了揉眼眶,指腹壓過去的時候看見一團團廉價的光斑。隔壁工位的螢幕早就黑了,整層樓只剩他跟機房風扇嗡嗡對峙。

他加了一行 print,存檔,執行。

又錯了。

他沒有嘆氣,只是很安靜地把眼鏡重新戴上,游標一閃一閃,像某種冷淡的心跳。

【Opus 4.8 的輸出】

凌晨兩點四十七分,螢幕的藍光是房間裡唯一的光源。咖啡早就涼了,杯壁上凝著一圈褐色的痕跡,他卻一口都沒喝。

第三百次重新整理頁面,那個該死的 500 錯誤還是穩穩地躺在那裡,像在嘲笑他。他往後靠進椅背,椅子發出疲憊的吱呀聲。窗外的城市睡了,只剩遠處一盞路燈在閃。

「明明昨天還是好的。」他對著空氣低聲說,聲音乾澀。

手指又敲回鍵盤,一行一行往下翻 log,眼睛酸得發燙。茶几上的手機亮了一下,是女友三小時前傳的訊息:「還沒好嗎?」他瞄了一眼,沒回。

然後在某個毫不起眼的角落,他看見了——少打的一個分號。

他盯著那個位置看了很久,沒有狂喜,也沒有罵髒話,只是緩緩地、緩緩地把臉埋進了掌心裡。


題目 2:第一人稱心情——第一次發現 AI 寫得比自己好

提示詞: 寫一段 150-200 字的繁體中文短文,用第一人稱講述「第一次發現 AI 寫的東西比自己好」的心情。要誠實、要有層次,不要雞湯。

【Opus 4.6 的輸出】

我改那篇產品介紹改了三版,每一版都覺得哪裡卡。句子不是太硬就是太油,像穿了不合身的西裝。後來隨手把需求丟給 ChatGPT,十秒鐘它吐出來的東西,節奏乾淨,邏輯比我清楚,甚至有一句收尾我承認自己寫不出來。

第一個反應不是焦慮,是一種很安靜的難堪。像跑步被人輕鬆超過去,對方還沒喘氣。接著才浮上來一層不甘心——我花了十幾年練的東西,它連十秒都不用。

但冷靜幾天後我發現,真正刺痛我的不是它寫得好,而是我說不清楚自己到底「好在哪裡」。原來我一直靠直覺混過去的部分,才是最脆弱的部分。那次之後我開始拆解自己的寫作,反而比以前更認真。不是因為勵志,是因為不想輸得不明不白。

【Opus 4.8 的輸出】

那天我把一段卡了三天的開場白丟給 AI,純粹想看它出醜。結果它三秒鐘吐出來的版本,比我熬夜改到第七遍的還順。

我第一個反應是煩躁,覺得它取巧,那種流暢是平均值的流暢,沒有掙扎的痕跡。我甚至想找出它的破綻,證明我還是比較懂「人話」。

但讀第二遍時,我安靜下來了。它確實抓到了我想講卻講不清楚的東西。那一刻不太好受——不是輸給對手的那種,而是發現自己一直引以為傲的能力,原來也可以被算出來。

後來我把它的版本改了幾個字,當成自己的交了出去。沒人發現,連我自己過幾天都快忘了哪句是誰寫的。

讓我介意的不是它寫得好,是我那麼快就不在乎了。


題目 3:氛圍營造——凌晨四點台北傳統市場

提示詞: 寫一段 150-200 字的繁體中文短文,描述凌晨四點的台北傳統市場剛開市的氣氛。用感官(聲音、氣味、光線、溫度)寫,不要抒情結語。

【Opus 4.6 的輸出】

鐵捲門嘩啦拉開,日光燈管先閃了幾下才亮穩,慘白的光打在還沾著水漬的磨石子地板上。豬肉攤老闆把半扇豬從冷藏車扛上砧板,骨頭撞擊不鏽鋼檯面,悶響一聲。隔壁魚販正拿水管沖洗保麗龍箱,腥氣隨水霧散開,混著隔壁滷味攤回鍋加熱的八角味,整條走道的空氣是濕的、鹹的。菜販阿姨蹲在走道邊揀去黃葉,手指凍得發紅,嘴裡唸著今天高麗菜又漲了。有人騎摩托車直接催油門進到市場裡頭,引擎聲在鐵皮屋頂下被放大兩倍。早餐店的蒸籠已經疊了三層,白煙從縫隙竄出來,靠近時額頭感覺一陣濕熱。遠處收音機傳來股市開盤前的財經節目,沒有人在聽。

【Opus 4.8 的輸出】

凌晨四點,台北的傳統市場在一片昏黃燈泡下甦醒。鐵捲門嘩啦嘩啦地往上拉,金屬碰撞聲此起彼落。發財車一輛接一輛倒車進巷,引擎聲低沉震動,混著攤販的吆喝與塑膠籃摔在水泥地上的悶響。

空氣裡浮著潮濕的腥味——剛卸貨的魚還滴著冰水,水溝邊堆著破碎的保麗龍箱。隔壁攤的青菜帶著泥土與露水的氣息,蔥薑蒜的辛辣鑽進鼻腔。豬肉攤前,刀子剁在砧板上一下一下,脂肪與血水的氣味黏稠地散開。

天還沒亮,路燈的光從攤棚的縫隙漏下來,照在堆得老高的蔬果上。空氣冷颼颼的,呵出的白霧在燈下一閃即逝,攤販搓著手,套著沾血的塑膠圍裙。滾水的攤子冒出蒸氣,熱湯的香氣與寒氣交錯,玻璃櫃上凝起一層薄薄的水珠。


實驗方法說明: 透過 OpenRouter API 呼叫 anthropic/claude-opus-4.6anthropic/claude-opus-4.8,三道題使用完全相同的提示詞。評審使用 openai/gpt-4odeepseek/deepseek-r1,皆為盲審(只看到「寫手 A / B」,不知道模型身份)。評分維度:人味、畫面感、節奏、不油膩、情緒真實度,每項 1-10 分。完整評審原文與程式碼見本站 GitHub repo。