Qwen 3.7 發表！多面向超越 3.6，社群同步釋出神改版 Qwopus3.6-27B-v2

Qwen 3.7 發表

TL;DR

Qwen 3.7 於 2026/5/20 杭州雲棲大會發表，目前推出三個 SKU：Max（旗艦）、Max-Preview（純文字、deep-thinking 預設開）、Plus-Preview（多模態 / vision）
LM Arena 排名亮眼：#13 overall（Elo ~1475）、Math #7、Coding #10、Software/IT #9；多模態的 Plus-Preview 衝上 Vision Arena #5
官方主打 agent 能力：單次自主執行 35 小時、單一 session 串 1000+ tool call；API 已在 OpenRouter 上線（$2.50 / 1M input、$7.50 / 1M output）
同期社群釋出 Qwopus3.6-27B-v2：用 Trace Inversion 把 Claude 4.7 推理蒸餾進 3.6-27B，MMLU-Pro 子集 87.43%（贏原版 +2.57pp）、SWE-bench 子集 75.25%，而且推理 token 少 36%、單張 RTX 5090 就能跑
大家對「3.7 27B 本地版」的期待已經拉滿——這篇幫你把 3.7 跟 Qwopus 兩條線一次看懂

Qwen 3.7 正式發表：三個 SKU、多模態大躍進

又一篇「無聊 IT 架構」系列文,不過這次是熱騰騰的新聞。

阿里巴巴 Qwen 團隊在 2026/5/20 的杭州雲棲大會正式發表新一代旗艦 Qwen 3.7（preview 約 5/14 就先上線給大家試玩）。這次一口氣推出三個 SKU：

SKU	定位
Qwen3.7-Max	旗艦級通用推理模型，API 陸續開放
Qwen3.7-Max-Preview	純文字版，deep-thinking 預設開啟
Qwen3.7-Plus-Preview	多模態 / vision 版本

現在可以透過 chat.qwen.ai、lmarena.ai 免費試玩，API 也已經在 OpenRouter 上線，價格是 $2.50 / 1M input、$7.50 / 1M output。

3.7 比 3.6 強在哪？

從目前公開的資料看，3.7 在好幾個面向都比 3.6 更上一層樓：

LM Arena 中立排名（截至 5/20）：

Qwen3.7-Max-Preview：#13 overall（Elo ~1475）、Math #7、Coding #10、Software/IT #9
Qwen3.7-Plus-Preview（多模態）：衝上 Vision Arena #5 lab——這是 3.6 沒有的能力層級，多模態是這一代最有看頭的躍進

官方主打的 agent 能力：

單次自主執行 35 小時不掉品質
單一 session 可串 1000+ tool call
適合長時間、多步驟的 agentic workflow

換句話說，3.7 把重心放在多模態跟長時間自主 agent 這兩條線，這正是 2026 年企業最想要的能力。至於 SWE-bench / GPQA / AIME 這些傳統 benchmark，官方還沒正式公布，後續值得繼續追。

至於大家最關心的 open weight 跟 27B 版本：目前 3.7 還是以 Max / preview 為主，HF 上 Qwen 官方仍是 3.5 / 3.6 的 checkpoint。依照 3.6 的釋出節奏，小尺寸 open weight 通常會在旗艦發表後 2–6 週陸續登場，所以「3.7 27B 本地版」很可能就在不遠的路上——這也是社群期待爆棚的原因。

本地玩家的好消息：Qwopus3.6-27B-v2 同期釋出

在等 3.7 27B 的同時，社群這邊也丟出一顆很有份量的東西。

開發者 Jackrong 把 Qwen 3.6-27B 拿去做了深度蒸餾，釋出了 Qwopus3.6-27B-v2（GGUF，HF 直接下載）。它的核心方法叫 Trace Inversion（軌跡反演），做法很巧：

一般蒸餾是直接拿 Claude / GPT 那種壓縮過的 reasoning（結論跳很快、中間步驟被省略）去 fine-tune，結果小模型只學到「會講結論卻不知為什麼」。

Qwopus 反過來：先訓一個 Trace-Inverter-4B，把 Claude-4.7-Max 的壓縮輸出反推回完整的逐步 CoT，補回中間推理鏈，再塞進 <think> 去蒸餾 3.6。

成果數字（作者自報、跑在子集上，供參考）：

指標	Qwopus3.6-27B-v2	原版 Qwen3.6-27B
MMLU-Pro（350 題子集）	87.43%	84.86%（+2.57pp）
SWE-bench Verified（202 題子集）	75.25%（152/202）	—
每題正確答案 token 成本	918.7	1,433.3（少 35.9%）
CoT 長度	短 52.5%	—
速度（RTX 5090, Q5_K_M）	43.9 tok/s	—
MTP 加速	1.66x	—

最有感的不是分數高 2.57pp，而是「答對一題用的 token 少 36%、思考鏈短一半」——在本地單卡、context 跟電費都是成本的場景，推理密度變高比多兩分有用太多。

而且它是真的能跑：

base 是 Qwen3.6-27B dense，native 支援 vision + tool-use（下載 mmproj.gguf 放旁邊就開）
量化全餐，Q4_K_M 16.8GB 是建議平衡點，一張 24GB 卡綽綽有餘
那 75.25% 的 SWE-bench 是在單張 RTX 5090、160K fp16 context、跑 19h29m、0 失敗做出來的

幾個要留意的點：它是社群實驗版（作者標明僅供研究、未做完整 safety eval）；不是全面贏，Math -2pp、Health -4pp 略退；dense 27B 吞吐（43.9 t/s）低於 MoE 版本（161.9 t/s），是拿速度換推理深度；benchmark 是跑在子集上，當方向參考即可。

現在該怎麼選？

分三個場景給個建議：

要雲端最強、可接受 API 付費： → 直接打 3.7-Max API（$2.50 / $7.50 per 1M）。多模態需求尤其值得試 Plus-Preview。

要本地 / on-prem、open weight、現在就要： → 3.7 27B 還在路上（樂觀估旗艦後 2–6 週），現階段就先跑 Qwopus3.6-27B-v2，它是當下「單卡能跑的最強推理型 27B」。等 3.7 27B 一出再無痛升級。

企業 IT 架構師： → on-prem AI Coding 的 ROI 趨勢只會更好——3.7 把多模態跟長時 agent 往前推、Qwopus 把「同一張卡的有效吞吐」又抬一階。兩條線都朝對企業有利的方向走。

一句話：3.7 雲端旗艦、Qwopus 本地神改，兩條線同週到位,2026 的 27B 戰場精彩了。

常見問題 Q&A

Q: Qwen 3.7 現在可以用了嗎？

可以試玩。透過 chat.qwen.ai、lmarena.ai 免費體驗，Max API 也已在 OpenRouter 上線（$2.50 / 1M input、$7.50 / 1M output）。

Q: Qwen 3.7 有 27B open weight 可以下載嗎？

目前還沒有，3.7 先推 Max / preview，HF 上 Qwen 官方仍是 3.5 / 3.6。依 3.6 的節奏，小尺寸 open weight 通常旗艦發表後 2–6 週陸續登場。

Q: 3.7 比 3.6 強在哪？

主要在多模態（Plus-Preview 衝上 Vision Arena #5）跟長時間自主 agent（官方主打 35 小時自主執行、1000+ tool call）。LM Arena overall 排 #13、Math #7、Coding #10。

Q: Qwopus3.6-27B-v2 跟原版 3.6-27B 差在哪？

用 Trace Inversion 把 Claude 4.7 的完整推理鏈蒸餾進 3.6。MMLU-Pro 子集 87.43%（+2.57pp）、SWE-bench 子集 75.25%，最關鍵是答對一題的 token 成本少 35.9%、思考鏈短一半。代價是 Math / Health 略退、屬社群實驗版。

Q: 跑 Qwopus 需要什麼硬體？

Q4_K_M 約 16.8GB，一張 24GB 顯卡就夠。作者的 SWE-bench 測試是在單張 RTX 5090 上跑的。要開 vision 記得把 mmproj.gguf 一起下載放旁邊。

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記