On-Prem 小模型爆發時代來了

5090 桌機這週到了

這週有一件對我蠻重要的事情：我訂的 RTX 5090 桌機到了。從原價屋這邊買的，實際上其實沒有那麼貴啦，沒有到三十幾萬。但因為畢竟第一次買那麼貴的電腦，我有添購一些額外的東西——有些是我覺得需要的，有些是我想多做一些嘗試的——所以到最後花的錢就是稍微多一點。

那我之所以來購買這樣子的電腦，原因是因為我看到一個明確的趨勢：

在 2026 年的 Q1 跟 Q2，「On-Prem 端的小模型推論」這件事從「輔助選項」變成「主力選項」了。

三個工程上的長足進化

1. 開源小模型衝到 Sonnet 等級

第一個就是小模型能力越來越好。

像 Qwen 3.5、3.6 系列，尤其是 27B 這個 Dense 的模型，它的 Performance 是非常讓人驚豔的。大家都說已經很接近 Sonnet 的相關程度了。

這件事在一年前是完全無法想像的——一個 27B Dense 的開源模型，跑在 32GB 的 RTX 5090 上，能力可以打到雲端 Sonnet 級別。

2. 推論引擎在 Q1 大幅改寫

第二件事情是推理的引擎也在 2026 年有大幅度的改進。

像是 vLLM 在 2026 Q1 的時候，他們團隊就做了大量的底層改寫，所以有很多的進展。我自己實測過七種推論引擎組合——vLLM 的 cudagraph 優化在 5090 上跑 27B AWQ-INT4，可以打到 575 tok/s @ 並發 8。這個數字已經到 GPT-4o-mini API 級別的吞吐了。一台桌機服務一個小團隊是完全沒問題的。

詳細實測：RTX 5090 + Qwen3.6-27B 七種推論引擎實測

3. KV Cache 大幅壓縮

再來就是說也出了幾個重要的論文能夠 enhance KV Cache。

像是大家知道最新發表的 Google 的 TurboQuant，它能夠大幅度降低模型需要的 RAM 成本——尤其是 VRAM 成本——把 KV Cache 跟權重再砍一個量級。

所以這三件事疊加起來——模型能力 + 推理能力 + KV Cache 壓縮——在工程上面都有長足的進化之後，「On-Prem 端跑小模型」這個東西變成是很有可能的事情。

之前我建議客戶的邏輯：地端是輔助

那在之前，我建議客戶的做法都會是這樣：

雲端模型還是相對來說比較便宜，並且地端模型的能力不夠好
先用雲端模型，針對比較非機敏、非 critical 的場景進行 POC，先把場景跑通
真的很 critical 或資安很機敏的，再去購買適當算力的機器，把這些 critical 模型 offload 到地端

但這個建議裡，地端比較傾向一個「輔助」的角色，而不是「主力」的角色。

但這幾個月，邏輯變了

但是在這幾個月，我的感受是這個邏輯稍微變了一點。

因為有幾個外在的條件改變了：

條件 1：有錢買不到 H100/H200

現在就算你有錢，也不一定買得到比較好的——像 H100 或 H200 這樣子的卡。在中小企業這邊是很難的。老黄把 HBM 三星、SK Hynix、Micron 加上 Groq LPU 整條供應鏈都鎖喉了。

條件 2：桌機 + 小模型已經夠用

其實也就是我剛剛講到的——現在的桌機 5090，再加上這些比較厲害的小模型，再加上一些相關的優化（vLLM、TurboQuant 的優化），其實你也不見得需要買到那麼好的卡。

一台 20–30 萬到 30–40 萬的桌機，就能組裝出一個 Sonnet 等級的 On-Prem 服務。這在去年完全不可能。

條件 3：Mac Studio 統一記憶體方案死了

另外一個推理的常見架構就是像 Mac Studio，然後用 256G 或 512G 去撐——用統一記憶體來去撐顯卡記憶體。

這方案真的不可行了。

因為現在記憶體漲到瘋掉。然後 Mac 就算硬體能力那麼強，它也無法支撐這樣子買到 256G 或 512G 的 RAM。現在聽說只買得到 96G 或 60G 以下的 RAM 配置。

背景：DDR/HBM Token 經濟學 — 老黄供應鏈鎖喉的雙重結果

所以在這情況下，用一個桌機來跑這樣子的模型，變得它是可行的方案。

條件 4：雲端不再是「便宜 + 穩定 + 能力好」

當然還有另外一個客觀因素——最近大家也知道，算力就算連雲端模型都不太夠。

像 Anthropic 大量的——大量的降它的服務品質（降智），甚至把很多訂閱服務改成了 API 相關的服務。所以我們也注意到了，雲端的廠商其實它不見得服務品質那麼穩。再加上現在的 Token 也慢慢的在提價格。

所以就代表說其實雲端也不再是像以前一樣的——

能力好 → 因為有可能會被降智
服務穩定 → 不定期 out of service
價格便宜 → Token 在漲價

這三個賣點都慢慢的在變化。

詳細：Anthropic AFK Quota 砍量 + Sam Altman Codex 反擊棋

我現在的新建議：高頻搬回地端

所以在今年，至少在這幾個月的時候，我推薦客戶的邏輯反而會變成是：

Step 1：還是先用雲端跑通場景跟邏輯

這個沒變。雲端模型還是 POC 階段最快的選擇，可以先把整套相關的場景跟邏輯跑通。

Step 2：最常用、最高頻的 workload 試著搬到地端小模型

因為你高頻的這些 workload，通常其實不一定需要那麼多高推理的能力。

它比較像是「比 NER 更聰明一點」的相關 workload——分類、抽取、摘要、簡單的對話路由。這時候以現在小模型的能力，其實絕對夠的。

把高頻變成地端的好處：

你的 Token 不用錢——或是它已經是固定的攤提了
你不會被雲端廠商不定期降智
你不會被不定期調高 Token 費用
你不會被不定期 out of service 受制約

Step 3：傳統機敏的 workload 直接搬地端

那第二個當然還是傳統經典的 workload——就是比較機敏的 workload——可以直接搬到地端小模型裡面去。資安這個議題如果你真的需要的話，你就是要地端模型，這個沒辦法。

一個務實的建議

所以我個人其實蠻建議大家從現在開始，都去 survey 一下：

有沒有機會跑一個大概台幣 20–30 萬、30–40 萬左右的機器，就能夠組裝出來你的模型？

或許它能夠：

大幅度降低你 Token 成本的問題
讓你的相關服務比較穩定
處理你資安機敏的需求

結論：趨勢已經慢慢成形

我個人認為這個趨勢已經慢慢成形，而且已經還蠻強烈的。蠻推薦大家一看。

之前地端是「輔助角色」，現在我會直接說它是 「主力選項」之一——尤其是高頻 workload 跟資安機敏的場景。

當然我這邊對這個題目也非常有興趣，所以接下來也會持續的，每週會提出一次到兩次的我目前的評測：這些小模型在 OpenClaw（多 Agent 架構）、數位助手（個人生產力）、企業問答機器人這三個場景的測試結果。也請大家敬請期待。

常見問題 Q&A

Q: 為什麼是 5090 而不是 4090 或更高階的卡？

5090 是這代「消費級顯卡裡 VRAM 最大的選項」——32GB GDDR7，剛好夠塞 27B Dense AWQ-INT4 量化版本 + 合理的 KV Cache。4090 只有 24GB，跑 27B 會比較吃緊。再上去就要 H100 / H200，但那是另一個價格層級（百萬以上），而且中小企業基本買不到。

Q: 30 萬桌機真的能取代雲端 API 嗎？

不能完全取代，但可以處理掉「高頻」+「機敏」這兩塊。Deep reasoning、複雜 agent、長 context 還是雲端強。重點是分流：把不需要高推理能力的高頻 workload 搬走，這部分原本佔你 70–80% 的 Token 消耗。

Q: Mac Studio 真的完全死了嗎？

如果你已經有 512GB 的 Mac Studio，當然繼續用。但現在新買，DDR 漲到瘋掉、Apple 砍了高階記憶體配置——這條路基本不存在了。詳細見 DDR/HBM 那篇。

Q: 中小企業沒有 IT 怎麼維護？

這正是我接下來要驗證的場景——OpenClaw / 數位助手 / 企業問答機器人這三條線，目標就是「中小企業可運維」。每週會出評測結果。

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記

On-Prem 小模型爆發時代來了 — 為什麼我這週訂了 RTX 5090 桌機