把 LLM 直接燒進晶片：Taalas 的瘋狂賭注，與它揭示的推理成本未來

一條推文引爆的想像

前幾天 X 上 David Hendrickson（@TeksEdge）發了一條推文，大意是：

「Taalas 即將推出中型模型的 ASIC 板卡，把整個 Qwen 3.5-27B 燒進矽晶片。17,000 tok/s、PCIe 標準插槽、功耗只有 GPU 的十分之一、$300-400 一張卡。」

底下留言區炸開了。有人喊 NVIDIA killer，有人說是詐騙，有人已經在算「如果這是真的，我的雲端帳單可以砍多少」。

我做的第一件事不是轉發，是去查：這間公司到底是誰？他們宣稱的東西，有多少是真的？

Taalas 是誰？不是車庫創業

先講結論：這不是一間畫餅的 PPT 公司。

Taalas Inc. 成立於 2023 年 9 月，總部在加拿大多倫多。CEO Ljubisa Bajic 在 2016 年創辦了 Tenstorrent（Jim Keller 後來加入的那間 AI 晶片公司），2023 年 3 月離開後成立 Taalas。在這之前，他在 AMD 做混合 CPU-GPU 晶片架構設計，也在 NVIDIA 待過一年當資深架構師。

CTO Drago Ignjatovic 是 Tenstorrent 早期工程師。COO Lejla Bajic（CEO 的太太）從 Altera（FPGA）→ ATI → AMD，一路做到系統工程資深經理。VP Products Paresh Kharya 更有意思——他之前在 NVIDIA 當加速運算產品管理的資深總監。

團隊 25 人左右，成員來自 AMD、Apple、Google、NVIDIA、Tenstorrent。

融資方面，總共拿了 $219M。2026 年 2 月那一輪 $169M 由 Quiet Capital 領投，Fidelity 也進來了。到目前為止只花了 $30M 左右。

這些背景不保證他們會成功，但保證他們不是隨便喊喊的人。

核心技術：Mask ROM Recall Fabric

Taalas 的做法用一句話講就是：把模型權重直接刻進電晶體。

傳統的推理流程是：模型權重存在記憶體（HBM/DRAM）→ 載入到計算單元 → 做矩陣運算 → 輸出 token。整個過程最大的瓶頸不是「算」，而是「搬」——把權重從記憶體搬到計算核心的 memory bandwidth 才是真正的瓶頸。

Taalas 的做法是把這個搬運過程完全消除。他們用一種叫 “Mask ROM Recall Fabric” 的技術，在晶片製造時就把模型權重以 4-bit 精度刻進電晶體。一個電晶體儲存一個 4-bit 值，同時負責乘法運算。

結果就是：不需要 HBM，不需要記憶體頻寬，推理速度的上限變成電晶體開關的速度。

他們的第一顆晶片 HC1 規格如下：

規格	數值
製程	TSMC 6nm (N6)
晶片面積	815 mm^2（接近光罩極限）
電晶體數	530 億
硬編模型	Llama 3.1 8B
量化	3-bit / 6-bit 混合
功耗	~200-250W（單卡）
形式	PCIe 卡
宣稱效能	17,000 tokens/sec per user

換模型怎麼辦？他們說只需要改兩層金屬層，大約兩個月就能出一顆新模型的晶片。

17,000 tok/s 是真的嗎？

這是最關鍵的問題。

有第三方驗證。 法國研究者 Eric Cappannelli 獨立測試了 Taalas 的 chatjimmy.ai 線上 demo，測得 ~15,750 tok/s。前 Stability AI CEO Emad Mostaque 和知名開發者 Simon Willison 都公開背書過這個速度。

做個對比：

平台	速度（8B 級模型）
Taalas HC1	~17,000 tok/s
Etched（8 晶片跑 70B）	~62,500 tok/s
Cerebras	~2,100 tok/s
Groq LPU	~594 tok/s
NVIDIA B200	~353 tok/s
Mac M4 Pro + Ollama	~30-38 tok/s

速度是真的。但速度不是全部。

快，但聰明嗎？

Cappannelli 的測試不只量速度，也量品質。結果：

認知測試：1.4 / 10
安全測試：5.5 / 18（31%）
基本數學、邏輯推理、空間推理——全部失敗
Prompt injection 零抵抗力
切換語言就能繞過所有安全過濾

他的描述是「認知劇場」（Cognitive Theater）——模型模仿推理的結構，但裡面沒有真正的推理。

公平地說，這不是 Taalas 晶片的問題。 這是 Llama 3.1 8B 在 3-bit 量化下本來就會有的品質。你把一個 8B 模型壓到 3-bit 然後期待它做複雜推理，那是你的問題，不是硬體的問題。

但這恰恰揭示了 Taalas 模式最根本的張力：你把哪個模型燒進去，決定了這張卡的天花板。

「一個晶片一個模型」——這是優點還是致命傷？

這是 Hacker News 上爭論最激烈的點。

支持者說：

大部分推理工作負載是穩定的——你不會每週換模型
數據中心已經在用 ASIC 做很多事了（比如 Google 的 TPU 就是 Tensor 運算的 ASIC）
兩個月出新晶片，如果成本夠低，就像換墨水匣一樣

批評者說：

AI 模型迭代速度太快了。Llama 3.1 → 4.0 不到一年。你花 $300 買的卡，六個月後可能就是過時的模型
Zach’s Tech Blog 分析：Taalas 的經濟模型只在「每個數據中心壽命 1 年」的假設下成立
815mm^2 已經是光罩極限。要跑更大的模型（比如 DeepSeek R1 671B），需要 ~35 張卡、30 個不同的晶片設計。多晶片互連還沒有被驗證過
MoE（Mixture-of-Experts）架構本質上像記憶體查表，可能不適合這種硬編方式

我的看法： 這個爭論的答案取決於你的使用場景。

如果你跑的是穩定的、不太需要更新的推理工作——比如客服 chatbot、文件摘要、內部知識庫問答——一個固定模型可能真的夠用。這些場景不需要最新最強的模型，需要的是「夠好、夠快、夠便宜」。

但如果你需要的是前沿能力——複雜推理、程式碼生成、Agent 工具調用——你每季度都在追最新模型，Taalas 的更新頻率可能跟不上你。

ASIC vs GPU：專用 vs 通用的老辯論

Taalas 的故事其實是半導體產業一個經典辯論的最新版本。

1990 年代，ASIC 在網路設備上大殺四方——Cisco 的路由器晶片就是 ASIC。但後來 FPGA 和通用處理器的效能追上來了，很多場景 ASIC 的優勢被稀釋。

現在 AI 推理領域在重演這個劇本：

Taalas： 把整個模型燒進去（最極端的 ASIC）
Etched： 把 Transformer 架構燒進去，但權重可以換（中間路線）
Groq： 專用推理處理器，但靈活度更高
NVIDIA GPU： 什麼都能跑，但什麼都不是最快

歷史告訴我們：短期內 ASIC 贏效率，長期通常是通用架構贏靈活性。 但 AI 推理可能是個例外——因為 Transformer 架構已經統治了好幾年，短期內看不到被取代的跡象。如果架構不變，專用硬體的優勢就能持續。

對「本地部署 LLM」的影響

我之前寫過企業級地端 LLM 架構的完整藍圖。Taalas 如果真的做到他們宣稱的，會改變幾個關鍵假設：

假設一：「本地部署需要昂貴的 GPU 伺服器」

如果一張 $300-400 的 PCIe 卡就能跑 17,000 tok/s 的 8B 模型，本地部署的硬體門檻直接降到桌上型電腦等級。不需要 $40,000 的 NVIDIA H100，不需要水冷伺服器機房。

但注意： $300-400 是 Reddit 傳言，Taalas 官方沒有公布過零售價。

假設二：「推理成本是按 token 計費的」

Taalas 宣稱 $0.0075 / M tokens（Llama 8B）。如果這個價格是真的，雲端 API 的定價模式會受到根本性挑戰。你買一張卡，跑多少 token 都是零邊際成本。

假設三：「模型路由需要多個模型」

我之前寫過的三層模型路由策略——簡單任務用小模型、複雜任務用大模型。如果 Taalas 做到中型模型（27B），你可以本地插一張 8B 卡和一張 27B 卡，只有最複雜的任務才需要上雲。

但 Taalas 目前只驗證了 8B。 27B 的 ASIC 還在「2026 春季實驗室」階段。815mm^2 的晶片面積能不能塞下 27B，多卡互連效能如何，都還沒有第三方驗證。

對企業 AI 降本增效的影響

回到我最近在準備的簡報主題——「AI 降本增效實戰」。

Taalas 的故事其實強化了一個我們已經在實踐的論點：AI 部署的最大成本不是模型能力，是推理成本。 當推理成本趨近於零，「能不能用 AI」的門檻消失，剩下的問題變成「怎麼用 AI」——而這是組織設計和流程改造的問題，不是技術問題。

但我也想潑一盆冷水：

速度 ≠ 品質。 17,000 tok/s 的 8B 模型，認知能力測試拿 1.4/10。你讓它跑企業 Agent 工作流？它可能比 Claude Opus 快 50 倍，但每 5 個回答有 3 個是錯的。快速產出垃圾不叫降本增效，叫製造混亂。
企業需要的不只是推理速度。 安全、合規、審計、可解釋性——這些 Taalas 的架構目前完全沒有提到。Prompt injection 零防禦力的模型，放在企業環境裡就是定時炸彈。
模型過時風險是真實的。 你今天買了 Llama 3.1 8B 的 ASIC 卡，三個月後 Llama 4 出來了，性能好 2 倍。你的卡呢？「兩個月出新晶片」——但企業採購流程就要三個月。

坦白說

Taalas 做的事情從技術上令人尊敬。把 530 億個電晶體安排成一個完整的 LLM，然後在 6nm 製程上跑出 17,000 tok/s——這是真正的工程成就。創辦團隊的背景也足以讓人認真對待。

但 @TeksEdge 推文裡的那些數字——$300-400 零售價、Qwen 3.5-27B ASIC、10,000 tok/s 中型模型——截至今天為止，全部都是未經驗證的宣稱或社群傳言。 唯一被第三方驗證過的是 Llama 3.1 8B 在 chatjimmy.ai 上的速度。

我會持續追蹤 Taalas，但我不會現在就幫他們做廣告。

如果 2026 春季他們真的在實驗室跑出 27B 模型的 ASIC，那值得重新評估。如果價格真的在 $300-400，那對整個本地部署 LLM 的市場格局來說是地震級的事件。

但「如果」兩個字很重要。

在那之前，我的建議很簡單：關注，但不下注。 企業的 AI 部署策略不應該押在任何一個還在實驗室的硬體上。先把流程和組織搞對——這些不管硬體怎麼變，都不會浪費。

關鍵洞察

Taalas 的 17,000 tok/s 是真的，但品質不是。 速度來自硬體創新（Mask ROM Recall Fabric），品質取決於你燒進去的模型。8B 量化模型的認知能力是硬天花板。
「一個晶片一個模型」是特性也是限制。 穩定工作負載（客服、摘要、分類）適合，快速迭代的場景（Agent、coding）不適合。場景決定答案。
ASIC for LLM 是合理的技術方向，但時機是問題。 Transformer 架構如果持續主導，專用硬體的優勢會累積。但如果架構出現根本性變革（比如 State Space Models 全面取代），所有 ASIC 投資都會歸零。
推理成本趨近零是大趨勢，不只是 Taalas。 Groq、Cerebras、Etched 都在往同一個方向推。雲端 API 的定價模式在未來 2-3 年內會面臨根本性壓力。企業應該為「推理幾乎免費」的世界做準備。
不管硬體怎麼變，「人 + AI 的協作設計」才是真正的護城河。 推理成本從 $15/M tokens 降到 $0.0075，不會自動讓你的團隊更有效率。流程改造、角色重定義、知識系統化——這些投資不會因為硬體迭代而過時。

附註：加密貨幣詐騙警告

Solana 區塊鏈上有一個叫 “TAALAS” 的 token。這與 Taalas Inc. 晶片公司完全無關。 如果有人跟你說買 TAALAS 幣就是投資這間公司，那是詐騙。

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記