連 Pinecone 都說 Agentic RAG 有問題：Nexus、Knowledge Layer，跟一個被講爛的「RAG 已死」

開場：又一篇「RAG 已死」？這次有點不一樣

過去一年，網路上「RAG 已死」的標題真的講到爛。

Agentic 檔案瀏覽出來，有人說 RAG 死了；長上下文視窗變大，有人說 RAG 死了；Agent Skills、Context Engineering……輪番被冠上「接班人」的名號。

坦白說，這些標題大部分都是誇張加過度簡化，看看就好。

但這次有點不一樣。本週，親手定義 RAG 時代的那家公司——Pinecone——自己跳出來承認 Agentic RAG 有結構性問題，同時發佈了一套新東西叫 Nexus（官方公告：Pinecone Nexus — The Knowledge Engine for Agents）。

這件事的份量在哪？Pinecone 是市場領先的向量資料庫供應商，手上有逾 80 萬名活躍開發者、9,000 個付費客戶。等於是賣鏟子的人，跑出來跟你說「你們現在挖礦的方法有問題」。這種自我宣告，份量很重。

所以這篇不是要再喊一次「RAG 已死」。我反而想說的是：RAG 沒死，但 Pinecone 點出的問題是真的，而且解法的方向，現在四家大公司同時在押注。

一、先搞清楚：Pinecone 到底在罵哪一代 RAG？

很多人吵 RAG 死沒死，是因為大家講的根本不是同一個東西。RAG 的發展可以分三代：

世代	做法	狀態
第一代 Naive RAG	查詢直接搜尋，不管檢索結果相不相關，硬塞進模型作答	這代確實可以說「已死」
第二代 Agentic RAG（RAG 2.0）	把檢索包進 Agent 迴圈，由 Agent 自己決定何時查、查哪個資料源、要不要再查一次	主流，但問題浮現
知識層（Knowledge Layer）	Agent 不再直接挖資料源，改成查一層預先編好的知識	本週的新戰場

Pinecone 在公告裡點的四個痛點，全部是在打第二代 Agentic RAG：

Agent 在一個 Agentic 迴圈裡，足足有 85% 的運算時間耗在知識檢索上；
產出的結果還是要人手審核才能採用；
任務完成率長期卡在 50% 到 60% 上不去；
Token 成本跟延遲完全失控。

四項加起來，幾乎等於一張對 Agentic RAG 的判決書。

Pinecone 有個形容很傳神：Agentic RAG 就是「Agentic 檢索的十條藍色連結」——一次混合向量檢索，幫你抓回十段獨立的文字 chunk，然後丟給 Agent 自己拼。

聽起來很熟對不對？就是 Google 搜尋給你十條連結，只是這次換成餵給 Agent。問題是，Agent 不見得比你會挑。

二、坦白說：Agentic RAG 的三個病灶，我自己也踩過

Pinecone 講的三大病灶，我看完的第一反應是：這不就是我自己天天在踩的鬼嗎。

坦白說，這三個問題我全部踩過。而且講白一點——我現在每天就是用一套類似「結構化 / syntax 知識庫」的方式在做事，根本不是純 RAG。

為什麼？因為當你的知識庫變大、而且知識之間是互相連結的時候，純 RAG 真的解不了。

RAG 的本質是「把問題變成向量，去撈語意相近的 chunk」。但它撈回來的是一堆互不相干的片段——它不知道 A 文件的這段，其實是 B 文件那段的前提；它也不知道你這個專案的決策，是建立在三個月前另一個專案的教訓上。語意相近 ≠ 邏輯相關。 知識庫越大、跨越的脈絡越多，這個落差就越痛。

所以我自己的做法，是先把知識整理成有結構、彼此明確連結的形式（誰引用誰、誰是誰的前提、哪個取代了哪個），查的時候是順著這個結構走，而不是丟一句話進去賭向量撈得準。這跟 Pinecone 講的「不要十段 chunk，要結構化、可溯源的 Artifact」其實是同一件事——只是我用土法煉鋼在做，他們把它產品化了。

換句話說，我看到 Nexus 的當下並不覺得新奇，反而是一種「啊，連 Pinecone 都走到這步了」的印證感。

三個病灶：

病灶一：非確定性。 同一個問題問十次，Agent 可能用十種不同的檢索策略。多步推理之間還會累積偏差。對 demo 來說沒差，但企業要的是「同樣的問題，每次都給我同樣可靠的答案」，這點 Agentic RAG 給不了。

病灶二：再強的推理也救不了爛檢索。 底層資料如果結構混亂、不可靠，上面接再聰明的模型也是白搭。Garbage in, garbage out，這句老話在 AI 時代一個字都沒變。

病灶三：Token 跟延遲爆炸。 每一個子 Agent、每一次重新排序（re-rank）、每一次反思（reflection），都是實實在在的成本。

這個成本有多誇張？看 Pinecone 自家測試的數字：

Agentic RAG：平均每一條問題吃掉約 49,000 Token
AI Coding Agent：更猛，528,000 Token
Nexus（他們的新方案）：只要約 6,000 Token

差到接近 8 倍到 80 倍。當然這是廠商自己設計的測試，要打點折扣，但量級的差距是真的。

三、轉折點：把推理從「查詢時」搬到「匯入時」

那 Nexus 是怎麼做的？

一句話：Nexus 本質是一個「編譯後的知識引擎」，卡在資料源跟 Agent 中間。

Agent 不再直接去挖資料源，而是去查一層預先建好的知識層。

核心理念其實很簡單，但很關鍵：

把昂貴的推理工作，從「查詢階段」前移到「資料匯入階段」。

換個說法：以前是用戶問一句，Agent 才現場去翻、去想、去拼；現在是資料進來的時候，就先把答案「編譯」好，存成一種叫 Artifact 的知識結構——帶有型別定義、欄位層級溯源（field-level lineage）的可信賴結構化資料。

這個前移，做過工程的人應該會有 déjà vu——這不就是「預先算好」對上「即時運算」的老問題嗎？ 就像資料庫的 materialized view，或是前端的 SSG（靜態生成）對上 SSR（即時渲染）。把貴的運算挪到離線、挪到前面做，查詢的時候自然又快又穩。

Nexus 裡面有幾個零件：

Context Compiler：本身是一個自主程式代理，在資料匯入時不斷迭代生成 Artifact，直到通過評估為止。它搭配三件工具運作：
1. 使用者定義的評估任務集（代表性問題 + 標準答案）
2. 一個預先審核過的技能庫（文件處理、文字分塊、實體抽取等）
3. 一個反饋迴路
KnowQL：一種宣告式的知識查詢語言，長得像 SQL（有 join、filter、projection），但多加了意圖、接地（grounding）、溯源、回應結構這些概念。

最關鍵的一點是：Artifact 的結構不是人手定義的，是系統根據任務跟評估自動發現的。 這代表領域專家就算完全沒有檢索背景，也能產出一層為 Agent 最佳化的知識。Agent 發一個工具呼叫，引擎直接吐結構化答案，不再丟十段 chunk 讓 Agent 自己猜。

四、這不是 Pinecone 一家的想法——四家在押同一個方向

我會特別寫這篇，是因為這如果只是 Pinecone 一家的產品發佈，那就只是一篇廣告。但讓我警覺的是：至少有四股力量，幾乎同時在押同一個方向。

來源	東西	知識層怎麼來
Pinecone	Nexus / Artifact	Agent 從資料源自動合成
Andrej Karpathy	LLM Wiki Gist	模型維護一份持續累積的 Markdown Wiki，自動合成
Google（Cloud Next 2026）	Knowledge Catalog	把 metadata 編成語義圖譜，經 MCP 暴露給 Agent，偏人手綁定
Microsoft	Fabric IQ / Compiled Ontology	先設計圖譜結構再綁資料源，偏人手綁定

特別講一下 Karpathy 那個。一個月前，前 Tesla AI 總監 Andrej Karpathy 發了一篇 LLM Wiki Gist（累計逾 1,900 萬次曝光、5,000 多個星標、3,600 多次分叉），講的就是同一個概念：

不要每次都讓模型從原始文件重新發現知識，而是建立一份持續累積、由模型自己維護的 Markdown Wiki。查詢的時候，Agent 只要對 Wiki 提問，根本不用碰底層原始資料。

四套方案細節各有不同——Pinecone 跟 Karpathy 是讓 Agent 自動合成知識結構，Google 跟 Microsoft 偏向人手綁定——但大方向是一致的：

Agent 不再直接對話資料源，全部經過一層 Knowledge Layer。

當賣鏟子的、學界大神、跟兩家雲端巨頭同時指向同一個方向，這就不只是行銷話術了，這是個值得認真看的訊號。

五、量化對比，跟三個我還沒被說服的問題

先看 Pinecone 給的完整對比數據（再強調一次：廠商自測，僅供參考）：

方案	Token	耗時	準確率 / 完成率
Nexus	6,733	22.7 秒	準確率 0.680
Agentic RAG	49,103	37.9 秒	準確率 0.413
Coding Agent	528,301	84.1 秒	完成 62.7%

數字很漂亮。但這也是我要進「坦白說」的地方——有三個問題，Pinecone 還沒回答，我自己也還沒被說服：

第一，Artifact 的編譯成本到底多高？ 你把推理前移到匯入階段，那匯入就變貴了。Coding Agent 這種持續迭代的場景、或是資料天天更新的場景，你就得不斷重新編譯。當年 Microsoft Graph RAG 就是栽在這——重算成本太高，難以為繼。Nexus 會不會重蹈覆轍，現在沒人知道。

第二，LLM 生成、LLM 評估，會不會變成「有損摘要」？ Artifact 是 LLM 編出來的，又是 LLM 評估通過的。這條鏈子裡沒有一個地表真相（ground truth）來校準，會不會編著編著，離真相越來越遠？這是我最在意的一點。

第三，遇到評估集沒覆蓋的開放式問題，怎麼回退？ 知識層是針對「代表性問題」編譯的。那長尾、沒被預期到的問題怎麼辦？如果回退到傳統混合搜尋，那 Agent 最後還是走回老路，這層知識層的意義就打折了。

這三個問題不解決，Nexus 對我來說就還是「很有意思，但先觀望」。

六、提煉原則：你到底要不要投資 Knowledge Layer？

講了這麼多，給個務實的判斷框架。

我的結論是：Agentic RAG 並沒有死，它仍然是現階段的主流。 原因很簡單——把 Agent 接上資料源跟工具，遠比編譯一層知識層簡單。簡單的東西不會那麼快被淘汰。

但下面這些情境，Knowledge Layer 確實值得投資：

✅ 值得投資 Knowledge Layer

情境	為什麼
大量資料源要統一視圖	知識層幫你把分散的源頭編成一致的結構
任務重複、可預測	編譯成本可以攤提，越查越划算
需要嚴格的欄位層級溯源	金融、法務、稽核這類場景，溯源是硬需求

⚠️ 先別急著投資

情境	為什麼
Agent 偏探索式	問題長尾、沒邊界，編譯不划算
資料天天大改	重新編譯的成本會吃掉你省下的查詢成本
還在 POC 階段	Agentic RAG 接起來快，先驗證價值再說

這個判斷邏輯，跟我之前寫 PostgreSQL 當 Vector Store 那篇其實是一脈相承的——架構不是選最新的，是選最適合你場景的。

想試水溫？我建議直接從 LLM Wiki 開始

如果你看完上面那些表格，心裡還是「聽起來很厲害但不知道從哪下手」，我給一個最低成本的起點：先試 Karpathy 的 LLM Wiki。

為什麼推這個？

超簡單：它本質就是一份 Markdown 檔。你不用買 Pinecone、不用學 KnowQL、不用建圖譜。就是讓 Agent（Claude Code、Codex 都行）幫你把知識持續整理、互相連結成一份 Wiki，查的時候對 Wiki 問就好。
導入成本低到沒理由不試：一個 gist、一個資料夾、一個下午。失敗了你也沒損失什麼。
而且就算不好用也沒差：這是我最看重的一點——因為你整理好的是一份結構化的純文字檔，它幾乎可以「瞬間搬家」。 今天用 LLM Wiki，明天想換 Nexus、換 pgvector、換 Fabric IQ，那份整理好的知識直接匯進去就行，不會被任何一家廠商鎖死。

這就回到我前面講的——RAG 的天花板在資料，不在工具。 你只要先把「整理成有結構、彼此連結的知識」這件事做出來，工具反而是最後才需要煩惱、而且隨時可以換的東西。LLM Wiki 的價值，就是讓你用最低成本先把這個習慣養起來。

最後，工程師的好消息：你其實可以自己做

這也是我最想講的一點。如果你清楚知道自己需要的 Artifact 長什麼樣，這層東西你完全可以自己實作，不一定要買 Nexus：

設計對應的資料表結構（就是你的 Artifact schema）
透過批次處理從各資料源把資料匯進來
存進資料庫並建索引
加一個差量更新（incremental update）機制，解決重新編譯成本的問題
查詢語言？換成 SQL 就好了，不用學 KnowQL

是不是很眼熟？這跟我一直在講的 pgvector 務實路線幾乎是同一套工程哲學。Pinecone 把它包裝成 KnowQL + Artifact + Context Compiler，聽起來很高級，但拆開來看，骨架就是「ETL + schema + index + 差量更新」這些做資料工程的人做了二十年的東西。

整個方向真正的啟示不是某個產品，而是這句話：把推理工作從查詢階段，前移到資料編譯階段。這會是未來 Agent 系統設計的一個重要選擇。

賣鏟子的人都開始改賣「編譯好的礦」了。你不一定要跟著買，但你最好知道這件事正在發生。

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記