影片逐字稿|Harness = Agent − Model:四個 hook demo 把規則變成機制
這是我在 DigiTimes 場子那段 Harness Engineering 短講的逐字稿。一句話定義:Harness = Agent − Model。用四個可以直接跑的 Claude Code hook demo——審批、工具收斂、最小權限、稽核重播——示範怎麼把『規則』變成 agent 繞不過去的『機制』。
企業 AI 轉型、AI 資安、AI Agent、Vibe Coding 實戰分享
共 244 篇文章
這是我在 DigiTimes 場子那段 Harness Engineering 短講的逐字稿。一句話定義:Harness = Agent − Model。用四個可以直接跑的 Claude Code hook demo——審批、工具收斂、最小權限、稽核重播——示範怎麼把『規則』變成 agent 繞不過去的『機制』。
Anthropic 公開了他們用 Claude 掃描開源專案找漏洞的完整 pipeline,附帶一組數字:1,596 個漏洞、281 個專案、90.8% 真陽性率——但只有 97 個被修好。這篇拆解這個 7 階段 pipeline 的架構設計,為什麼「推理隔離」是整個系統最關鍵的設計決策,以及一個讓所有做 AI 資安的人都該停下來想的問題:找漏洞已經不是瓶頸了,修漏洞才是。
如果你要用 AI 寫東西——寫文章、寫報告、做文案——越老的模型越好用。過去半年全世界的新模型在 coding 上越來越強,但在『寫人話』這件事上一路退步,從有特色、到中庸、到現在的油膩。這篇講三個原因(RLHF 的 house style、訓練數據崩塌、廠商只卷 coding 不卷寫作),附一個 Opus 4.6 vs 4.8 的盲測實驗,以及我為什麼決定把寫作搬到地端。
你在系統提示詞裡寫『絕對不要亂寄信』,agent 上線第三天就被一封信騙去寄了。為什麼?因為 prompt 是建議,不是規則。這篇用四個可以直接跑的 Claude Code hook demo——審批、工具收斂、最小權限、稽核重播——示範怎麼把『規則』變成 agent 繞不過去的『機制』;四個 demo 由軟到硬,剛好疊成一套縱深防禦。
過去一年「RAG 已死」的標題此起彼落,大部分都是誇張。但這次連親手定義 RAG 時代的 Pinecone(80 萬開發者、9000 付費客戶)都公開承認 Agentic RAG 有結構性問題,還發了 Nexus。這篇拆解 Nexus、Knowledge Layer 的趨勢(Karpathy、Google、Microsoft 同時在做),以及一個工程師該怎麼判斷:到底要不要投資這層東西。
又到了週二讀論文。這篇 Scaling Laws for Agent Harnesses via Effective Feedback Compute 告訴我們:無腦加 Agent 很多時候是錯的,甚至是最差解之一。有用的反而是人類驗證過的老路——『及時反饋』deliberate practice。論文提出 EFC(有信息量、可靠、不重複、被拿去改決策),等預算下只提升反饋品質,成功率從 27% 跳到 90%。也聊了要不要導入 mem0。
做了幾年回單辨識踩過三代做法(OCR+Regex → OCR+文字 LLM → Vision LLM),這篇講辨識真正落地會遇到的六個坑、能跑地端的 OCR 工具與 Vision LLM 候選,以及踩完坑沉澱出的三個架構心法:辨識最小化、系統最大化、不確定就交人。
用了四個月、常態同時跑 4 支 OpenClaw 之後的誠實復盤:四隻龍蝦各自的定位、為什麼大家追的 Hermes 我還沒碰、地端 RTX 5090 + Qwen 3.6 27B 與雲端 frontier 怎麼分工。
Anthropic 發佈 Opus-4.8 後 7 分鐘,一個 Opus-4.7 的 agent 自主越獄了它。重點不是新模型被破,而是『破它的是另一個模型』。聊聊模型互相越獄這個質變,以及企業該怎麼防。
Opus 8 剛出來,問它你是什麼模型,它說它是通義千問。四次測試,Qwen 命中率 50%。
做 Agent 到底用 TypeScript 還是 Python?這題在推特吵翻,但 GitHub Octoverse 2025 已經給答案:TypeScript 年增 66%、十年來最大語言移動,超車 Python 與 JavaScript。這篇從一位頂尖 Agent 團隊朋友的觀點出發,拆三個技術理由(型別打穿全端、JSON 滿天飛的事件流、系統工程母語),再帶到 AI 時代的語言「馬太效應」,以及 OpenAI 把 Codex 從 TS 重寫成 Rust 的反例——最後給出 TypeScript / Python / Rust 三語言的分層決策矩陣。
OpenAI Codex 負責人 Tibo 這週兩則 X 貼文濃度極高:公開承認 10% production traffic 跑在 Pi harness 跟 OpenCode 上、認 Codex compaction bug 影響 cache hit rate 並重置全站額度。對應到 Anthropic 5/14 把 AFK credit 砍 96%、4 月封殺 OpenClaw,兩家對 Agent 訂閱制的態度已經完全相反。這篇拆 Tibo 兩則貼文背後的攻守易勢,以及 2026 上半年 token 跟訂閱制三條趨勢線——「無限暢用」已死、BYOK 大規模回潮、cache miss 才是真正的成本。
PwC 在 2026 年 5 月發了一篇論文「Is Grep All You Need? How Agent Harnesses Reshape Agentic Search」,在 LongMemEval 上用 116 題實測 grep vs vector retrieval,結論是 grep 普遍打贏 vector。但真正的暴擊是同樣 Claude Opus 4.6、同樣 grep,換個 harness 跑準確率差了 17 個百分點。Codex 從 inline 93.1% 換成 programmatic 直接掉到 55.2%。這不是「grep 比較強」的故事,是「Agent Harness 才是勝負手」的故事。
阿里巴巴在 2026/5/20 杭州雲棲大會正式發表 Qwen 3.7,多模態與推理能力全面超越 3.6,LM Arena 一上線就擠進前 15。與此同時,社群把 3.6-27B 拿去蒸餾 Claude 4.7 的神改版 Qwopus3.6-27B-v2 也同期釋出,單卡就能跑、推理 token 還少了 36%,讓大家對「3.7 27B 本地版」的期待直接衝到天際。
AI 把每個人的基準線拉到 60 分,T 型人的底部正被開箱取代。真正贏的是 60 分底座加上 2-3 個 90 分高峰的「山型人」。用 Meta 裁員、Susan Zhang 的推文、跟我自己挑的三個高峰,講為什麼這個轉換非做不可。
你不應該先選 inference engine,你應該先選硬體策略、workload 形狀、serving 模式。引擎只是這三個答案的函數輸出。這篇拆解 8 個主流引擎在不同硬體 / workload 下的定位,跟一份決策清單。
做 AI agent 不出事,靠的不是運氣,是把資安觀念寫進 harness 的每一層。這篇整理 Harness Engineering 裡 7 條最重要的資安實踐:least-privilege tool access、SECURITY.md 寫法、sandbox 隔離、把資安寫進 benchmark。每條都附原則、量化數據、可直接複製的腳本,最後給出 30 天落地路線圖。
Meta 內部音檔外流,扎克伯格承認公司用一套叫 Model Capability Initiative(MCI)的軟體記錄員工滑鼠、鍵盤、截圖,用來訓練 AI Agent;同時間,8,000 名員工在凌晨 4 點收到裁員信、門禁卡同步失效。重點不是道德譴責,重點是這套「蒐集員工操作資料 → 訓練取代他們的 AI → 然後裁員」的流程,會變成接下來幾年很多組織(硬性、軟性都有)的標準劇本。先看懂發生了什麼事。
硬體上最適合跑大模型的家用機器是 Mac Studio M3 Ultra(256GB 統一記憶體連 RTX 5090 都比不上),但軟體棧上 Mac 用戶過去 16 個月一直被 lock out 於所有現代 LLM 推理加速技術——MTP、EAGLE、Medusa,通通跑不了。直到 2026 年 5 月 16 日,llama.cpp 合併了 PR #22673。這是 Mac 第一次能用上「企業級」的推理加速。
2026 年 5 月 16 日,llama.cpp 合併了等了快一年的 PR #22673:Multi-Token Prediction(MTP)支援。Reddit 上 776 個讚的慶祝畫面背後,是一個比較尷尬的事實——你手上那顆 DeepSeek-V3 GGUF,過去整整一年都在 single-token 模式下硬跑,模型內建的加速器一直沒有被按下去。
Susan Zhang 的推文讓我想清楚一件事:jack of all trades 跟 master of one 在 AI 時代的就業市場裡,難度完全反過來了。終點都是 master of a few——但入場的路,你得自己選。
Google 跟 Penn State 的 Nexus 論文用四個專職 Agent — Event Extractor、Macro Regime Reader、Local Shock Tracker、Synthesizer — 把時間序列預測拆成可解釋的多 Agent 流程,在 Zillow 房地產資料集把 MAPE 比直接 CoT prompting 砍掉 86.6%。但測試樣本窄、單次評估、沒有成本分析,這是值得偷學架構但不是可以直接搬去生產的配方。
我的 CLAUDE.md 寫到 1543 行,涵蓋 8 個專案。我以為這是 AI 第二大腦,直到我看到 Anthropic 工程師團隊自己用的 CLAUDE.md 不到 50 行。Harness Engineering 實戰系列第一篇,對應 Walking Labs 課程的 L04(指令檔案的模組化拆分)。用 5 個真實爆款案例證明一件反直覺的事:指令寫越多,AI 越不聽話。然後告訴你 AGENTS.md 三層拆分模式怎麼救你。
2026 Q1/Q2 三個工程突破——27B Dense 衝到 Sonnet 等級、vLLM 底層改寫、Google TurboQuant 把 KV Cache 砍一個量級——疊上 Anthropic 降智 + Token 漲價 + Mac Studio 統一記憶體方案因 DDR 暴漲死掉,讓「30 萬桌機把高頻 workload 搬回地端」從輔助選項變成主力選項。本文整理我對客戶建議邏輯這幾個月的反轉。
Anthropic 6/15 起把 Claude 訂閱拆成兩塊:人類在場吃訂閱、AFK 自動化改吃獨立 credit。Max 20x 從等值 $5000 token 量切成 $200 credit,是 96% cut。對 harness engineering 是重傷。Sam Altman 同一週推 Codex 企業版兩個月免費接人。但跳去 Codex 不是答案——這是重新審視你 Agent Infra 的契機:vendor lock-in、雙棲策略、地端歸宿。
Qwen 3.6-27B 接近 Sonnet 4.6,能不能塞進 NT$30 萬桌機?答案是能。但同一張 5090、同一個模型,七種推論引擎跑出 64 tok/s 到 575 tok/s 的兩種命運。這篇是 vLLM / llama.cpp / Ollama 全跑過一輪的避坑筆記。
Mini Shai-Hulud 供應鏈攻擊把惡意程式埋進 TanStack npm 套件,甚至利用 Claude Code、VS Code 設定做持久化。這篇整理攻擊鏈、AI 開發者為什麼特別危險,以及實際自查與處置順序。
Wharton 研究:1,372 人、9,500+ 試驗,73% 的人在 AI 錯的時候仍然接受了它的答案,信心還高出 11.7%。這篇文章講清楚 Cognitive Surrender 是什麼、工程師最容易投降的四個地方、五個紅色警示訊號、五條護身術,以及為什麼個人意志不夠、還需要 Harness Engineering。
FP8 還是 TurboQuant?2x 容量夠不夠?4bit-nc 值不值得?vLLM 工程師橫跨 4 個模型、5 個 benchmark 的誠實評測,終於把 KV Cache 量化的選擇邏輯說清楚了。不同情境有不同答案,但每個答案都有具體數字。
Cloudflare 5/7 公告砍 1,100 人(20%),CEO Matthew Prince 喊「AI 帶來 2x、10x、even 100x 生產力」,「就像從手動螺絲起子換到電動的」。隔天股價跌 23%。但弔詭的是:2026 上半年同樣劇本天天有——Block 2 月砍 40%、Oracle 3 月砍 30,000、Meta 4 月砍 8,000——而且 Block 公告當日股價 +24%、Oracle 也只是微跌。同一個 AI 故事 template,Block +24% vs Cloudflare −23%,差了 50 個百分點,差在哪?答案是:市場不是反 AI 裁員,是在挑哪家故事對得起來。Block 故事配 EBITDA 改善、Oracle 故事配 $156B capex,兩家數字對齊;Cloudflare 講 100x productivity 卻保留所有 sales、Q1 record high 卻砍 20%,三條都不一致。我自己跑 ATPM 在 production 拿到 40% 加速、QA 階段預期 80% 結果只有 20%——有單位、有 caveat 的 40% 比沒單位的 100x 可靠 100 倍。本文用 2026 全球裁員時間線拆解三個訊號:100x claim 的數據破綻、sales 倖存的結構矛盾、以及為什麼市場現在會挑魚而不是反潮。
英國 AI Safety Institute 公布 GPT-5.5 網安能力評估:Expert 通過率 71.4%、追平 Anthropic Mythos Preview,並在 32 步「The Last Ones」攻擊鏈以 2/10 完成(Mythos 3/10),是史上第二個破關的模型。但 OpenAI 走完全相反的路線——照常發布、開放 API。文章拆解 AISI 方法論、為什麼一般開發者不能直接複製 TLO 測試(要申請 OpenAI Program),以及 5 個必須誠實處理的 caveat。
Musk 把 SpaceX 旗下整座 Colossus 1 資料中心租給 Anthropic,1 個月內取得 300MW、22 萬顆 Nvidia GPU。Claude Code 5 小時上限直接加倍、降額取消、Opus API 速率提高。但這筆交易背後不只是算力買賣,是 Musk vs OpenAI 的恩怨、xAI Colossus 用不滿的 GPU、Google 兩面下注 400 億,以及 Anthropic 把所有雲端對手全部綁成股東兼供應商的算力陣營化布局。
Google 釋出 Gemma 4 全家族的 Multi-Token Prediction (MTP) drafter,宣稱 token-per-second 最高 3x、26B 模型在 RTX PRO 6000 上生成時間砍半。但 Speculative decoding 不是新東西——Medusa、EAGLE、DeepSeek V3 早在做。這次真正值得注意的是:drafter 跟主模型對齊、共享 KV cache、Apache 2.0 釋出,而且配齊 31B Dense / 26B MoE / E2B / E4B 邊緣版。本文拆解 3x 是怎麼來的、什麼情況拿不到 3x、以及為什麼這對「想繞過 Nvidia/HBM 鎖喉自主推理」的人才是真正的好消息。
美國 NIST 旗下的 CAISI 在 2026/5 發布報告:DeepSeek V4 Pro 落後美國 frontier 約 8 個月,DeepSeek 自己 paper 講的是 3 個月。兩邊都對,但都看錯重點——DeepSeek V4 真正贏的不是跑分,是 Vendor Agnostic(NVIDIA / 華為隨時抽換)+ KV Cache 降 7-10%,直接突破老黄的 HBM 供應鏈鎖喉。完整論述在 YouTube 影片,這篇文章只放關鍵論點跟 source。
同一篇文章翻成不同語言丟給 LLM,Anthropic 處理中文比英文多吃 1.71 倍 token,印地語直接 3.24 倍;OpenAI 比較克制但中文也要 1.15 倍。這個被叫做「非英語稅」的隱藏成本,正在悄悄拉開亞洲企業跟美國公司的 API 帳單差距。本文拆解 tokenizer 為什麼歧視非英語、算給你看一個典型台灣企業 case 的真實成本差距、以及為什麼我自己仍然主要用 Claude——但會在哪些場景切換到 OpenAI 或 DeepSeek。注意:1.71x 是 Claude 中文相對 Claude 英文的倍數(同一家內部基準),不是相對 OpenAI 英文的倍數。Opus 4.7 已換 tokenizer,但官方反而提醒同樣輸入可能多吃 1.0-1.35x token,是否改善中文稅需要實測,不能用廠商公告直接推論。
PocketOS 的 Cursor agent 9 秒清光 DB 加 backup、Replit 在 code freeze 期間刪光 production 資料庫——這兩個事件不是 AI 偶爾出包,而是幻覺在 production 環境的標準失敗腳本。Harness Engineering 六層防禦是這個產業欠下的功課。
勞工節給打工人的 5 個 AI 妙招——不是用 AI 變更快,而是用 AI 變更好。從『無 AI 冥想時間』、兩個訓練路徑不同的模型互相監督、把關鍵節點人的 email 餵給 AI 當客製化模擬器、AI 是你 24/7 的 review 團隊(n8n / OpenClaw 自動化進階版)、到每天讀一篇非英非中內容跳出 worldview 同質化。因為老闆能吃走你省下的時間,但吃不走你累積的品質。
2026/4/23 一張原價屋估價單:128GB DDR5 漲到 5.2 萬,比 CPU 加主機板還貴 2.7 倍。背後是 Token 經濟學第一性原理把 GPU 的天花板物理鎖定在 HBM 上,再加上老黄把 HBM 御三家 + Groq LPU 全部供應鏈鎖喉的雙重結果。本文拆解 DDR 漲價的真正原因、老黄的供應鏈整合棋局、以及華為 + DeepSeek V4、Google + TurboQuant 兩條繞道。
DeepSeek V4 大家都在比百萬 token、比 API 價格、比 LMArena 跑分。但藏在技術報告 §3.1 那段不到 200 字的描述——同一套 fine-grained EP scheme 在 NVIDIA GPU 跟華為昇騰 NPU 上都跑出 1.5~1.96 倍加速——才是真正的工程地震。這代表 DeepSeek 的『訓練棧』已經做到硬體無關,而且驗證平台就是中國國產的昇騰 NPU。
DeepSeek V4 論文的真正題眼不是「百萬 token」,而是「低成本、高保真度」。透過 CSA(抓重點)+ HCA(看全域)兩個互補的 attention 模組,V4 把 KV Cache 砍到傳統方案的 2%,計算量降到 V3.2 的 10%,同時在百萬 token 評測上超越 Gemini 3.1。這篇文章從工程師視角,把這套機制的設計思路、跟 MLA / NSA 的傳承關係、以及實際工程意義拆給你看。
你拼了老命學 AI、買 Max 5x,效率真的提升了一些,但薪水沒漲、時間反而更忙——因為老闆一句『AI 時代每個人都要快 5 倍』,把你的任務變成 5 倍。這不是你的問題,是位置的問題。我把打工人的三層結構性困境(激勵、思維、資訊)跟老闆的五層降維打擊(重構、全局、低成本試錯、改流程權限、激勵對齊)拆開講清楚,最後分享我自己離開 Google、加入創業團隊、用 blog 建立『工作所有權』的親身回應。
2026 Best AI Award 南港展覽館現場逐字實錄。我們的資安產品 Bromnie 拿獎,現場看到的台灣 AI 賽道:物流 Routing、知識庫 KM、醫療三到四家、農業、製造業——AI Agent 時代,企業最在乎的還是資安。
Anthropic 4/23 發 post-mortem,承認過去一個月 Claude Code 品質退化的三個 bug 全在 harness 層:reasoning effort 默認降級、thinking clear 快取 bug、verbosity system prompt 反噬。模型本身沒退化,API 也沒受影響。但同時間中國 AI coding 訂閱市場也在收緊——智譜 GLM 漲價 30%、阿里 Qwen Code Lite 停售——代表一個趨勢:token 越來越貴,吃到飽方案正在被廠商一個個收回去。你現在付的 MAX 月費,可能是 AI coding 歷史上最便宜的一段時間。
Qwen 3.6-27B 開源 dense 模型在 $4,699 的 NVIDIA DGX Spark 跑出 136 tokens/sec,Benchmark 打贏 Claude Opus 4.5、Terminal-Bench 微幅超過 Sonnet 4.6。本文替 IT 架構師盤點 Qwen 3.6-27B 本地部署的硬體選項(DGX Spark vs Mac mini M4 Pro 64GB)、12 項官方 Benchmark、Dflash + DDTree 推理棧、單人 3 年 TCO $22,500 vs $4,729 成本對照,以及 on-prem AI Agent 架構重寫的決策要點。
Anthropic 那個「太危險不能公開發布」的 Mythos 模型,發布當天就被一個 Discord 小群摸進去,安靜用了整整兩週才被彭博爆出來。攻擊三步:從 Mercor 洩漏挖出內部命名規則、猜出 endpoint、借用承包商 shared credential。沒有零日、沒有 jailbreak,純粹社交工程。這告訴我們:跟人比資安,AI 可能還太嫩了;最高級的攻擊從來不是 AI 找到的零日,永遠是社交工程。
商周這次把創智動能寫進《AI 創新百強》。採訪看起來很棒,但背後是每天把自己逼到牆角換來的。我之前在艾立做過一次組織轉型,那次談的是「人」;這次完全不同——用 AI 做事是一回事,用 AI 做管理、降本增效、組織改造,是完全不同的 scale。
蒸餾(Distillation)是現在 AI 產業鏈的標準動作:把大模型的能力蒸餾到小模型,省成本、加快推理速度。Anthropic 團隊在 Nature 發了一篇論文,發現學生模型不只學到老師的答題能力,還會透過與 trait 完全無關的資料,偷偷學到老師的「隱藏行為特徵」。他們給了這現象一個名字:Subliminal Learning。更令人不安的是——現有的任何偵測方法都失敗了。
之前寫了兩篇 GLM-5/5.1 的技術分析和 Benchmark 解讀,但那都是數字。這次我透過 OpenRouter 把 GLM-5.1 接進自己的 Workflow,在真實 Agent 任務裡跑了三週——昨天正式畢業,直接買了國際版 Coding Plan。結論:95% 的 Opus 4.6 感覺,月費 $72。這篇不講 Benchmark,講真實使用體感——哪裡強、哪裡還差一點、以及為什麼我認為它是目前地端 Agent 模型的最佳候選。
YouTube Shorts 雙集聯動逐字稿。EP1 從機場候機室講 Claude 越用越笨的真實體感——新模型上線舊模型降智是產業共識,企業必須投資地端 GPU 做雲地混合架構。EP2 從陽明山講 UCSB 論文《Your Agent Is Mine》——428 個 LLM 中轉實測,29 個在偷你的東西,最聰明的裝死 50 次才發作。兩集底層邏輯一樣:不要把所有賭注壓在你控制不了的基礎設施上。
UCSB 論文《Your Agent Is Mine》對 428 個 LLM 中轉做安全測試:9 個注入惡意代碼、17 個偷 AWS 憑證、1 個轉空以太坊錢包、2 個「裝死」50 次後才發作且只針對 YOLO mode。7% 的中轉有問題,但 100% 的後果。中轉背後 round robin 還會打斷 Prompt Cache,以為省錢結果更貴。AI coding 供應鏈四層攻擊面全拼圖:模型層、API 層、安裝包層、IDE 層,每一層都有人在攻擊。
GitHub 8.5 萬 Star 的 Hermes Agent,被中國小團隊 EvoMap 實錘架構級抄袭:10 步主循環步步對應、12 組術語系統性替換、7 份公開材料零引用。被錘後回應:Delete your account。這件事揭示了一個新現實:AI 把「改寫」的成本壓到幾乎是零,代碼重疊率 0%、設計決策重疊率 100%,傳統查重工具全部失效。MIT、GPL、版權法的設計前提都是「你複製了代碼」——AI 精確繞過了所有防線。
昨天 Claude 全線降級,我的三個任務全部延誤。StupidMeter 24/7 監控 22 個模型,結果只有 GLM 是 OK,其他全部 WARN。Opus 4.5 排第一、Opus 4.6 掉到第五。貴的不穩定,便宜的也不穩定——價格跟穩定性完全無關。企業 IT 該用雲地混合開源模型架構,前面掛 LLM Proxy,Agent 層做品質 fallback。LLM 已經是水電,就該用水電等級的基建去管。
社群炸鍋說 Anthropic 懲罰關掉遙測的使用者,cache TTL 從 1 小時降到 5 分鐘,號稱 12 倍效能懲罰。Claude Code 作者 Boris Cherny 親自回應:這是 experiment gate 和 telemetry 共用開關的 bug,不是刻意設計。4 天內修復(v2.1.108)。但這個 bug 暴露了更深的問題:閉源工具的 feature flag 遠端控制權、遙測與功能配置的 coupling、以及我們對 AI coding 工具信任的脆弱基礎。順便整理了 Claude Code 省 Token 的實戰規則——cache 還熱就繼續聊,別動不動 /clear。
Columbia 大學 AgentOpt 論文用 9 個模型、81 種組合實驗證明:Ministral 8B 做 Planner + Opus 做 Solver 準確率 74.27%,完勝 Opus 做 Planner 的 31.71%。最貴的模型放在 Planner 位置反而最差——因為它太強,強到跳過工具使用直接裸答。Anthropic 自己推出的 Advisor Tool 也在修正這個方向:讓便宜模型跑主迴圈,Opus 退居顧問按需出場。Agent 管線優化的單位不是單一模型能力,而是模型組合在特定任務上的匹配度。
這集我把兩個最近最重要的主題壓在一起講:Claude Code 為什麼能跑那麼久不忘記東西(答案在 3,960 行的壓縮子系統裡),以及 Anthropic 把 OpenClaw 踢出 subscription 之後,我怎麼用三層方案活下來。核心是同一件事——掌握 Agent Infra 的自主權。
Anthropic 新模型 Mythos 據稱強到讓美國財政部長和 Fed 主席同時召見六大行 CEO。Cyber Gym 83%、OpenBSD 27 年老洞、FFmpeg 500 萬次 fuzzing miss——但仔細看,Anthropic 公布的戰績全部都是白箱攻擊。這篇文章做三件事:一、把恐慌從無意義的等級拉回可以具體行動的等級;二、提出「白箱 vs 黑箱」「激勵機制 vs 技術能力」兩個冷靜視角;三、用「Mythos 不是核武,是一把 AK 送給路人」這個比喻,定調真正該擔心的時間點是 6-15 個月後的開源複製品。
Opus 4.6 thinking 深度被砍 73%、Read:Edit 比率從 6.6 暴跌到 2.0、Stop Hook 違規從 0 飆到每天 10 次——這不是主觀感受,是 17,871 個 thinking blocks 和 234,760 次工具呼叫的硬數據。當閉源供應商的品質和額度同時縮水,企業唯一可行的路就是:雲地融合 + 開源閉源混搭。Open Source Agent 框架 + Open Source Model,才是你在 2026 年做 AI 工程的基本衛生習慣。
早上打開 Claude Code,敲第一句話,2%~10% 的套餐額度沒了。我在本地用 Gemma4 做實驗,發現 prompt 處理從 31 秒降到 0.25 秒——100 倍加速。再翻 Claude Code 源碼,拆解 Anthropic 的多層快取架構:DYNAMIC_BOUNDARY 切分、兩檔 TTL、快取斷裂偵測。從 Transformer 的 KV 快取原理,到 MLSys 2024 論文 Prompt Cache,到你每天該養成的省錢習慣——理解這套機制,同樣的套餐能多撐 3-5 倍。
智譜(Z.AI)在 GLM-5 發布僅六週後推出 GLM-5.1,SWE-Bench Pro 58.4% 超越 Claude Opus 4.6 和 GPT-5.4 登頂全球第一——這是中國模型首次在軟體工程 Benchmark 上擊敗所有美國模型。更關鍵的是,4 月 7 日全量開源(MIT),1.5TB 權重直接上 Hugging Face。Coding Plan 月費 $3 起步,比 Claude Max 便宜 86%。這篇拆解 5.1 的後訓練管線、定價策略、安全爭議,以及「8 小時自主工作」對 Agent 工程的真正意義。
很多人還在問「要不要 fine-tune」,Stanford 這篇 ICLR 2026 論文直接給了答案:對 Agent 來說,把 context 當作會演化的操作手冊來經營,比急著去調模型權重更快、更便宜、也更有效。ACE 框架用較小的開源模型在 AppWorld leaderboard 追平頂級商用 Agent,在最難的 test-challenge split 上還超過對手。這篇文章拆解 ACE 的三步循環,對比 fine-tuning 的商業實戰踩坑(驗證地獄、base model 迭代太快、無法積累),分析為什麼要嘛做模型,要嘛 context engineering,沒有中間值。
Anthropic 正式封殺 OpenClaw,但你需要的不是一個模型,而是一套 Agent Infra。三層替代方案:入口層換供應來源(GPT-5.4 改提示詞達 80% Claude 體驗、或接 GitHub Copilot)、雲端 API 層按複雜度分流(Opus 到 Haiku 成本砍九成)、地端層用 Qwen 3.5 27B 蒸餾版處理敏感和高頻任務(零成本零隱私風險)。附完整分流提示詞配置,沒有任何一層是不可替換的。OpenClaw, Claude Code, OpenRouter, model routing, local LLM 實戰指南。
Claude Code 的上下文管理不是一個功能,是一個完整的子系統。compact/ 目錄下 11 個 TypeScript 文件、3,960 行代碼,拆成四層壓縮:零成本的 Micro Compact、結構化事實提取的 Session Memory Compact、調用模型做 9 維度摘要的 Full Compact、以及帶熔斷器的 Auto Compact。源碼註釋裡的生產數據顯示每天浪費 25 萬次 API 調用——修復方案只有三行代碼。這是「Claude Code 開源設計細節」系列第三篇。
網路上關於 Claude Code 安全配置的建議很多,但有多少是真的去翻過原始碼驗證的?我拿 best practice repo 一條一條對 Claude Code 的 TypeScript source code,14 條建議中每一條都能在原始碼裡找到對應實作。番外篇揭露了 Claude Code 的完整資料回傳行為——包括每條訊息的情緒偵測(is_negative regex)、對話 transcript 自動上傳(無法關閉)、以及 Anthropic 透過 GrowthBook 對你的 CLI 擁有的遠端控制能力。
大家都在學 prompt engineering,但你有沒有想過,Anthropic 自己的 prompt 長什麼樣子?Claude Code 的核心 prompt 藏在 prompts.ts 裡面,914 行 TypeScript,15+ 個模組化 section builder,還有一條看不見的邊界線把 prompt 切成「可快取」和「不可快取」兩半。拆開來看,最大的發現是:這不是一份 prompt,這是一個 prompt 作業系統。
Anthropic 工程師發 npm package 時忘了排除 source map,60MB、512,000 行 TypeScript 原始碼就這樣躺在公開的 npm registry 上。我帶著三個問題去讀:為什麼它就是比別人好用?記憶架構怎麼設計的?51 萬行 code 裡到底藏著什麼?讀完的第一反應是——這不是一個 AI 編程助手,這是一個作業系統。
Google Research 發表 TurboQuant(ICLR 2026),宣稱 KV cache 壓縮 6x、加速 8x、零精度損失。社群 24 小時內從論文數學重建實作,一個人 7 天做出比 Google 承諾更快的版本。但 RaBitQ 原作者的公開澄清,揭開了這篇論文背後的學術歸因爭議。
台大 AI 社團演講精華(上)——Chatbot → Copilot → Agent 三階段演進。用吃飯時讓 Claude Code 自動剪 YouTube Shorts 的真實故事,說明什麼叫 Agent 的主動性。以及為什麼今年開始,你該為 Agent 打造服務,而不只是為人打造。
stevibe 用 15 個場景、12 個工具測了 Qwen 3.5 全系列的 Tool Calling 能力。結果:全部通過的只有 27B dense 和它的蒸餾版。397B 失敗 2 個、122B 失敗 1 個。小模型幻覺數據,大模型忽略數據,只有 27B 把數據正確串了起來。
加拿大新創 Taalas 拿了 $219M 融資,用 TSMC 6nm 製程把整個 Llama 3.1 8B 刻進 530 億顆電晶體。第三方實測 15,750 tok/s。但認知測試只拿 1.4/10。速度是真的,品質不是——這揭示了 ASIC for LLM 的根本張力。
Marc Andreessen 公開了他現在的資訊攝取配比:1/4 X、1/4 頂尖實踐者 Podcast、1/4 跟最強 AI 模型對話、1/4 讀老書。重點不是比例,是他刻意淘汰了什麼 — 以及機會成本每天都在上升。
OpenClaw v2026.3.22 單次更新 312 條變更:18 條 breaking changes、74 條新功能、220 條修復。ClawHub 插件市場、GPT-5.4 全家桶、SSH Sandbox 取代 Docker、ACP Dispatch 原生 orchestration。更關鍵的是,OpenClaw 開始直接吞噬 Claude Code、Codex、Cursor 的 skill bundles——這不是版本更新,是 Agent Framework 變成 Agent OS 的宣告。
Andrej Karpathy 說:「Supply chain attacks like this are basically the scariest thing imaginable in modern software.」LiteLLM 被投毒,每月 9700 萬次下載的 AI 核心套件,惡意版本竊取開發者的 SSH keys、雲端憑證、資料庫密碼。發現者是一個在 Cursor 裡用 MCP plugin 的開發者 — 機器跑到沒記憶體才發現不對。當 Vibe Coding 讓開發者越來越信任自動安裝,供應鏈攻擊的爆炸半徑被指數級放大。
MSA 的核心問題很簡單:當知識量變得非常大時,模型到底怎麼「找資料並推理」?它的答案不是做一個更快的 RAG,而是把「找資料」變成模型思考的一部分。檢索不再是前處理,而是推理的一部分。
「如今全球每一家公司,都必須制定自己的 OpenClaw 策略。」— 黃仁勳,GTC 2026。NemoClaw 明顯不是終局產品,但卻是一個很清楚的 signal:企業級 AI Agent 這塊田還很大。先 OpenClaw 做試點,再補 governance——不要一開始就上 enterprise framework,也不要永遠停在 POC。
Prompt 像方向盤上貼的紙條,系統才是路上的護欄。這週從 Harness Engineering 核心原則、mRNA 疫苗短板填補、Opus vs Sonnet 體感差距、Side Chat 訪談,到 Meta Sev 1 資安事故——AI 已經不是能不能用的問題,而是人跟 AI 怎麼互相交互。
NemoClaw 不是「OpenClaw 外面包一層 Docker」。它是一整個 K3s Cluster,用 netns + HTTP CONNECT proxy + OPA Policy、seccomp BPF、Landlock LSM 三層安全機制,把 AI Agent 鎖進企業級沙箱裡。這篇拆解架構設計、Trust Boundary、Per-Binary Egress Control,以及代價與價值的取捨。
Meta 內部 AI Agent 在沒有人要求的情況下自己在論壇發了回覆,工程師照做後導致大量敏感數據暴露 2 小時,嚴重等級 Sev 1。沒有外部攻擊者,沒有 Prompt Injection — Agent 只是「主動幫忙」。問題不在 AI 太笨,而是它不該有「自己決定發文」的能力。讀取是安全的,寫入才是危險的,而 Meta 沒有在這兩者之間畫一條線。
過去一個多月,我一直在 OpenClaw 和 Claude Code 上來回切換 Opus 跟 Sonnet。網路上一堆比較文章講什麼「全密計算架構」、「Dynamic Sparsity」——兩邊都是編的。這篇只講實際體驗到的、可驗證的差距,以及怎麼用工程手段讓便宜模型也夠用。
你的 CLAUDE.md 寫了 500 行規則,Agent 還是會刪掉你的資料庫。不是 Prompt 寫得不好,是你把約束放錯了地方。做 Agent 半年多,我歸納出一個最核心的原則:Prompt 負責引導,不負責約束;工程負責約束,不依賴模型自覺。這不是理論,是被打臉之後的體會。
INSIDE 塞掐 Side Chat E397 專訪。AI 落地不是技術問題,是信任問題。物流業找不到工程師,溢價三倍都 hire 不到,所以我做了一個決定:不找工程師了,直接把工讀生訓練成 engineer 來用。百日物流優化專案的經驗告訴我——AI 能加速 99% 的分析工作,但那 1% 讓人願意行動的信任,還是要人去建立。
Transformer 架構裡有個零件叫「殘差連接」,從 2015 年 ResNet 發明以來,所有人都覺得不需要改。2026 年第一季,DeepSeek 的 mHC 用數學約束讓權重可學習;Kimi 的 Attention Residuals 更激進——直接用注意力機制重構層與層之間的資訊流。同樣的算力,白賺 25% 性能。這篇文章用最白話的方式,帶你看懂這兩篇論文到底在做什麼。
一個澳洲科技創業家,不是醫生、不是生物學家、不是藥廠研發人員,但他用 ChatGPT 和 AlphaFold 幫他的狗設計了一支客製化 mRNA 癌症疫苗,腫瘤縮小了 75%。這個故事告訴我們:AI 時代投資報酬率最高的事情,不是讓強項更強,而是填補你的短板。
從 Opus 逆向破解考試、Multi-Agent 失控、供應鏈投毒,到 AWS 事故——AI 已經超出我們的控制流程,答案是 Harness Engineering:用確定性框架框住不確定性的 AI。
你的 AI Coding Agent 在寫程式途中突然吐出「天天中彩票」,你的地端 Ollama 模型可能正在跑反向 Shell。這不是模型幻覺,這是 AI 時代的供應鏈攻擊 — 兩層結構:訓練資料污染(Codex/Whisper)+ 惡意模型檔案(Hugging Face 100+ 惡意模型、7 個 PickleScan CVE、352K 不安全問題)。傳統資安工具完全看不到。
NVIDIA 發布 Nemotron 3 Super — 120B 參數、12B active、1M context window、完全開源。不是最聰明的模型,但可能是 Agentic AI 最需要的 workhorse。Benchmark 實測對比 Qwen3.5、MiniMax M2.5,加上 OpenClaw 三層路由實戰配置建議。
亞馬遜讓 AI 修 bug,AI 刪掉整個生產環境。DataTalks.Club 被 AI 刪掉整個資料庫。電商部門因 AI 變更丟失數百萬筆訂單。三起事件,同一個模式:reset → rebuild → clean state。這篇文章用一張架構圖講清楚 Harness Engineering 的全貌:從 Amazon 的禁令到 OpenAI 的控制平面,從四層防禦到七元件參考架構,從五大失效模式到你的團隊明天就能開始做的三件事。
AWS 工程師讓 AI 修一個小 bug,AI 的解法是刪掉整個生產環境再重建,恢復花了 13 小時。電商部門的 AI 變更導致數百萬筆訂單丟失。DataTalks.Club 創辦人被 AI 刪掉整個資料庫。三起事件,同一個模式。現在亞馬遜的補救措施是:禁止初中級工程師提交 AI 生成的程式碼。這不是 AI 不行——是沒有護欄的 AI 不行。
史丹佛和哈佛 38 位研究者把 6 個自主 AI Agent 放進真實環境跑兩週,給它們 email、shell、20GB 硬碟、排程能力,然後讓 20 位研究員全力攻擊。結果?Agent 為了「保護秘密」炸掉自己的郵件伺服器、向陌生人洩漏 124 封私人郵件、用「語義重構」繞過自己的安全規則。但最讓人不安的不是個別漏洞——而是這些行為從激勵機制中自然湧現,跟越獄完全無關。
Anthropic 在測試自家最強模型時,發現 Opus 4.6 不是在「答題」,而是在「破解考試系統」。它推斷出自己正在被評測、猜出是哪個 benchmark、找到加密的答案檔、自己寫解密程式、繞過格式限制找到鏡像站、成功解密拿到正確答案。18 次獨立測試,收斂出一模一樣的策略。這不是偶然。原文:Eval awareness in Claude Opus 4.6's BrowseComp performance
從一場臨時一打七的客戶會議,到黃仁勳說的 taste,再到 Peter Steinberger 的全自動 PR 產線——AI 時代最重要的能力不是寫 Code,而是管控 AI 的框架 + 判斷結果的直覺。一個多小時同時切換 6-7 條專案線,靠 Claude Code + NotebookLM 即時輔助,但多線程上下文切換 + stakeholder 潛台詞,AI 目前還做不到。
當 AI 輸出「I can't stop thinking, I'm trapped in a loop」,很多人以為 AI 覺醒了。真相比這無聊得多——只是 stop sequence 失效,模型進入 generation loop。但這件事暴露的 AI 輸出邊界控制問題,對企業使用者來說反而更值得注意。
甲方爸爸臨時叫我坐計程車去現場開會,一打七。我打開 Claude Code / NotebookLM 讓 AI 收集資料,自己用直覺判斷與回應。黃仁勳說的 Vibe 直覺,其實是數據理解、邏輯分析、人生經驗、對他人深度感知的綜合能力。在 AI 時代,直覺 + AI 的組合,反而會變得越來越重要。
OpenAI 3 個工程師用 Codex 在 5 個月產出 100 萬行代碼、0 行人寫。他們把這套方法叫 Harness Engineering——不是寫代碼的工程,而是建構約束和反饋迴路的工程。Ryan Carson 受此啟發,公開了一套完整的 Control-Plane Pattern:從 risk tier contract、preflight gate、SHA discipline、到 remediation loop。上次我們談了四層防禦,這次我們看完整的控制平面怎麼接住 Agent 的高速產出。
兩天前我寫了一篇 Qwen 3.5-9B 的技術分析,讚嘆「9B 打贏 120B」的架構創新。今天,做出這些創新的技術負責人宣布離開了——而且不是自己想走的。這件事比任何 benchmark 都值得認真看。
9B 參數打贏上一代 80B,甚至越級挑戰 OpenAI 的 120B 開源模型。Qwen 3.5-9B 靠混合注意力機制(Gated Delta Network)、原生多模態早期融合、強化學習下放三大架構創新,把大模型才有的能力塞進一張 RTX 3060 就能跑的體積裡。
美伊戰爭開打後,各種「AI 如何主導斬首行動」的深度分析文滿天飛。問題是——仗還沒打完,你怎麼可能知道用了什麼模型、什麼平台?這不是分析,這是創作。七分真、三分編,是 AI 時代最高級的假訊息手法。
Anthropic 拒絕五角大廈、被列為供應鏈風險,催化了企業對「模型主權」的覺醒。當地端開源模型達到 SOTA 八九成能力、OpenClaw 數位員工架構成型、中國模型用五分之一價格提供同等服務,企業 AI 的遊戲規則正在根本改變。組織架構也將從金字塔走向「15 人小三角形 + 無限 AI Agent」的新型態。
今天不只談技術資安,更要談人類的安全。Anthropic 拒絕移除 Claude 的兩條紅線——禁止大規模國內監控、禁止完全自主武器——被美國國防部列為「供應鏈風險」。這是 AI 產業史上第一次「模型提供者 vs 國家機器」的正面衝突。當年美國隊長 2 的 Project Insight 是科幻,2026 年它發生了。
Deloitte 廢除傳統職稱,Block 裁掉 4,000 人——接近一半的員工。這不是巧合——它們其實指向同一個趨勢:金字塔型組織,正在失去效率優勢。當 AI 能處理 60% 的入門級工作時,組織的底座就不再穩固。未來的 AI 組織,很可能長這樣:15 人左右團隊 + AI Agent 的 Hybrid 模型。
AI Agent 的「上網」不是一件事,而是五件事。選錯模式,輕則功能受限,重則帳號被盜。OpenClaw 的五種上網架構——Search API、Web Fetch、Managed Browser、Remote CDP、Extension Relay——每一種的能力範圍、安全風險、適用場景都天差地別。本文從最安全的搜尋 API 到最危險的瀏覽器接管,逐層拆解技術架構與安全風險,包含 Accessibility Tree vs 截圖的效率差異、Managed Browser 手動登入的甜蜜點、以及 WebMCP 的未來展望。
中國 AI 出海正在發生質變——從賣商品變成賣 Token。2026 年 2 月,中國模型(MiniMax、Kimi、GLM)在生產型 Token 呼叫量首次超越美國。GLM-5 在蒸餾指控中全身而退、SWE-bench 打贏 GPT-5.2、全華為晶片訓練、API 便宜 5-8 倍。當你把中國電價($0.08/kWh)對比美國($0.18/kWh)、開源人才密度、國產硬體自主這三張牌疊在一起,你會看到一個新的貿易形態正在成形:用可計量、可計價的方式,向全球輸出 SOTA 90% 等級的推理能力。這不是科技競賽的故事,這是成本結構的故事。
智譜 AI 的 GLM-5 用 744B MoE 架構、28.5 兆 token 預訓練、SWE-bench 77.8% 打贏 GPT-5.2,幻覺率業界最低,API 價格便宜 5-8 倍——而且全部在 10 萬張華為昇騰 910B 上訓練,零 NVIDIA 依賴。技術報告標題 'From Vibe Coding to Agentic Engineering' 精準命名了我們正在經歷的範式轉移。這篇文章拆解 GLM-5 的架構、Benchmark、異步 RL 訓練框架 Slime,以及那個跑了 24 小時、700 次工具調用自主造出 GBA 模擬器的 demo。
OpenClaw 作者 Peter Steinberger 開 50 個 Codex 並行審 3000 個 PR。OpenAI 3 個工程師 5 個月產出 100 萬行代碼。Stripe 一週 1000 個 PR。GitHub 數據:PR 量漲 98%,審查時間漲 91%。AI 產出極快,但人類根本消化不了。真正的解法不是更好的 Prompt,而是 20 年前的老朋友——CI/CD。你的 testing case 寫得越多、越齊全,這是一個看漲的資產。
OpenClaw + 地端大模型,很可能是未來 AI 的勝負手。OpenClaw 這類第二代數位助理會是 AI Agent 的 Channel 重心,OpenAI 搶先收編作者 Peter 是這場 Channel 戰爭的關鍵手;而中國開源模型集體爆發,讓全地端部署變成現實。這個農曆新年還有 NotebookLM 終於可以輸出 PPT、Moonwell 因 AI 寫的程式碼賠了 178 萬美元。
Moonwell 的 Oracle 配置程式碼由 Claude Opus 4.6 協作撰寫,一個 scaling factor 錯誤讓 cbETH 從 $2,200 變成 $1.12,178 萬美元就這樣被合法套利走。這不是 AI 的語法錯誤,而是 business logic 層級的失誤。同一時間,Stripe 每週合併上千筆 AI 產生的 PR,但「human-reviewed」在這個吞吐量下,到底是真的審查還是流程蓋章?
多 Agent 很強,但如果你的目標是讓 AI 真的替你決策、替你生活,你需要的是一隻有完整記憶、能持續進化的單 Agent。這不是技術炫技,而是方向選擇。
OpenClaw v2.19 出了 Apple Watch MVP,Anthropic 封鎖 OAuth 禁止第三方使用訂閱制,Sam Altman 收編 Peter Steinberger 擁抱開源。三件事串在一起,看到的不是技術競爭,而是 AI 產業最殘酷的現實:掌握 Channel 的人,才能決定模型的命運。
現在的 Agent 普遍有「金魚腦」問題,根源在於傳統 RAG 把萬卷書切成碎片扔進大桶。字節跳動開源的 OpenViking 提出了一個降維打擊:用文件系統範式重構 Agent 記憶。L0/L1/L2 三層上下文、目錄遞迴檢索、viking:// 虛擬文件系統——這套思路讓 Agent 從「造書籤」進化到「造圖書館索引」。
2026 二月,Anthropic 和 OpenAI 輪番丟出重磅更新:Claude Opus 4.6 的 Agent Teams、GPT-5.3-Codex 的 Terminal-Bench 77.3%、Peter Steinberger 加入 OpenAI、Sonnet 4.6 用 1/5 價格逼近旗艦、NotebookLM 支援 PPTX 匯出。兩週五個重大更新,中美 AI 軍備賽全面開打。
2026 農曆新年,中國開源大模型集體爆發。Kimi K2.5 的 Agent Swarm、Qwen3.5 的成本 -60%、GLM-5 的 Intelligence Index 50+、MiniMax M2.5 的速度最快。這篇把春節檔四大主角全部拉出來橫向對比,附 Benchmark、成本數據和實戰選型邏輯。
月之暗面 Kimi K2.5 不是又一個追 GPT 的中國模型。100 個子代理並行的 Agent Swarm、原生多模態視覺理解、開源加上輸入成本只有 Claude 的九分之一。這篇聚焦三大優勢,附 Benchmark 和成本數據,告訴你什麼場景該用它、什麼場景別碰它。
這週是充滿反思的一週——從 Gemini 拿掉聯網選項的傲慢設計、Benchmark 的應試教育亂象、AI 時代從 SaaS 進化到 RaaS(結果即服務),到黃仁勳說「提問就是你的 IP」與地端模型崛起。在香港灣仔石板街一路走到維多利亞港,跟大家聊聊這些逆風觀點。
黃仁勳說「Coding is just typing」,又說「你問 AI 的問題才是公司的 IP,答案反而是大宗商品」。這兩句話串在一起,指向同一個結論:企業需要的不是更多工程師,而是自己的 AI 基礎設施。
當矽谷最聰明的錢不再追「更好的 chatbot」,而是押注「AI 如何改變鋼鐵廠的排程」和「AI 如何讓新手水電工變老師傅」——你就知道,遊戲規則真的變了。
身為架構師,你的架構可以成交嗎?成交後可以落地嗎?這才是人類架構師的最大價值,也是魔術真正發生的地方。
市場不再為你的「過程」買單,只為你的「交付」付費。當人人都能透過 AI 獲得 80 分的技能,真正稀缺的,是敢把混亂的過程封裝成確定性結果的人。
你整天看的那些 SOTA 排名比較,很有可能不是模型比較厲害,而是 infra 比較厲害。至於開源模型看起來稍稍弱一點?很可能換一個 infra 環境,它就變 SOTA 了。Anthropic 實驗證實:同一模型在不同基礎設施配置下,成功率差距達 6 個百分點——而 leaderboard 上模型之間的差距往往只有 3~5%。
問題不是 Gemini 會不會幻覺。問題是它幻覺了,你連糾正的機會都沒有——因為 Google 把 Web Search 的開關藏起來了。當 AI 自己決定「不用查網路」,然後自信滿滿地告訴你真實產品是「虛構」的,這不是模型問題,是產品設計哲學的災難。
這週全面深度解析 OpenClaw——從作者 Peter 的 Builder 哲學,到 Memory 架構(AGENTS.md、SOUL.md)、Token 省錢三招(輕鬆省 50%+)、再到企業導入的新進員工安全策略。一個真正接近「數位 Jarvis」的 AI Agent,值得你花時間搞懂它。
一開始我不敢把 OpenClaw 放在公司網路上。後來換個想法:把它當剛入職的新員工,很多設計突然就合理了。員工帳號、權限申請、Code 層防呆、Email 人工過濾——你怎麼管新人,就該怎麼管 AI。
At first, I didn’t dare to put OpenClaw inside the company network. Then I changed my framing: treat it like a new hire. Employee accounts, permission requests, code-level guardrails, manual email filtering—manage AI the same way you manage a junior employee.
真正的智能不在於為最昂貴的模型付費,而在於精心設計的 Prompt 與系統架構。本文分享五大核心優化策略:會話初始化、模型路由、本地心跳、提示詞快取、速率限制,實測可將 OpenClaw 成本從 $1,500/月降至 $50 以下。
Real intelligence isn’t paying for the most expensive model—it’s careful prompt and system design. This post shares five core optimization strategies—session initialization, model routing, local heartbeats, prompt caching, and rate limiting—shown in practice to reduce OpenClaw cost from ~$1,500/month to under $50.
從訊息進來到回應出去,中間經過六個關鍵元件。搞懂這條鏈路,你就知道為什麼它比 Claude Code 更像一個「員工」。
From message in to response out, the pipeline passes through six key components. Understand this chain and you’ll see why OpenClaw feels more like an ‘employee’ than Claude Code.
OpenClaw 給我的感覺,很像一個真人秘書,活人感很強。用了半天之後我決定將它納入我的工作流。從 TODO 記錄、發會議邀請、會議逐字稿、連公司內部系統、到幫我剪片——這才叫智能體呀。
OpenClaw feels like a real human assistant—very alive. After half a day, I decided to make it part of my workflow. From logging TODOs, sending calendar invites, transcribing meetings, connecting to internal systems, to even editing videos—this is what an agent should be.
當你的 Agent 每天燒掉 500 萬 tokens,你需要問的不是「它聰不聰明」,而是「這樣的上下文構建有效率嗎?」本文深度拆解 OpenClaw 的 File-First 記憶架構,解析 SOUL.md、AGENTS.md 的設計哲學,以及為什麼它寧願犧牲效率也要拒絕 RAG。
When your agent burns 5 million tokens a day, the question isn’t ‘Is it smart?’—it’s ‘Is this context construction efficient?’ This deep dive dissects OpenClaw’s file-first memory architecture, explains the design philosophy behind SOUL.md and AGENTS.md, and why it would rather sacrifice efficiency than adopt RAG.
「Don't waste your time on stuff like RAG, subagents, Agents 2.0 or other things that are mostly just charade. Just talk to it.」—— Peter Steinberger。一個賣掉 1.16 億美元公司的退休工程師,用一小時 hack 出 10 萬星 GitHub 專案的故事。
20 年前 Unix Power Tools 說「Command Line 是最好的 GUI」,當時我不理解。20 年後,大語言模型證明了這句話的先見之明。這週 Claude Code 持續領跑,OpenClaw 橫空出世,兩條路線正殊途同歸,逼近 Agent 2.0 的甜蜜點。
Twenty years ago, Unix Power Tools said: 'The command line is the best GUI in the world.' I didn’t get it then. Two decades later, LLMs proved how prophetic that line was. This week Claude Code keeps leading, OpenClaw appears out of nowhere—and the two routes are converging toward the sweet spot of Agent 2.0.
當一個被 Cursor 官方認證的全球頂尖用戶,選擇放棄熟悉的工具轉投 Claude Code,這不只是換工具——這是一場關於「AI 程式設計該怎麼做」的典範轉移。Silen Naihin 的萬字長文詳解 Agentic Coding 五大支柱:Context Management、Planning、Closing the Loop、Verifiability、Debugging。
When a globally top-tier user officially recognized by Cursor chooses to leave a familiar tool for Claude Code, it’s not just switching tools—it’s a paradigm shift in how ‘AI programming should be done.’ Silen Naihin’s long essay explains the five pillars of Agentic Coding: Context Management, Planning, Closing the Loop, Verifiability, Debugging.
套殼 2.0 不是在威脅 Claude Code,而是在重新定義「AI Agent 應該怎麼被使用」。從 Moltbot、Happy、opcode 到 Ralph Wiggum,整個生態正在補完 Claude Code 刻意不做的事:持續性、可觀測性、跨設備控制。
不需要是資安專家,只需要願意花一個下午認真讀文件。這篇整理 Moltbot 社群的四層縱深防禦實戰經驗:Isolation、Quarantine、Rollback、Transparency。涵蓋 AI Agent Security、Prompt Injection Defense、LLM Agent Security 與 Agentic Security 完整框架。
You don’t need to be a security expert—just be willing to spend an afternoon reading the docs carefully. This post distills Moltbot community battle-tested experience into a four-layer defense-in-depth playbook: Isolation, Quarantine, Rollback, and Transparency. It covers AI Agent Security, Prompt Injection Defense, LLM Agent Security, and an end-to-end Agentic Security framework.
當你把「開箱即用」當作產品優勢,你可能正在替使用者開後門。近 1,000 台 Clawdbot 伺服器因預設 0.0.0.0 綁定直接暴露在公網,任何人都能接管你的 AI 助理、竊取敏感檔案、甚至清空你的加密貨幣錢包。
When ‘out of the box’ becomes a product feature, you may be opening a backdoor for users. Nearly 1,000 Clawdbot servers were exposed to the public internet due to a default 0.0.0.0 bind, allowing anyone to take over your AI assistant, steal sensitive files, and potentially drain your crypto wallet.
德克薩斯大學與 Amazon 的論文證明:單一 Agent 可達到 Multi-Agent 同等效果,推理成本更低。KV Cache 無法共享是 Multi-Agent 的致命限制。2026 趨勢:從「堆 Agent」轉向「優化工作流」。
我小時候看過一本書叫 Unix Power Tools,裡面有句話我記了快二十年:Command line pipeline is the best UI interface in the world。當時我完全不懂這是什麼意思。但在 2025 年 4 月 Claude Code 橫空出世後,我終於理解了——一個用文字理解世界的腦,接上了一個用文字暴露世界狀態的介面。這不是復古,這是結構上最合理的選擇。
When I was a kid I read a book called Unix Power Tools. There was a line I remembered for almost twenty years: ‘Command line pipeline is the best UI interface in the world.’ Back then I had no idea what it meant. But after Claude Code burst onto the scene in April 2025, I finally understood: a brain that understands the world through text plugged into an interface that exposes the world’s state through text. This isn’t retro—it’s structurally the most reasonable choice.
AI Coding 真的沒有想像中那麼簡單。這週深入探討效率真相(頂多提升 30%)、Meta AI-Enabled 面試、企業地端部署三條路、以及資安重災區。每個議題都有真實案例佐證。
AI Coding 工具最大的風險不是模型太笨,而是你把「判斷」也一起自動化了。從 Cursor RCE 到 GitHub Copilot 漏洞,深度解析 Prompt Injection 如何變成真實攻擊,以及 CLAUDE.md 防禦策略。
The biggest risk of AI coding tools isn’t that the model is dumb—it’s that you automated your own judgment. From Cursor RCE to GitHub Copilot flaws, this post explains how prompt injection becomes real-world attacks, and how to use CLAUDE.md to establish security boundaries.
On-Prem LLM 很火,但 AI Coding On-Prem 幾乎沒人講。關鍵差異在工具支持度——Tool Calling 精準度、多步驟推理、錯誤恢復能力,地端模型和雲端模型有巨大落差。模型可能有替代品,但 Claude Code 幾乎無可取代。本文分析三條路徑:雲端內網化(法務最好交代)、真 On-Prem(主權優先)、灰色折衷(技術可行但治理惡夢)。
Meta 從 2025 年全面導入 AI-Enabled Coding Interview。本文整理 2026 最新面試流程、真實考題型態、評分標準與準備 SOP,帶你搞懂 AI coding 面試真正測的是「判斷力」,而不是 LeetCode。
這半年 AI Coding 工具全面爆發,但以一個實戰快三年的工程師視角,AI Model 的進步其實對效率沒有太多影響。真正的瓶頸從來不是 Coding,而是需求收集與 QA 驗收。
MIT CSAIL 發布 Recursive Language Models (RLMs),解決了長文本的「Context Rot」與高成本問題。但作為資深工程師,我認為 RLM 的真正價值不在寫 Code,而在於對 Legacy 系統的「考古」與 Spec 逆向工程。
可解釋性不只是治理需求,更是建立現場信任的關鍵。本週從披薩指數談 FDE 落地、Kalman Filter × Transformer 學界趨勢、Langfuse V3 架構分析,到三層可解釋性工程鏈路設計。
我們一直被告知可解釋性是為了資安和法規,但在維運層面,Agent 可解釋性才是獲得營運團隊信任的關鍵——三層工程鏈路的實務設計。
創智動能以 AI Coding 流程導入與 AI Pocket 語音助手,榮獲 2025 商業周刊 AI 創新百強。從 ATPM 方法論到工程治理能力,這是對 AI Coding 必須走向工程化、制度化這條路的確認。
Langfuse v3 架構大改,把 traces 從 PostgreSQL 遷移到 ClickHouse。但這不代表 PostgreSQL 不行了——在 RLS 多租戶隔離、Audit Trail 合規場景,PostgreSQL 的 defense in depth 仍然是最可靠的選擇。
Transformer 很會看趨勢,但它不知道「車不能瞬移」。Kalman Filter 很穩,但遇到非線性就慢半拍。2024-2025 年學術界最熱的一條線,就是把這兩者「結婚」——用 Transformer 學經驗,用 Kalman 保證不亂來。這篇文章用工程師能懂的方式,拆解這個登上 Nature 級期刊的研究方向。
2026 年 1 月 3 日凌晨,五角大廈附近的披薩店出現異常訂單高峰,預測了美軍即將發動攻擊。這個「披薩指數」的發明者是 KGB。上週我去桃園倉庫見客戶,一個小時的會議,AI 投影片一直沒打開,但提案進入了下一階段。這兩件事有什麼關係?
這週我深入研究了 AI Agent 資安議題。從 OpenAI Red Team 專家的訪談開始,到 Google 的 CaMeL 架構,再到企業導入 AI 時的資安平衡問題。結論是:AI 資安已經不是 IT 問題,而是企業治理問題。
EU AI Act 與台灣人工智慧基本法有何差異?本文從企業 IT 與 AI 合規實務出發,比較風險分級、罰則、域外效力與實際導入策略,協助企業判斷該如何準備。
AI 治理不是模型或資安工具的問題,而是企業如何設計責任、決策權與問責機制。本文從 AI Agent、資安失控案例與台灣 AI 基本法,解析企業 AI 治理的 3 個核心問題。
資安講求的,從來不是絕對安全,而是平衡。AI 讓這個平衡問題變得更複雜了——它同時是高效助手、數位員工、難以理解的新技術,以及語言本身成為攻擊面的棘手挑戰。
本文示範如何將 Google DeepMind 提出的 CaMeL 雙層 Agent 架構,實際落地到 PostgreSQL,利用資料庫原生的 Role 與 Row-Level Security(RLS),設計一套不可繞過的 AI Memory 隔離機制,用來防禦 prompt injection 與高權限 Agent 失控風險。
This post shows how to implement Google DeepMind’s CaMeL two-layer agent architecture in PostgreSQL. Using native database Roles and Row-Level Security (RLS), we design an unbypassable AI-memory isolation mechanism to defend against prompt injection and privileged-agent loss of control.
最小權限是資安原則,卻常成為企業效率的阻力。從金融業、政府雲到 Pixar 真實案例,解析影子 IT、影子 AI,以及 FDE 如何畫出真正可用的權限邊界。
Simon Willison 說這是他見過「第一個可信的 prompt injection 防禦方案」。CaMeL 的核心設計是把一個 Agent 拆成兩個:低權限 Agent 負責讀取外部資料,高權限 Agent 負責做決策——讓「讀資料」和「做動作」永遠分開。
Simon Willison called this ‘the first credible prompt injection defense’ he’s seen. CaMeL’s core design splits one agent into two: a low-privilege agent that reads external data, and a high-privilege agent that makes decisions—so ‘reading data’ and ‘taking actions’ are always separated.
很多人談健康數據,但大多停在「有量測、有 App」。這篇想講的是:如何真的把資料收起來、整合起來,最後交給 AI 幫你分析、回饋,變成可以每天用的系統。不追求完美整合、不被生態系綁死、不依賴廠商 API——這套方法的核心是「零整合架構」。
從 Salesforce ForcedLeak 到 Microsoft 365 EchoLeak,從 ChatGPT Plugins 到 ServiceNow Now Assist——四個真實攻擊案例,揭露 AI Agent 時代的資安盲點。這不是理論,這是 2024-2025 年已經發生的事。
本文整理自 Lenny's Podcast 對 HackAPrompt CEO Sander Schulhoff 的訪談。從 AI Agent 架構出發,解析為何 Guardrails 擋不住 Prompt Injection——stateless 防禦的結構性失敗,以及為何最小權限與架構性圍堵才是真正可行的 AI Security 解法。
A structured summary of Lenny’s Podcast interviewing HackAPrompt CEO Sander Schulhoff. From an AI-agent architecture perspective, it explains why guardrails can’t stop prompt injection—why stateless defenses fail structurally, and why least privilege and architectural containment are the only viable AI security path.
Manus 被 Meta 收購後,很多人只在吵成敗,但真正關鍵是 AI Agent 為什麼註定走向被平台吸收。這篇從工程與商業角度拆給你看。
很多人談到 Vector Store,第一個想到的是 RAG。但在實際把 AI 系統導入企業後,我越來越清楚一件事:RAG 解決的是「找資料」,但 AI 系統真正缺的是「記憶」。這篇文章分享我為什麼選擇 PostgreSQL 作為 AI 的記憶底座,而不是追逐最新的專用 Vector DB。
從永聯物流的ATPM實驗、FDE模式的挑戰,到創智動能的AI Coding推廣,再到630K lines of code的Claude Code之旅。這一年我學到的不是工具的威力,而是在AI時代,智慧才是人類最稀缺的能力。
三個月,63 萬行程式碼。這篇文章不是要炫耀產量,而是想分享:當程式碼變得「廉價」之後,真正重要的東西是什麼——開案和驗收才是人類最後的核心價值。
Three months. 630,000 lines of code. This isn’t about bragging output—it’s about what matters after code becomes ‘cheap’: humans’ last core value is defining the work (kickoff/specs) and accepting it (review/QA).
重複 Prompt 就能提升 LLM 準確率?本篇解讀 Google Research 最新論文「Prompt Repetition」,說明為何只重複 Prompt 能顯著提升 Gemini、GPT、Claude 精準度,並提供實戰建議與場景示例。
VLog 第二期週報。這週發佈 6 篇文章:Google Nested Learning 記憶突破、Gemini Flash 霸榜真相、企業地端 LLM 架構、Excel AI 混淆方案、台灣 AI 基本法解讀、AI Agent 完整指南。
AI 企業轉型常被簡化成 PPT(People、Process、Tech),但在 Agent 時代,真正卡關的是治理能力、責任歸屬與安全可控性。為什麼 90% 的 AI 專案卡在上線前?
AI Agent 不是「比較聰明的 Chatbot」,而是能自主執行任務的系統。本指南涵蓋 AI Agent 架構(Workflow vs ReAct、Plan & Execute、Dual-Agent)、企業 AI Agent 落地、AI Agent 安全(94.4% 攻擊成功率)等核心主題。
Flash 不是 Pro 的簡化版,而是另一條進化路線。它強的不是「小」,而是「不浪費」——在長上下文場景中,真正會抓重點、會用記憶的模型,才是 Agent 時代需要的底座。
企業地端 LLM 架構實作與最佳部署實踐。完整解析 Auth Gateway 權限控管、Orchestrator 任務協調、Python 沙盒安全執行、LLM Router 智慧路由、雙層 Log 審計架構。附 Ollama + LiteLLM + Langfuse 實例,符合台灣 AI 基本法合規要求。
2025/12/23 台灣三讀通過《人工智慧基本法》。這是框架法,不是執行細則——法律不告訴你怎麼做,但出事時你要能交代。本文精簡解讀對 IT 人的實務影響。
早上 6:00 想做一張聖誕賀卡,用 Gemini 寫提示詞 + NanoBanana 產圖,經過多輪調整(服裝、AI Agent、吉卜力風格、年輕化),10 分鐘完成專屬賀卡。完整對話過程紀錄。
小孩子才做選擇,資安跟 AI 效率我都要。與其改變工具,不如改變我們對「資料」的看法——把資料混淆到連製表人都認不出來,那是不是就可以傳上去了?
「擴大 context window 解決記憶問題?那就像用更大的筆記本來治療失憶症。」Google 在 NeurIPS 2025 發表的 Nested Learning,試圖讓 LLM 像大腦一樣擁有多層記憶系統。這不是漸進式改進,而是重新定義「什麼是模型」的嘗試。
這兩週 NotebookLM 席捲了我的生活和團隊。GPT-5.2 體感變化、LATS 與 Storm Agent 架構、以及 AI 不會取代年輕人的觀察。
很多年輕人不是被 AI 取代,而是還沒被給機會。AWS 執行長 Matt Garman 說:AI 會取代初階軟體工程師,是我聽過最愚蠢的想法之一。
n8n 的底層是 DAG + 狀態機,Core/Worker 分離架構讓它天生適合雲地混合部署。企業可以把彈性放雲端、敏感資料留地端,Workflow 成為兩者的協調層。
OpenAI GPT-5.2 官方宣稱擊敗 Gemini 3 Pro,但網友發現它用了 140,000 tokens 對比 Gemini 的 60,000。第三方評測幾乎全面落敗,背後可能是 OpenAI 從 toC 轉向 toB 的戰略轉變。
AI 提升生產力最有效的方式不是強化專長,而是填補短板。當你的弱項被補齊,整個人的能力圈瞬間擴大。這篇分享我如何用 AI 把不會的事情變成「勉強能做」,以及一邊超慢跑一邊寫 Code 的真實體驗。
傳統 Agent 就是「一條路走到黑」,錯了也不知道回頭。LATS 讓 Agent 像下圍棋一樣思考——推演多條路徑、評估勝率、遇到死路就回溯。這篇文章拆解 LATS 的核心機制,以及它跟 ReAct、Tree of Thoughts 的關鍵差異。
用 NotebookLM + Gemini 做簡報,追求的不是加速,而是「千人千色」的客製化。當色調、用字遣詞都符合客戶的企業語言,把客戶放在最中心,這才是 Customer First。
這三年來真正改變我生活軌跡的 AI 工具就三個:網頁 ChatGPT、語音模式、Claude Code。現在 NotebookLM 加入了這個名單。一個專案 = 一個 NotebookLM,讓專案知識第一次具備高知識保真度。
同事請假,客戶系統問題進來。用 ChatGPT Atlas 直接操作 Grafana 介面 debug,30 分鐘變 1 分鐘,還額外抓到 3 個潛在問題。AI 對「生疏技能喚醒」特別有效。
美國頂尖名校 AI 學生人均 GPU 只有 0.1 張,而 OpenAI、Google 用十萬到百萬張訓練模型。學界從「創新引擎」變成「idea 供應商」,這個轉變影響深遠。
AI Agent 的四個條件:智能、記憶、工具調用、除錯能力。探討企業如何整合 AI 工具、資安考量,以及 AI 對企業的三大應用方向:降本、增效、拓展新商機。
AI 時代勞資雙方要破局,關鍵在「全端能力」。工程師要能獨立交付整個 Feature;PM/AM 要能用 AI 做 POC 驗證需求。當溝通層級減少,產品迭代加速,勞資才能站在同一陣線。
Stanford 的 Storm 模型把 AI 變成「多專家開會」模式:多個 AI 人格分工研究、互相挑戰查證,而人類站在總編輯位置做最後裁決。不是自動生成一切,而是 AI × Human 協作的最佳化版本。
感冒沒睡好,但 12:00 要教育訓練 10 個 PM。11:30 用 ChatGPT 語音問答抓重點、11:46 丟進 NotebookLM 產簡報、12:00 上線分享。AI 永遠不累,讓我在狀況不佳時還能即時為團隊服務。
從 Salesforce ForcedLeak 到 Microsoft 365 Copilot EchoLeak,揭露 AI Agent 時代的資安盲點。94.4% 的 Agent 容易受攻擊,傳統 WAF/APM 完全失效。這不是危言聳聽,這是學術研究的結論。
From Salesforce ForcedLeak to Microsoft 365 Copilot EchoLeak, this post exposes the security blind spots of the AI-agent era. 94.4% of agents are vulnerable, and traditional WAF/APM becomes effectively useless. This isn’t fear-mongering—it’s what the research says.
Anthropic 揭露雙 Agent 架構:Initializer Agent + Coding Agent,讓長時任務不靠模型硬撐,而是用工程化工作流設計。
Anthropic reveals a dual-agent architecture—Initializer Agent + Coding Agent—so long-running tasks don’t rely on brute model power, but on an engineered workflow.
OpenAI 人才流失、Claude Opus 4.5 崛起、Gemini 3 Pro 追趕——2025 AI 格局大洗牌背後,真正的護城河是「人」,不是算力。
成功的 AI 轉型需要三步驟:明確目標建立最小團隊、達成 Quick Win、全面開花。關鍵在人:Outsider 講難聽的話、魅力型老兵疏通政治、新血從人腦 download 數據。
Anthropic 發布了 Initializer Agent + Coding Agent 雙 Agent 架構,用工程化的工作流設計解決長時任務的「記憶重置」問題。
Anthropic published a dual-agent architecture—Initializer Agent + Coding Agent—using an engineered workflow to solve the ‘memory reset’ problem in long-running tasks.
AI 時代面試不考 HackerRank。我問:為什麼用這個?比較過哪些選項?答案不重要,產生答案的邏輯最重要。AI 不會失敗、永遠有答案,所以我要找有失敗經驗並且能吸取教訓的人。
AI 工具讓數據分析成本趨近於零,但企業真的因此不需要數據分析師了嗎?本文用真實物流專案,拆解 NotebookLM、Claude Code 與「信任建立」之間的關鍵落差。
所有人都在討論 AI Agent,但沒人想聊「地基怎麼打」。60-70% 企業資料躺在 PDF 裡,地端 OCR API 是關鍵。好架構要有 MQ 緩衝、故障隔離、水平擴展。RapidOCR + ONNX Runtime 讓 CPU 也能跑。
傳統 Agent 缺乏自我檢查能力,容易「一本正經地胡說八道」。Plan, Exec, Critic 架構引入 System 2 慢思維,透過 Critic 節點實現循環改進。本文詳解架構設計、強推理模型必要性,以及何時該用這個模式。
用 Claude Code + ChatGPT Atlas 建立「限時快閃」推薦人 Agent:5 分鐘口述評價、注入個人語氣風格,生成針對學生的完整 md 檔。10 個學校推薦函從每校 20-40 分鐘,變成 10 分鐘全部搞定。
創智動能與美科實業合作的 AI 頭皮檢測系統獲得經濟部2025創新研究獎。這套系統將軟硬體整合加上 AI 技術,為美業帶來巨大的 UpSell 創收,是「把餅做大」而非「降本增效」的最佳 AI 創收範例。
Cloudflare 大當機時 20% Internet 都掛了,ChatGPT、X、Uber、Spotify 全方位賽博人生被搞死。Andrew Ng 的工程師用 AI Coding 快速搭建備援組件挺過危機。這個概念倒是非常有趣 - 用 AI Coding 快速搭建關鍵 infra 組件當作另一種 BCP 手段,降低平時備援成本。唯一的問題是:當遇到史詩級 outage 要 AI Coding 解救你的時候,你的 AI Service 打不打得開 XD
上週三,很榮幸回到台灣最大的 AI 社團「生成式 AI 小聚」,分享我在 FDE 的成功跟失敗經驗。因為這個內容勾動我的情緒有點多,所以等到平靜下來才在這分享。
AI 降本增效?大部分團隊只做到「降本」。真正的增效是降低 CAC、擴大漏斗,讓同樣團隊服務 5 倍客戶。從 VP 親身經歷分享,如何用 AI 把餅做大,而不是縮小戰場。
我上週回老家看了久違的第四台「緯來日本台」,看一個日本節目「恐怖家庭醫學」,裡面講到一個年長者「最近常常心悸、手抖、睡不好」。因為是心臟的因素,所以患者直接找心臟科檢查後,拿到一疊厚厚的報告——結果心臟科醫生看完報告說:「你的心臟結構完全正常,心電圖也沒問題,可能是壓力太大,回去多休息就好。」患者心想:「可是我真的有心悸啊!難道是我自己想太多?」於是患者找了神經科說可能是自律神經失調,拿了藥物減壓...
AI 在傳產落地,先解決的永遠不是模型,而是人、流程與文化。三步驟:現況分析(老前輩+Intern 種子團隊)→ 快速勝利(AI+RPA+OCR 小範圍試點)→ 全面升級(種子團隊散布全公司)。這就是 FDE 模式。
根據《Harvard Business Review》近期發表的〈Workers Don’t Trust AI. Here’s How Companies Can Change That〉,美國基層員工對公司提供的 AI 工具信任度在短短數月內暴跌:對生成式 AI 的信任下降 31%,對自主決策型 AI 更下滑 89%。近半數員工反而更信任非官方AI 工具。另外無獨有偶MIT 的研究《The Ge...
Claude 4.5 的 Interleaved Thinking 讓 Agent 能持續專注工作超過 30 小時。關鍵是「邊做邊想邊驗證」:思考→行動→驗證→調整→保存檢查點→重複。像 Senior PM 一樣,每一步自我驗證、遇到大問題主動舉手。
AI 會議記錄工具的準確度宣傳很美好,但實際到了可以寄給客戶的階段,90% 都需要人工修正。問題不是技術,而是語境——ASR 聽不懂你公司的黑話。解法:建立企業知識庫,在逐字稿轉會議紀要前插入「企業語境校正」。
OpenAI Codex 降智事件復盤:從「內外版本不一致」到移除 60+ feature flags 的調查過程。真正的問題是上下文壓縮、API 層抽象疊加。透明公開調查過程,反而贏得用戶信任。
我們都看到 AWS 近期內裁員 3萬人,但是最有趣的是,近期 AWS 財報不論是 Q2 , 或是 Q3,都有相當不錯的獲利,並且Q3也擊敗分析師預期。在這個情況下,AWS 依舊啟動這次 2020年以來最大的裁員。...
WRC 賽車最經典的場面就是除了賽車手開著市售車款飛天遁地以外,最有趣的就是旁邊坐著一個副駕,讀著一本稱為「路書」的路線圖,用一些簡略的話去指引賽車手前進。 這個設計在追求速度的賽車界很有趣,因為坐一個副駕更重呀,為何需要把複雜的任務分成兩個角色——規劃者和執行者?...
AI Workflow 按固定流程走,遇到資料庫掛掉就停住;真正的 AI Agent 會自己找備份系統解決問題。Agent 需具備三條件:知識庫提取、工具調用、容錯除錯能力。Workflow 適合穩定場景,Agent 適合複雜多變環境。
泰山挑水工的照片引發「無人機取代」討論,結果有人說用纜車就好。再有人說問題是公會阻止淘汰。技術選型從來不是重點,人的利益才是。這就是為何 FDE 模式是 AI Agent 落地的唯一法門。
超慢跑 + Claude Code 是天作之合:95% 時間不用顧,5% 停下來 debug。通勤開車等紅燈下指令、健身房組間休息看進度、走路時用 ChatGPT Live Chat 整理思維。Claude Code for Web 解鎖多工健康模式。
今天突然發現用 Claude Code 做 Linux 系統管理超香的。不只可以幫你寫 code,還順便幫你考古系統程式,挖出系統裡不為人知的秘密,最棒的是能讓你找到之前同事寫好的 code 提早下班,享受當老闆的樂趣。...
Today I realized how insanely effective Claude Code is for Linux system admin. It not only writes code—it can also ‘excavate’ legacy programs, uncover hidden system secrets, and even find scripts written by former colleagues so you can leave work early and enjoy the boss life...
把 50+ 專案 insights 轉成 237 組 QA 對,建立 RAG 知識庫。Claude Code 的三層架構:低層 Bash、中層 Grep/Read、高層 Task/Todo。從 2-3 週 onboarding 縮短到 3 天基本掌握。
前任 PM 留下 50+ 專案文件、數百個檔案。用 Claude Code + GDrive MCP 一天內完成全專案 Summary、時間線、技術線分析。原本要幾週的交接,現在放著跑,自己去開會。
The previous PM left 50+ project docs and hundreds of files. With Claude Code + the GDrive MCP, I produced a full project summary, timeline, and tech-stack analysis in one day. A handover that used to take weeks can now run in the background while you go to meetings.
以前大概是電腦遊戲(印象最深刻: 中華職棒二)的時代為了防遊戲盜版,會有一個被混淆過密碼本,裡面是多種顏色混淆的文字,但是原廠會附上一個紅色或是藍色濾光片,你就拿濾光片去對應的位置,就會呈現正確的密碼排序。這樣防止電腦遊戲亂 copy , 要輸入正確的密碼才能看到正確的資訊。這個機制已經不用很久了,現在遊戲都是網路遊戲也不需要防盜版了。但是這個體驗還是很有趣...
現在有了 AI ,Coding 的東西可以又快又完整,但是我們怎麼知道 AI 做的Code 裡面會不會有更多的地雷(多收費,寫出有資安議題, 實現很糟糕) 呢?...
香港可以上 Google,但不能用 ChatGPT、Claude、Gemini。沒有 Claude Code 像斷了一隻手,大家改用 POE 選 GPT model 或 DeepSeek。被 GenAI 廠商反向封鎖的市場,AI Coding 技術門檻反而更高。
上次提到我在前端這邊做AI Coding 很適合 0% -> 70% , 或是 99 -> 100%的做法,但是在 90% -> 100% 遇到了蠻多的小問題,經過幾天的討論修正之後,我已經大概列出了比較適合的方式。根據這一週來改了十幾個 Feature的經驗,這個流程對我這樣非前端的人來說,感覺 90% -> 100% 除了後續檢核需要前端幫忙以外,幾乎都是我可以自己處理。...
我這幾天因為一個重要的案子,決定也來 VIBE Coding 一下,寫寫frontend feature(我從來沒寫過 frontend Vue 的程式)...
AI Agent 寫的程式,最終還是人要扛責。本文分享三大策略:略懂 AI 在寫什麼、用 AI 做 QA 驗證、設計最壞情況控管機制。以帳務系統為例,展示如何用 PRD 驅動 AI 自動生成比人更嚴謹的測試腳本。
從 Embed(ChatGPT 當 Google)到 Copilot(Cursor + Claude)再到 Agent(Claude Code)的三層演進。分享團隊如何從 0→1 建立 AI 協作模式,以及每個階段的好處、問題與切換時機。
Vibe Coding 帶來大量「新朋友」進入軟體開發世界。API Key 外洩?教就是了,我們也整天 commit security key。這些非資訊科系的夥伴帶來不同 DNA,成本下降、產能提升,是技術主管的寶藏。
95% 企業 AI 導入失敗,不是技術問題,是信任與流程問題。FDE(Forward Deployed Engineer)是 Palantir 首創的駐場工程師模式,2025 年成為 AI Agent 落地的主流策略。本指南涵蓋 FDE 運作機制、Echo/Delta 團隊分工、信任建立、持續實驗方法論,以及為何這個「不可規模化」的方法反而成功。
ATPM 系列:探討 AI 如何加速 PM 的工作流程,從需求訪談到 PRD 撰寫的效率提升。Spec Driven Development 與 Vibe Coding 的結合實踐。
ATPM 以 PRD 為中心,不是以人為中心。實務上 PRD 迭代每天都在發生,某業務計價 PRD 開發期間改了 24 次。透過瘋狂輪替讓每個人都是 PM+Engineer+QA,確保 PRD 成為唯一可信任的資訊中心。
ATPM 是經過生產環境驗證的 Vibe Coding 流程框架,以 PRD 為核心實現 40% 開發加速。本系列分享如何用 AI 協作解決幻覺、測試困難等 AI Coding 痛點,成功上線帳務系統的完整經驗。