AI Agent 可解釋性週:從披薩指數到三層工程鏈路|Weekly Vlog EP4
可解釋性不只是治理需求,更是建立現場信任的關鍵。本週從披薩指數談 FDE 落地、Kalman Filter × Transformer 學界趨勢、Langfuse V3 架構分析,到三層可解釋性工程鏈路設計。
企業 AI 轉型、AI 資安、AI Agent、Vibe Coding 實戰分享
共 85 篇文章
可解釋性不只是治理需求,更是建立現場信任的關鍵。本週從披薩指數談 FDE 落地、Kalman Filter × Transformer 學界趨勢、Langfuse V3 架構分析,到三層可解釋性工程鏈路設計。
我們一直被告知可解釋性是為了資安和法規,但在維運層面,Agent 可解釋性才是獲得營運團隊信任的關鍵——三層工程鏈路的實務設計。
創智動能以 AI Coding 流程導入與 AI Pocket 語音助手,榮獲 2025 商業周刊 AI 創新百強。從 ATPM 方法論到工程治理能力,這是對 AI Coding 必須走向工程化、制度化這條路的確認。
Langfuse v3 架構大改,把 traces 從 PostgreSQL 遷移到 ClickHouse。但這不代表 PostgreSQL 不行了——在 RLS 多租戶隔離、Audit Trail 合規場景,PostgreSQL 的 defense in depth 仍然是最可靠的選擇。
Transformer 很會看趨勢,但它不知道「車不能瞬移」。Kalman Filter 很穩,但遇到非線性就慢半拍。2024-2025 年學術界最熱的一條線,就是把這兩者「結婚」——用 Transformer 學經驗,用 Kalman 保證不亂來。這篇文章用工程師能懂的方式,拆解這個登上 Nature 級期刊的研究方向。
2026 年 1 月 3 日凌晨,五角大廈附近的披薩店出現異常訂單高峰,預測了美軍即將發動攻擊。這個「披薩指數」的發明者是 KGB。上週我去桃園倉庫見客戶,一個小時的會議,AI 投影片一直沒打開,但提案進入了下一階段。這兩件事有什麼關係?
這週我深入研究了 AI Agent 資安議題。從 OpenAI Red Team 專家的訪談開始,到 Google 的 CaMeL 架構,再到企業導入 AI 時的資安平衡問題。結論是:AI 資安已經不是 IT 問題,而是企業治理問題。
EU AI Act 與台灣人工智慧基本法有何差異?本文從企業 IT 與 AI 合規實務出發,比較風險分級、罰則、域外效力與實際導入策略,協助企業判斷該如何準備。
AI 治理不是模型或資安工具的問題,而是企業如何設計責任、決策權與問責機制。本文從 AI Agent、資安失控案例與台灣 AI 基本法,解析企業 AI 治理的 3 個核心問題。
資安講求的,從來不是絕對安全,而是平衡。AI 讓這個平衡問題變得更複雜了——它同時是高效助手、數位員工、難以理解的新技術,以及語言本身成為攻擊面的棘手挑戰。
本文示範如何將 Google DeepMind 提出的 CaMeL 雙層 Agent 架構,實際落地到 PostgreSQL,利用資料庫原生的 Role 與 Row-Level Security(RLS),設計一套不可繞過的 AI Memory 隔離機制,用來防禦 prompt injection 與高權限 Agent 失控風險。
最小權限是資安原則,卻常成為企業效率的阻力。從金融業、政府雲到 Pixar 真實案例,解析影子 IT、影子 AI,以及 FDE 如何畫出真正可用的權限邊界。
Simon Willison 說這是他見過「第一個可信的 prompt injection 防禦方案」。CaMeL 的核心設計是把一個 Agent 拆成兩個:低權限 Agent 負責讀取外部資料,高權限 Agent 負責做決策——讓「讀資料」和「做動作」永遠分開。
很多人談健康數據,但大多停在「有量測、有 App」。這篇想講的是:如何真的把資料收起來、整合起來,最後交給 AI 幫你分析、回饋,變成可以每天用的系統。不追求完美整合、不被生態系綁死、不依賴廠商 API——這套方法的核心是「零整合架構」。
從 Salesforce ForcedLeak 到 Microsoft 365 EchoLeak,從 ChatGPT Plugins 到 ServiceNow Now Assist——四個真實攻擊案例,揭露 AI Agent 時代的資安盲點。這不是理論,這是 2024-2025 年已經發生的事。
本文整理自 Lenny's Podcast 對 HackAPrompt CEO Sander Schulhoff 的訪談。從 AI Agent 架構出發,解析為何 Guardrails 擋不住 Prompt Injection——stateless 防禦的結構性失敗,以及為何最小權限與架構性圍堵才是真正可行的 AI Security 解法。
Manus 被 Meta 收購後,很多人只在吵成敗,但真正關鍵是 AI Agent 為什麼註定走向被平台吸收。這篇從工程與商業角度拆給你看。
很多人談到 Vector Store,第一個想到的是 RAG。但在實際把 AI 系統導入企業後,我越來越清楚一件事:RAG 解決的是「找資料」,但 AI 系統真正缺的是「記憶」。這篇文章分享我為什麼選擇 PostgreSQL 作為 AI 的記憶底座,而不是追逐最新的專用 Vector DB。
從永聯物流的ATPM實驗、FDE模式的挑戰,到創智動能的AI Coding推廣,再到630K lines of code的Claude Code之旅。這一年我學到的不是工具的威力,而是在AI時代,智慧才是人類最稀缺的能力。
三個月,63 萬行程式碼。這篇文章不是要炫耀產量,而是想分享:當程式碼變得「廉價」之後,真正重要的東西是什麼——開案和驗收才是人類最後的核心價值。
重複 Prompt 就能提升 LLM 準確率?本篇解讀 Google Research 最新論文「Prompt Repetition」,說明為何只重複 Prompt 能顯著提升 Gemini、GPT、Claude 精準度,並提供實戰建議與場景示例。
VLog 第二期週報。這週發佈 6 篇文章:Google Nested Learning 記憶突破、Gemini Flash 霸榜真相、企業地端 LLM 架構、Excel AI 混淆方案、台灣 AI 基本法解讀、AI Agent 完整指南。
AI 企業轉型常被簡化成 PPT(People、Process、Tech),但在 Agent 時代,真正卡關的是治理能力、責任歸屬與安全可控性。為什麼 90% 的 AI 專案卡在上線前?
AI Agent 不是「比較聰明的 Chatbot」,而是能自主執行任務的系統。本指南涵蓋 AI Agent 架構(Workflow vs ReAct、Plan & Execute、Dual-Agent)、企業 AI Agent 落地、AI Agent 安全(94.4% 攻擊成功率)等核心主題。
Flash 不是 Pro 的簡化版,而是另一條進化路線。它強的不是「小」,而是「不浪費」——在長上下文場景中,真正會抓重點、會用記憶的模型,才是 Agent 時代需要的底座。
企業地端 LLM 架構實作與最佳部署實踐。完整解析 Auth Gateway 權限控管、Orchestrator 任務協調、Python 沙盒安全執行、LLM Router 智慧路由、雙層 Log 審計架構。附 Ollama + LiteLLM + Langfuse 實例,符合台灣 AI 基本法合規要求。
2025/12/23 台灣三讀通過《人工智慧基本法》。這是框架法,不是執行細則——法律不告訴你怎麼做,但出事時你要能交代。本文精簡解讀對 IT 人的實務影響。
早上 6:00 想做一張聖誕賀卡,用 Gemini 寫提示詞 + NanoBanana 產圖,經過多輪調整(服裝、AI Agent、吉卜力風格、年輕化),10 分鐘完成專屬賀卡。完整對話過程紀錄。
小孩子才做選擇,資安跟 AI 效率我都要。與其改變工具,不如改變我們對「資料」的看法——把資料混淆到連製表人都認不出來,那是不是就可以傳上去了?
「擴大 context window 解決記憶問題?那就像用更大的筆記本來治療失憶症。」Google 在 NeurIPS 2025 發表的 Nested Learning,試圖讓 LLM 像大腦一樣擁有多層記憶系統。這不是漸進式改進,而是重新定義「什麼是模型」的嘗試。
這兩週 NotebookLM 席捲了我的生活和團隊。GPT-5.2 體感變化、LATS 與 Storm Agent 架構、以及 AI 不會取代年輕人的觀察。
很多年輕人不是被 AI 取代,而是還沒被給機會。AWS 執行長 Matt Garman 說:AI 會取代初階軟體工程師,是我聽過最愚蠢的想法之一。
n8n 的底層是 DAG + 狀態機,Core/Worker 分離架構讓它天生適合雲地混合部署。企業可以把彈性放雲端、敏感資料留地端,Workflow 成為兩者的協調層。
OpenAI GPT-5.2 官方宣稱擊敗 Gemini 3 Pro,但網友發現它用了 140,000 tokens 對比 Gemini 的 60,000。第三方評測幾乎全面落敗,背後可能是 OpenAI 從 toC 轉向 toB 的戰略轉變。
AI 提升生產力最有效的方式不是強化專長,而是填補短板。當你的弱項被補齊,整個人的能力圈瞬間擴大。這篇分享我如何用 AI 把不會的事情變成「勉強能做」,以及一邊超慢跑一邊寫 Code 的真實體驗。
傳統 Agent 就是「一條路走到黑」,錯了也不知道回頭。LATS 讓 Agent 像下圍棋一樣思考——推演多條路徑、評估勝率、遇到死路就回溯。這篇文章拆解 LATS 的核心機制,以及它跟 ReAct、Tree of Thoughts 的關鍵差異。
用 NotebookLM + Gemini 做簡報,追求的不是加速,而是「千人千色」的客製化。當色調、用字遣詞都符合客戶的企業語言,把客戶放在最中心,這才是 Customer First。
這三年來真正改變我生活軌跡的 AI 工具就三個:網頁 ChatGPT、語音模式、Claude Code。現在 NotebookLM 加入了這個名單。一個專案 = 一個 NotebookLM,讓專案知識第一次具備高知識保真度。
同事請假,客戶系統問題進來。用 ChatGPT Atlas 直接操作 Grafana 介面 debug,30 分鐘變 1 分鐘,還額外抓到 3 個潛在問題。AI 對「生疏技能喚醒」特別有效。
美國頂尖名校 AI 學生人均 GPU 只有 0.1 張,而 OpenAI、Google 用十萬到百萬張訓練模型。學界從「創新引擎」變成「idea 供應商」,這個轉變影響深遠。
AI Agent 的四個條件:智能、記憶、工具調用、除錯能力。探討企業如何整合 AI 工具、資安考量,以及 AI 對企業的三大應用方向:降本、增效、拓展新商機。
AI 時代勞資雙方要破局,關鍵在「全端能力」。工程師要能獨立交付整個 Feature;PM/AM 要能用 AI 做 POC 驗證需求。當溝通層級減少,產品迭代加速,勞資才能站在同一陣線。
Stanford 的 Storm 模型把 AI 變成「多專家開會」模式:多個 AI 人格分工研究、互相挑戰查證,而人類站在總編輯位置做最後裁決。不是自動生成一切,而是 AI × Human 協作的最佳化版本。
感冒沒睡好,但 12:00 要教育訓練 10 個 PM。11:30 用 ChatGPT 語音問答抓重點、11:46 丟進 NotebookLM 產簡報、12:00 上線分享。AI 永遠不累,讓我在狀況不佳時還能即時為團隊服務。
從 Salesforce ForcedLeak 到 Microsoft 365 Copilot EchoLeak,揭露 AI Agent 時代的資安盲點。94.4% 的 Agent 容易受攻擊,傳統 WAF/APM 完全失效。這不是危言聳聽,這是學術研究的結論。
Anthropic 揭露雙 Agent 架構:Initializer Agent + Coding Agent,讓長時任務不靠模型硬撐,而是用工程化工作流設計。
OpenAI 人才流失、Claude Opus 4.5 崛起、Gemini 3 Pro 追趕——2025 AI 格局大洗牌背後,真正的護城河是「人」,不是算力。
成功的 AI 轉型需要三步驟:明確目標建立最小團隊、達成 Quick Win、全面開花。關鍵在人:Outsider 講難聽的話、魅力型老兵疏通政治、新血從人腦 download 數據。
Anthropic 發布了 Initializer Agent + Coding Agent 雙 Agent 架構,用工程化的工作流設計解決長時任務的「記憶重置」問題。
AI 時代面試不考 HackerRank。我問:為什麼用這個?比較過哪些選項?答案不重要,產生答案的邏輯最重要。AI 不會失敗、永遠有答案,所以我要找有失敗經驗並且能吸取教訓的人。
AI 工具讓數據分析成本趨近於零,但企業真的因此不需要數據分析師了嗎?本文用真實物流專案,拆解 NotebookLM、Claude Code 與「信任建立」之間的關鍵落差。
所有人都在討論 AI Agent,但沒人想聊「地基怎麼打」。60-70% 企業資料躺在 PDF 裡,地端 OCR API 是關鍵。好架構要有 MQ 緩衝、故障隔離、水平擴展。RapidOCR + ONNX Runtime 讓 CPU 也能跑。
傳統 Agent 缺乏自我檢查能力,容易「一本正經地胡說八道」。Plan, Exec, Critic 架構引入 System 2 慢思維,透過 Critic 節點實現循環改進。本文詳解架構設計、強推理模型必要性,以及何時該用這個模式。
用 Claude Code + ChatGPT Atlas 建立「限時快閃」推薦人 Agent:5 分鐘口述評價、注入個人語氣風格,生成針對學生的完整 md 檔。10 個學校推薦函從每校 20-40 分鐘,變成 10 分鐘全部搞定。
創智動能與美科實業合作的 AI 頭皮檢測系統獲得經濟部2025創新研究獎。這套系統將軟硬體整合加上 AI 技術,為美業帶來巨大的 UpSell 創收,是「把餅做大」而非「降本增效」的最佳 AI 創收範例。
Cloudflare 大當機時 20% Internet 都掛了,ChatGPT、X、Uber、Spotify 全方位賽博人生被搞死。Andrew Ng 的工程師用 AI Coding 快速搭建備援組件挺過危機。這個概念倒是非常有趣 - 用 AI Coding 快速搭建關鍵 infra 組件當作另一種 BCP 手段,降低平時備援成本。唯一的問題是:當遇到史詩級 outage 要 AI Coding 解救你的時候,你的 AI Service 打不打得開 XD
上週三,很榮幸回到台灣最大的 AI 社團「生成式 AI 小聚」,分享我在 FDE 的成功跟失敗經驗。因為這個內容勾動我的情緒有點多,所以等到平靜下來才在這分享。
AI 降本增效?大部分團隊只做到「降本」。真正的增效是降低 CAC、擴大漏斗,讓同樣團隊服務 5 倍客戶。從 VP 親身經歷分享,如何用 AI 把餅做大,而不是縮小戰場。
我上週回老家看了久違的第四台「緯來日本台」,看一個日本節目「恐怖家庭醫學」,裡面講到一個年長者「最近常常心悸、手抖、睡不好」。因為是心臟的因素,所以患者直接找心臟科檢查後,拿到一疊厚厚的報告——結果心臟科醫生看完報告說:「你的心臟結構完全正常,心電圖也沒問題,可能是壓力太大,回去多休息就好。」患者心想:「可是我真的有心悸啊!難道是我自己想太多?」於是患者找了神經科說可能是自律神經失調,拿了藥物減壓...
AI 在傳產落地,先解決的永遠不是模型,而是人、流程與文化。三步驟:現況分析(老前輩+Intern 種子團隊)→ 快速勝利(AI+RPA+OCR 小範圍試點)→ 全面升級(種子團隊散布全公司)。這就是 FDE 模式。
根據《Harvard Business Review》近期發表的〈Workers Don’t Trust AI. Here’s How Companies Can Change That〉,美國基層員工對公司提供的 AI 工具信任度在短短數月內暴跌:對生成式 AI 的信任下降 31%,對自主決策型 AI 更下滑 89%。近半數員工反而更信任非官方AI 工具。另外無獨有偶MIT 的研究《The Ge...
Claude 4.5 的 Interleaved Thinking 讓 Agent 能持續專注工作超過 30 小時。關鍵是「邊做邊想邊驗證」:思考→行動→驗證→調整→保存檢查點→重複。像 Senior PM 一樣,每一步自我驗證、遇到大問題主動舉手。
AI 會議記錄工具的準確度宣傳很美好,但實際到了可以寄給客戶的階段,90% 都需要人工修正。問題不是技術,而是語境——ASR 聽不懂你公司的黑話。解法:建立企業知識庫,在逐字稿轉會議紀要前插入「企業語境校正」。
OpenAI Codex 降智事件復盤:從「內外版本不一致」到移除 60+ feature flags 的調查過程。真正的問題是上下文壓縮、API 層抽象疊加。透明公開調查過程,反而贏得用戶信任。
我們都看到 AWS 近期內裁員 3萬人,但是最有趣的是,近期 AWS 財報不論是 Q2 , 或是 Q3,都有相當不錯的獲利,並且Q3也擊敗分析師預期。在這個情況下,AWS 依舊啟動這次 2020年以來最大的裁員。...
WRC 賽車最經典的場面就是除了賽車手開著市售車款飛天遁地以外,最有趣的就是旁邊坐著一個副駕,讀著一本稱為「路書」的路線圖,用一些簡略的話去指引賽車手前進。 這個設計在追求速度的賽車界很有趣,因為坐一個副駕更重呀,為何需要把複雜的任務分成兩個角色——規劃者和執行者?...
AI Workflow 按固定流程走,遇到資料庫掛掉就停住;真正的 AI Agent 會自己找備份系統解決問題。Agent 需具備三條件:知識庫提取、工具調用、容錯除錯能力。Workflow 適合穩定場景,Agent 適合複雜多變環境。
泰山挑水工的照片引發「無人機取代」討論,結果有人說用纜車就好。再有人說問題是公會阻止淘汰。技術選型從來不是重點,人的利益才是。這就是為何 FDE 模式是 AI Agent 落地的唯一法門。
超慢跑 + Claude Code 是天作之合:95% 時間不用顧,5% 停下來 debug。通勤開車等紅燈下指令、健身房組間休息看進度、走路時用 ChatGPT Live Chat 整理思維。Claude Code for Web 解鎖多工健康模式。
今天突然發現用 Claude Code 做 Linux 系統管理超香的。不只可以幫你寫 code,還順便幫你考古系統程式,挖出系統裡不為人知的秘密,最棒的是能讓你找到之前同事寫好的 code 提早下班,享受當老闆的樂趣。...
把 50+ 專案 insights 轉成 237 組 QA 對,建立 RAG 知識庫。Claude Code 的三層架構:低層 Bash、中層 Grep/Read、高層 Task/Todo。從 2-3 週 onboarding 縮短到 3 天基本掌握。
前任 PM 留下 50+ 專案文件、數百個檔案。用 Claude Code + GDrive MCP 一天內完成全專案 Summary、時間線、技術線分析。原本要幾週的交接,現在放著跑,自己去開會。
以前大概是電腦遊戲(印象最深刻: 中華職棒二)的時代為了防遊戲盜版,會有一個被混淆過密碼本,裡面是多種顏色混淆的文字,但是原廠會附上一個紅色或是藍色濾光片,你就拿濾光片去對應的位置,就會呈現正確的密碼排序。這樣防止電腦遊戲亂 copy , 要輸入正確的密碼才能看到正確的資訊。這個機制已經不用很久了,現在遊戲都是網路遊戲也不需要防盜版了。但是這個體驗還是很有趣...
現在有了 AI ,Coding 的東西可以又快又完整,但是我們怎麼知道 AI 做的Code 裡面會不會有更多的地雷(多收費,寫出有資安議題, 實現很糟糕) 呢?...
香港可以上 Google,但不能用 ChatGPT、Claude、Gemini。沒有 Claude Code 像斷了一隻手,大家改用 POE 選 GPT model 或 DeepSeek。被 GenAI 廠商反向封鎖的市場,AI Coding 技術門檻反而更高。
上次提到我在前端這邊做AI Coding 很適合 0% -> 70% , 或是 99 -> 100%的做法,但是在 90% -> 100% 遇到了蠻多的小問題,經過幾天的討論修正之後,我已經大概列出了比較適合的方式。根據這一週來改了十幾個 Feature的經驗,這個流程對我這樣非前端的人來說,感覺 90% -> 100% 除了後續檢核需要前端幫忙以外,幾乎都是我可以自己處理。...
我這幾天因為一個重要的案子,決定也來 VIBE Coding 一下,寫寫frontend feature(我從來沒寫過 frontend Vue 的程式)...
AI Agent 寫的程式,最終還是人要扛責。本文分享三大策略:略懂 AI 在寫什麼、用 AI 做 QA 驗證、設計最壞情況控管機制。以帳務系統為例,展示如何用 PRD 驅動 AI 自動生成比人更嚴謹的測試腳本。
從 Embed(ChatGPT 當 Google)到 Copilot(Cursor + Claude)再到 Agent(Claude Code)的三層演進。分享團隊如何從 0→1 建立 AI 協作模式,以及每個階段的好處、問題與切換時機。
Vibe Coding 帶來大量「新朋友」進入軟體開發世界。API Key 外洩?教就是了,我們也整天 commit security key。這些非資訊科系的夥伴帶來不同 DNA,成本下降、產能提升,是技術主管的寶藏。
95% 企業 AI 導入失敗,不是技術問題,是信任與流程問題。FDE(Forward Deployed Engineer)是 Palantir 首創的駐場工程師模式,2025 年成為 AI Agent 落地的主流策略。本指南涵蓋 FDE 運作機制、Echo/Delta 團隊分工、信任建立、持續實驗方法論,以及為何這個「不可規模化」的方法反而成功。
ATPM 系列:探討 AI 如何加速 PM 的工作流程,從需求訪談到 PRD 撰寫的效率提升。Spec Driven Development 與 Vibe Coding 的結合實踐。
ATPM 以 PRD 為中心,不是以人為中心。實務上 PRD 迭代每天都在發生,某業務計價 PRD 開發期間改了 24 次。透過瘋狂輪替讓每個人都是 PM+Engineer+QA,確保 PRD 成為唯一可信任的資訊中心。
ATPM 是經過生產環境驗證的 Vibe Coding 流程框架,以 PRD 為核心實現 40% 開發加速。本系列分享如何用 AI 協作解決幻覺、測試困難等 AI Coding 痛點,成功上線帳務系統的完整經驗。