反思週：從 Gemini 的傲慢、Benchmark 假象，到 AI 時代的結果交付力

發佈日期： 2026-02-15 主題： 充滿反思的一週——AI 的不好、評測的亂象、結果導向的職場進化，以及地端模型的崛起 拍攝地點： 香港灣仔石板街 → 維多利亞港 涵蓋文章（2026-02-09 ~ 02-14）：

02/09 - 2026 年了，Gemini 團隊怎麼變得「自信的蠢」了
02/10 - 當 AI Coding Benchmark 開始測到「基礎設施」：從 Anthropic 的實驗，到學術共識，再到 Arena 評測的結構性盲點
02/11 - AI 時代的殘酷進化：別再賣「能力」，請開始提供 RaaS (Results as a Service)
02/12 - IT 架構師的 AI 加速實錄：從一週到 30 分鐘，但真正的魔術不在這裡
02/13 - YC 2026 創業指南解讀：AI 不再是聊天工具，而是在重寫整個產業的規則
02/14 - 黃仁勳在 Cisco AI Summit 的三個核心觀點：百花齊放、領域專業、以及「問題才是你的 IP」

逐字稿

開場：香港灣仔石板街，充滿反思的一週

對，大家好。那我這週在香港出差，所以在某一天的早上，我在灣仔的有名的石板街這邊，然後跟大家錄一下總結的 vlog。

那其實今天的話，有可能就是會一路走到維多利亞港，希望有一個比較好的這個總結的結果。

在本週其實是一個充滿反思的，反思的一個一週。

週一：Gemini 的 UI 問題——AI 太自信，人類卻失去控制權

在一開始的時候，我就是寫了一篇就是 Gemini 的 UI 的一個問題。主要的原因是 Gemini 呢，它可以自己自動判斷這個東西需不需要聯網。

那但是，我覺得最大的問題是它直接在 UI 介面就把聯網這個人類能夠介入、所希望你聯網這個選項拿掉了。所以當我丟入一個就是極度需要時效性的文章的時候，在這個時候 Gemini 居然自己就判斷說它不需要聯網。所以它就根據它 2024 年年底的一些相關知識就直接給出判斷，但是大部分都是錯的。

那我覺得這個問題不是很大，但是你只要給我一個 UI 的介面，我就可以就是把這件事修正的。但是問題是，就 Gemini 團隊太相信 AI 的判斷，直接把 AI 的這個 option 把它拿掉了。

然後就讓我想到——當我們 AI 真的夠聰明的時候，但是我們是人，需不需要一些保護，或是一些選項能夠對它進行一些控制？而不是全部把所有東西都交給 AI 控制呢？

週二：Benchmark 的亂象——從基礎設施噪音到應試教育

然後在週二的時候，我這邊講到一些就是我們平常在做大語言模型的一些評測的一些議題。

那這邊主要議題是 introduce 一個文章，就是現在在對一些 agentic coding 的 benchmark 評測標準，他們發現到 agent coding 的評測標準，只要在它的測試環境裡面，就是對它的一些 resource，像 CPU、RAM，然後這些東西進行一個調整，然後到最後的結果成果，就是就成功率或正確率來說的話，可以差到 6%。

要知道這 6%，其實如果它是名列前茅的話，它基本上是那個 SOTA 到第三名或第四名之間的差距。簡單講就是說，如果你只要多一點點 resource 的話，你可能你的成果就從第三名變成 SOTA。

那這個情況下，其實就反映到其實到最後大語言模型還是一個就是有一些 resource 限制的，能夠玩得起的就是玩家才比較適合的地方。

然後當然這個情況不只是 agentic coding，在大語言模型的技術能力上面的一些 Benchmark 也有反映到這個問題——你的數據集來得多廣，以及你花很多的時間針對就是常見的一些就是跟 benchmark 進行考試前的重點複習跟微調。

那這都反映到說，到最後出來 benchmark 這模型，它其實是針對這些 benchmark 的這些數據集然後或測試機來進行一個優化的，所以它分數比較高，但是它實際上不見得比較好用。

LMArena 也被 Hack 了

那有人就問到我說，那像 LMArena 那這樣子以人來做一個評測的標準，是不是比較適合呢？

很不幸的就是也這個東西也被大家就是 hack 完了。就是說，第一個信息是 LMArena 它的大部分的使用者都是工程師，那所以說這針對 coding 或者是工程一些強化的大語言模型就自然容易比較高分。

另外一個就是也發現到各科技大廠為了在評測標準這邊變高，其實他們會發布大量 AB testing 到 LMArena 裡面去來測試。像 Meta 可能就一次要發一版 Llama 的時候，它給丟了三四十個 AB testing，最後選擇最好的一個東西來進行發布。

所以嚴格上來說，他們發布的這版本是針對 LMArena 拿到最高分的版本，而不是他們實際上認為最好的版本。那這個其實就有應試教育的意思了。

實際建議

所以說到最後，可能要在看這種評測標準的話，我們的基準就是幾個：

第一個，你只需要裡面名列前茅就好了，你不一定要第一名，你不一定要 SOTA，這是第一個。

第二個的話，可能還是要就相關專家、有相關的就是專案的一些經驗，然後有使用過的感覺，然後給你建議來得比較好，而不是進行考試的相關成果。

週三：AI 時代的結果交付力——從 SaaS 到 RaaS

然後在就是週三的時候講到一個我非常喜歡的話題，但是我之前沒有講，那也跟大家講一下。

在就是 AI 之前，大家都是像有點像 SaaS，每個人提供一個方案。向工程師提供根據 PRD 產出相關的程式碼的一個方案；那 Sales 就是業務銷售，他們跟對就是一些客戶公司的要求，然後遞交一些相關的結果。這是一個 SaaS。

但是在 AI 的時代，其實我們發現到就是很多的相關的這些 SaaS 的這些 component，他們提供這方案能夠快速的被貶值。就是 AI 可以快速的取代這個 SaaS 的每一個相關的方案。

所以到最後，每個人都被迫要變成一個就是結果導向或業績導向的人。

什麼叫結果導向或業績導向？我的判斷，我的認知是——你除了負責你所知道的這些東西以外，你最好能夠跟商業掛鉤。

PM 的例子

舉例像你是 PM，你 PM 的一個最主要用的工作就是針對這個專案的一些就是 scope，然後把這個根據 spec 跟 scope 然後能夠帶領相關 resource 把它交出來。這是第一個。

當你成功交付，交付得很好，有一些很好的結案文件，那另外一點就是你能不能讓客戶去簽下這個結案文件？能夠讓後續的公司的其他的銷售能夠把錢追回來。

那這個就是簡單講就是說，你除了你做得你自己覺得你自己做得很好以外，你要能夠讓客戶也滿意，並且呢願意讓他們簽這個結案文件或是過程的文件。所以這就非常非常考驗你的結果交付能力。

而且你要必須要先理解說，你在這行裡面或是在這個專案裡面，什麼東西是對商業他們最最最重要的。

CTO 的真正工作

那就又再舉個例子，像我是本身是一個公司的 CTO。所以我除了把我自己的部門帶好以外，我還要做一些真正能夠對公司能夠帶來一些結果的——像我必須要去跑一些業務，我必須要跟著業務去遞交一些就是 pre-sales 的東西，然後能夠協助業務把這個單簽下來。那或是在 marketing 上面就是付出些 resource，然後你能夠達到一些結果。

這些都是在這個 AI 時代真正要考驗的話題。

真正稀缺的能力

所以我會建議大家，就在 AI 時代，不用花太——就是肯定要花一些心力去學習這新的東西，但是你不用花太多東西就是只是學習，而是要把你的真正的學習經歷花在你怎麼樣子能夠把結果輸出出來。

那我的判斷就是，到最後其實都卡在一些所謂的複雜事物，像是人跟人之間的溝通、交往，或是然後還有一些專案執行的團隊的建立，然後對商業的一些判斷，然後以及對這個整個人際網絡、對通路選擇的東西。

所以可能當初技術這些東西、寫文章這些東西、一些看報告的這些東西，其實你只要知道怎麼樣去做，用 AI 把它做完就好了。那你真正能夠出類拔萃的真正的技能，你肯定要花時間把它弄好。這個是我的就是一些相關的建議。

週四：IT 架構師的價值——AI 能出架構，但能成交嗎？

再來在雷打不動的 IT 技術架構這邊，這次講到其實並沒有那麼的硬核。這次講到的比較偏軟性的東西。

簡單講就是說，像現在的 AI 其實已經非常厲害了，你只要給客戶——就是客戶給你一個就是 RFP 需求文件，基本上就是 AI 可以快速的根據你相關的一些技術的抗譜，然後拉出一個非常看起來非常合理的 RFP 的框架。

在這情況下，就是一般的這樣子 IT 架構師，到底還有什麼這樣的出處呢？其實我覺得出處還蠻多的。

第一個成果：客戶要買單

首先第一個，技術力是一件事情，但是我們在做就是一個 IT 架構的時候，我們要知道說什麼樣子是真正的成果。第一個成果是客戶要買單，他要願意簽單。

所以就代表說，你必須要符合客戶相關的一些期待——你可能要知道他們成本考量多少、他們有什麼資安的要求、他們的規格是不是對的、然後規格是不是合理。然後你要盡可能在商務上去滿足客戶的這個需求。不然他不願意簽單，就沒有下面所有事情，你就沒有第一個成果了。

第二個成果：要能落地

但是你有這樣的商務思維，你能滿足客戶需求之後，你有這個成果之後，你第二個成果是什麼？就是當你開始實施的時候，你必須要能落地。

你前段時間那個 pre-sales 的時候，為了簽下單那個答應客戶的需求，必須要能夠落地。並且要針對客戶的一些特殊的一些情況，他們所沒有意識到的部分，也能夠踩一些坑、那些雷，然後能夠最後能夠成功落地。

所以它在執行上面也必須要符合客戶的期待。所以這就變得非常困難——因為它有點悖論，就第一個事情是在前期你必須要符合客戶的期待，盡可能去滿足客戶需求，然後甚至答應客戶一些稍微不合理的需求，然後只是為能夠達到第一個成果。第二個成果是你要能夠落地，不然的話你不能落地的話，這一單就可能客戶不願意付錢，或者是客戶不願意跟你續約，或者客戶不願意跟你做接下來的案子。

所以我個人認為這就對 IT 的架構師而言是非常非常困難的。但是我也覺得這就是在 AI 時代，IT 架構師實際上能夠保有更好的一個相關成果的原因。

週五：YC 2026 趨勢——傳統產業 AI 化與 AI Agency 模式

最後在週五的時候我講了一些最新的就是 YC 提供的一些就是 2026 年的一些相關的一些報告。那裡面提到兩個就是趨勢，我個人非常喜歡。

趨勢一：用 AI 優化傳統產業

第一個趨勢，其實是從以前 YC 一直在寫的，就是說如何把一些真正就是傳統的產業能夠用 AI 來進行一個相關的優化。裡面包含什麼東西呢？像一些傳統製造業、傳統的一些零售業，然後一些你覺得最 boring 的一些 technology，但是又能夠想用 AI 來進行一些相關優化，降低相關成本、提升相關效率。

那甚至它提到相關政府部門的相關的一些流程上面的優化，其實都會是一個巨大的商機。

那這個東西，其實我們也一直在協助客戶來做這件事情，就不帶得多加展開。但是我也必須要提這一提，這一提始終還是非常非常重要。而且他們 YC 一直提、一直提、一直提，就代表著另外一件事——就是它始終沒有被很好的解決。

那要解決這個問題的話，我個人認為就是沒有太大的法門。第一個事情是對 AI 最新的推論就能夠了解。第二個 FDE，FDE，FDE 重要事情做三次。你必須要了解客戶需求、了解這流程、需求拆解流程，知道怎麼樣去重塑這流程。

趨勢二：AI Agency 模式的崛起

那第二個就是我想要講的事情其實是 AI 時代的 Agency 型。什麼叫做 Agency 型呢？基本上你到最後，你可能這個 SaaS 的這個模式會慢慢的被崩塌。

我們到最後能夠交付的東西就是我之前講到相關的結果。那你既然有了相關的結果，就是你要協助——你可能是到最後大家都會是一個服務業，然後你服務你的客戶，達到這相關結果，但中間你可能用 AI 來進行一個相關的加速。

我舉例子——當你是一個就是做一個 POS 系統的公司，你交付相關的專案，你在前面接單的時候你要寫 Proposal，要用 AI 來進行相關的加速。你在出架構圖的時候，你必須用 AI 來輔助，來把這個架構圖快速的產生出來，但是要有專業的架構師這邊真的針對商業現實架構的可能性來進行一個評估。但是在中間的書寫、撰寫部分，那個全部由 AI 來進行一個取代。

那再就是在訪談的時候用 AI 的相關的工具，然後來做一個快速的就是把客戶需求變成 PRD，然後並且用 AI code 根據 PRD 把程式碼寫出來。再用就是相關的 AI 技術來做一些 automation，來做一些 validation and testing。

所以所有的商業模式就是跟之前是一樣的，只是你都還是一個有點像 POS-based 一個傳統 IT 專案的一個模式，但是中間的每一個環節都用 AI 大幅度的加速，然後增加你的這個你公司跟團隊的生產力。我認為這是一個很重要的趨勢。

所以要講到的事情，除了傳統產業的一個 enhancement，跟對就是像這個 SaaS 模式慢慢的它會去超級貶值、它會崩塌。但是取而代之的，其實是針對每一個客戶的就是快速、高速的一個客製化，並且快速、高速的交付。這個新的趨勢 AI agency 的東西，我認為是一個很棒的趨勢。

黃仁勳的觀點：提問才是真正的 IP

再或者講到自然呢，黃仁勳在最近的一次就是公開的演講有講到——他應該不會把就是 NVIDIA 的一些公司內部的一些 AI 的使用導到外面的像很多人這樣子的服務。

原因是因為他認為，先不考慮那個用 GPT 公司資訊外洩的問題，就是光是提問這件事情，都是一個很重要的 know-how。

舉個例子，假設如果未來我公司要去東南亞這邊擴張，我可能會在 ChatGPT 上問說：在東南亞這邊成立一個辦公室，在哪國家比較便宜？那假設選定越南。第二個問題：在越南你要需要成立一個公司要什麼手續？第三個：在越南雇一些工程師、程序員要花多少錢？

光是這幾個問題，你就可以——只要能夠掌握這提問的人，他就可以知道說你公司要去越南這邊發展。

所以尤其 NVIDIA 這種更大的 enterprise，他們的情況都會是一樣。你只要能夠掌握——因為當你是 SaaS 的時候，你只要光是問這些問題，你會知道這公司相關戰略是什麼樣子。那他們就是競爭對手就能夠獲取這資訊，然後進行一個相關的一些調整。

地端模型的未來

所以到最後，我個人認為說不管現在的 AI 在就是在雲端架已經發展得非常的蓬勃，到最後就是地端的模型、大語言模型，還是可能會是未來的一個主流。

我們看到在今年的年初，有一些大量的開源模型的一些更新版。DeepSeek 要出了，然後 Qwen，然後 Mixtral，還有像最近大家都會就是非常廣泛討論的 Llama 2.5。

其實都會反映到一個話題，就是說地端的需求還是非常非常蓬勃發展。而且我個人認為它會是未來這兩三年的一個很重要的一個趨勢。會有部分，至少 30% 到 40% 的 workflow 會從雲端這邊慢慢的就是搬到地端，變成一個就是傳統的 IT 架構。

那這個原因其實也蠻簡單的——因為當現在的 AI 的發展越來越厲害，它已經從一個 tool 變成 agent、變成一個所謂的數位員工的時候，你對這個員工你必須要有基本的信任。那這信任，我到底是要信任這個模型——這是一個 SaaS API 的模型的廠商嗎？還是我其實我們公司自己的？

那我相信在這個絕大多數的中型以上公司，他們都還是會就是相信自己來建立，就算這是比較困難的。所以這個當然是我在這邊的個人的一個想法。

本週總結：被迫進化，從 IC 到結果負責者

最後，因為剛好今年在就是前一週在香港出差，所以在維多利亞港為大家就是錄製相關的總結視頻。

在這一週其實我講了很多這相關對 AI 的不好東西。原因是因為我們都講 AI 好東西，但是其實我們要定期要進行反思。

所以我講到的，像就是大語言模型相關的一些幻覺議題——像那個有專門來在 AI 的不好設計。第二個又講到的就是一些 benchmark 的一些亂象。那還有就是大家花時間的東西，大家更偏重於學習，而不是專心在對結果負責的一些技能的東西。

但其實我個人認為這是一件好事吧。因為我們就是就變得說我們被迫要進化——從原本把每個人都是一個 IC、都是一個像 SaaS 分隔開的，變成最後一個就是結果負責者。

其實要到最後變成每一個人，就算在你在公司裡面，你都是一個一人的團隊或是一人公司。你要針對你這個人這個東西付出其他的相關的成果，而且這成果必須要是跟商業有相關的。

那就到最後變成每個人，不管在公司內部、公司外面都像是一個 star。這其實是一個非常非常有趣的一個轉變。

那我也期待在這 2026 年，我們能看到這個更多相關轉變。2026 我們看到的：

地端模型就是持續的崛起
AI 的相關的 agency——我們用 AI 的相關的服務來加速一些傳統的產業
OpenClaw 小龍蝦這邊持續的就是變成一個真正的 open-source 數位員工
地端工具崛起
還有裡面有大量的資安的挑戰，以及大量對 AI 架構這上面的挑戰

我個人認為都是一個就是在這個美好的新的世界裡面，我們要去討論相關的議題。

最後，祝大家新年快樂。

Wisely Chen｜AI Agent、地端 LLM 與企業 AI 架構實戰筆記

反思週：從 Gemini 的傲慢、Benchmark 假象，到 AI 時代的結果交付力｜Weekly Vlog EP9

逐字稿