Agent 也需要「及時反饋」:Effective Feedback Compute 與 Agent 的 deliberate practice
又到了週二讀論文。
這一篇 Scaling Laws for Agent Harnesses via Effective Feedback Compute 告訴我們一件很反直覺的事:無腦加 Agent,很多時候是錯的。 不只不是最佳解,甚至可能是最差解之一。
那什麼才有用?答案出乎意料地老派——走人類驗證過、行之有年的路:「及時反饋」(deliberate practice)。 只要給 Agent 的反饋夠具體、夠可靠、而且能進到下一次決策裡,這套在人身上有效的東西,論文證明在 Agent 身上一樣有效。
先看數據:raw compute 只能解釋三四成
論文直接量化給你看:用 raw tokens 跟 tool calls 去解釋任務成功率,R² 只有 0.33–0.42。
換句話說,你燒了多少 token、調了幾次工具,大概只能解釋三四成的結果。剩下六成,跟 raw compute 無關。
我問了幾個也在做 Agent 落地的朋友,差不多都有類似的感覺。很多時候為了更快加速能力,第一反應就是「加」:把 tool log 開到 verbose、把 retry 從 1 次加到 3 次、再掛兩個工具進去。
結果呢?成本跟時間直接翻倍,但 Agent 只是把同一個錯誤判斷「更詳細地」重複了三遍。
它不是更聰明了,它只是更忙了。
轉折:Effective Feedback Compute(EFC)
論文的核心概念叫 Effective Feedback Compute(EFC)。它的定義很關鍵——不是所有互動都算數,只有同時滿足四個條件的反饋,才算「有效」:
- Informative:真的帶來新訊息,不是廢話。
- Valid:可靠、可信,不是雜訊或幻覺。
- Non-redundant:不是把已經知道的再講一遍。
- Retained:真的被 Agent 拿去改變了下一步決策。
最狠的是這個對照實驗:在 raw compute 預算「固定不變」的前提下,只去提升反饋的品質,任務成功率從 27% 拉到 90%。
成本沒變,只是反饋變有效,成功率三倍跳。
把 EFC 換算法套上去重新解釋成功率,R² 從 0.33 直接跳到 0.94–0.99。差距大概就是「你以為在衡量能力,其實在衡量忙碌」跟「你真的在衡量能力」的差別。
這根本就是學習理論的「及時反饋」
讀到這裡我整個被點醒——這套說法,跟學習理論講的「及時反饋」幾乎是同一件事。
deliberate practice 的核心就三點:反饋要具體、要可被行動、要進到下一次練習裡。對照 EFC 四條件,幾乎是一一對應:
- 具體 → Informative
- 正確 → Valid
- 進到下一次 → Retained for subsequent decisions
EFC 的 retained,根本就是學習科學裡「feedback loop 有沒有閉合」的翻版。練了不檢討、檢討了不改,等於沒練——Agent 也一樣。
而且這帶出一個更狠的推論:Agent 再怎麼努力、再怎麼「練一萬小時」,如果反饋沒閉合,一樣不會變強。 一萬小時定律從來不是「時數」的定律,是「有反饋的刻意練習」的定律。無腦堆 compute,就是讓 Agent 練了一萬小時無效的球。
那要不要導入 mem0 這類 memory 架構去記錄反饋?
這是我讀完第一個冒出來的問題。直覺答案是「該導」,但我會加一個但書。
Memory 架構(mem0、Letta 這類)命中的是四條件裡最難的第四條「retain」——但它只解決 retain,不會幫你過濾前三條。
如果你把雜訊、幻覺、重複的反饋也一股腦存進去,這些錯誤記憶會被反覆檢索出來,毒性比沒記憶還大——等於把「更忙」這件事,從單輪放大到跨 session。
這點人類的及時反饋老早就知道了:好的反饋要具體、要對,不是什麼奇怪訊息都往腦袋裡塞。教練不會把每一句廢話都要你記住。
所以導入 mem0 的同時,一定要配一道寫入閘門:這個反饋夠有料、可信、不重複嗎?過了再存。這一步才是把 memory 從「更大的 log」變成「真正的 EFC 放大器」的關鍵。
三個實戰建議
一、別再用 raw compute 當「能力提升」指標。 context 更長、工具更多、log 更詳細,是「我做了很多」的證據,不是「Agent 變強了」的證據。
二、每加一個工具或一輪 retry,先過 EFC 四條。 最關鍵是第四條——它會不會真的改變下一步決策?如果不會,加了就是純粹燒錢。
三、把反饋塞進 plan / revise / verify 的 close loop。 飄過去的 log 不算數,被整理、被記住、被複用,它才會變成 EFC。
坦白說,這篇論文也有保留空間
我不想把它講得像萬靈丹。解釋力最高的是 Oracle-EFC,那個「Oracle」用了事後才知道的理想資訊去判定哪些反饋有效——真實系統做不到,所以 0.94–0.99 是理論上限,不是你明天就拿得到的數字。而「retained」這條最難工程化:判斷一個反饋有沒有真的改變決策,本身就需要一套機制,論文給的是衡量框架,不是現成的實作。
但即使打了這些折扣,核心洞察我還是非常買單。
Agent 就跟人一樣
人類花了幾十年才確認:練得多不等於變強,練對、有反饋、會檢討才會變強。這就是 deliberate practice。這篇論文等於告訴我們,Agent 也吃這一套。
我們太容易掉進「我加了好多工具、開了好多 log」的滿足感裡,誤把「忙碌」當成「能力」。但 raw compute 衡量的是 Agent 有多忙,EFC 衡量的是它有多聰明。
未來 Agent Harness 的競爭,不會是誰掛的工具多、context 長,而是誰能讓每一次反饋都真的被用上。
好的 Harness,不是讓 Agent 多幹活,而是像個好教練——讓它每幹一步,都真的學到東西。
我們下週二見。
論文出處:Scaling Laws for Agent Harnesses via Effective Feedback Compute(Xuanliang Zhang, Dingzirui Wang, Keyan Xu, Qingfu Zhu, Wanxiang Che)