AI Agent 輸出垃圾？問題在你捨不得燒 Token

2026.03.23

分享至

TechFlow Selected深潮精選

AI Agent 輸出垃圾？問題在你捨不得燒 Token

問題不在提示詞！

2026.03.23 - 05:49:07

專注 Web3 行業深度報導，洞察潮水流動的方向

問題不在提示詞！

作者：Systematic Long Short

編譯：深潮 TechFlow

深潮導讀：這篇文章的核心論點只有一句話：AI Agent 輸出質量和你投入的 Token 數量成正比。

作者不是在泛泛談理論，而是給出了兩個可以今天就開始用的具體方法，並清楚地劃定了 Token 堆不出來的邊界——「新穎性問題」。

對正在用 Agent 寫代碼或跑工作流的讀者，信息密度和可操作性都很高。

引言

好吧，你得承認這個標題確實挺吸引眼球——但說真的，這不是玩笑。

2023 年，當我們還在用 LLM 跑生產代碼的時候，周圍的人都驚掉了下巴，因為當時普遍的認知還是 LLM 只能產出沒法用的垃圾。但我們知道一件別人沒意識到的事：Agent 的輸出質量，是你投入 Token 數量的函數。就這麼簡單。

你自己跑幾個實驗就能看出來。讓 Agent 完成一個複雜的、有些冷門的編程任務——比如說，從頭實現一個帶約束條件的凸優化算法。先用最低思考檔執行；再切到最高思考檔，讓它 review 自己的代碼，看看能發現多少 bug。中檔、高檔都試一遍。你會直觀地看到：bug 數量隨著投入的 Token 量單調遞減。

這不難理解，對吧？

Token 越多 = 錯誤越少。你可以把這個邏輯再推進一步，這基本上就是代碼 review 產品背後那個（簡化過的）核心思路。換一個全新的上下文，投入海量 Token（比如讓它逐行解析代碼，判斷每一行是否有 bug）——這樣基本可以抓出絕大多數、乃至全部的 bug。這個過程可以重複十次、一百次，每次都從「不同的角度」審視代碼庫，你最終能把所有 bug 都挖出來。

「多燒 Token 就能提升 Agent 質量」這個觀點，還有一個實證支撐：那些聲稱能用 Agent 全程寫代碼直接推上生產的團隊，要麼是基礎模型提供商本身，要麼是資金極其充裕的公司。

所以，如果你還在為 Agent 跑不出生產級代碼而苦惱——說句直白的，問題出在你身上。或者說，出在你錢包上。

怎麼判斷我燒的 Token 夠不夠

我寫過一整篇文章說，問題絕對不在你搭的框架（harness），「保持簡單」照樣能做出優秀的東西，我現在仍然堅持這個觀點。你讀了那篇，照著做了，但還是對 Agent 的輸出大失所望。你給我發了 DM，看到我已讀但沒回。

這篇，就是回覆。

你的 Agent 表現差、解決不了問題，大多數情況下，就是因為你燒的 Token 不夠。

解決一個問題需要投入多少 Token，完全取決於這個問題的規模、複雜度和新穎性。

「2+2 等於幾？」不需要多少 Token。

「幫我寫一個 bot，能掃描 Polymarket 和 Kalshi 之間的所有市場，找出在語義上相似、應該在同一事件前後結算的市場，設定無套利邊界，一旦出現套利機會就以低延遲的方式自動交易」——這需要燒一大堆 Token。

我們在實踐中發現了一件有意思的事。

如果你投入足夠多的 Token 去處理由規模和複雜度引發的問題，Agent 無論如何都能解決。換句話說，如果你想構建一個極度複雜、有很多組件和代碼行的東西，只要你往這些問題裡砸足夠多的 Token，它們最終都能被徹底解決。

這裡有一個小但重要的例外。

你的問題不能太新穎。就目前階段而言，任何數量的 Token 都無法解決「新穎性」問題。足夠多的 Token 能把複雜性帶來的錯誤降到零，但無法讓 Agent 憑空發明它不知道的東西。

這個結論其實讓我們鬆了口氣。

我們花了極大精力，燒了——很多很多非常多——Token，想試試能不能在幾乎不給引導的情況下讓 Agent 還原出機構投資流程。這部分原因是想搞清楚，我們（作為量化研究員）離被 AI 完全取代還有多少年。結果發現，Agent 根本做不到接近一個像樣的機構投資流程。我們認為這部分原因是它們從未見過這種東西——也就是說，機構投資流程在訓練數據里根本不存在。

所以，如果你的問題是新穎的，別指望靠堆 Token 來解決。你需要自己引導探索過程。但一旦你確定了實現方案，你就可以放心堆 Token 來執行——無論代碼庫多大、組件多複雜，都不是問題。

這裡有一個簡單的啟發式原則：Token 預算應當與代碼行數成正比地增長。