
GPT-5.4,「Agent 原生」大模型來了?
TechFlow Selected深潮精選

GPT-5.4,「Agent 原生」大模型來了?
OpenAI 終於想明白了。
在傳聞剛剛兩天後,當地時間 3 月 5 日,OpenAI 就正式推出 GPT-5.4。而這次模型更新,主打的正是當下最火熱的 AI Agent 方向。
在 GPT-5.4 之前,大模型的能力邊界可以用一句話總結:它能告訴你「怎麼做」,但它自己做不了。
你讓它幫你分析競爭對手,它會給你一份洋洋灑灑的文字報告;你讓它整理 Excel,它會寫一段 Python 代碼讓你自己去跑;你讓它幫你訂機票,它會一步一步告訴你去哪個網站、點哪個按鈕。
中間那道牆,叫做「計算機操作」。
GPT-5.4 是 OpenAI 第一個把這道牆拆掉的通用模型。
![]()
GPT-5.4 相比之前模型的提升|圖片來源:OpenAI
它可以通過截圖識別屏幕內容,發出鼠標和鍵盤指令,在不同應用之間執行多步工作流。用 OpenAI 自己的話說,這是他們「迄今為止面向專業工作最強大、最高效的前沿模型」。
更技術一點,GPT-5.4 支持高達 100 萬 token 的上下文窗口,並且可以調用 Playwright 等庫,直接操控瀏覽器和桌面應用。
這意味著它處理的不再是「關於任務的對話」,而是「任務本身」。
01 OpenAI 的鋪墊
如果你一直在跟蹤 OpenAI 最近幾個月的動作,會發現 GPT-5.4 不是一個突然冒出來的產品,而是一條清晰戰略線上的最新落子。
就在兩週前,OpenAI 剛剛發佈了 GPT-5.3-Codex,把 Codex 從「能寫代碼的 Agent」升級為「幾乎能做開發者在電腦上所有事情的 Agent」,並在 SWE-Bench Pro 和 Terminal-Bench 上刷新了行業基準。
與此同時,OpenAI 推出了面向企業的「Frontier」平臺,HP、Intuit、Uber 已經是早期用戶。
![]()
GPT-5.4 在表格填寫上明顯比 5.2 更聰明|圖片來源:OpenAI
更早之前的 3 月 2 日,OpenAI 和 AWS 把原有的 38 億美元合作擴大到超過 1000 億美元,為期 8 年,AWS 成為 OpenAI Frontier 平臺的獨家第三方雲分發商。這筆錢的規模,本身就是一個信號。
1100 億美元的最新融資輪,由 Amazon、SoftBank 和 Nvidia 各出數百億美元撐起來,也在同期落地。
這不是一家在「研發好產品」的公司,這是一家在全力衝刺「贏得企業 AI Agent 市場」的公司。
GPT-5.4 的原生計算機操作能力,正是這場衝刺的關鍵武器。
02 真的好用嗎?
發佈會上的功能演示永遠很好看,問題在於實際表現。
金融科技公司 Walleye Capital 在內部測試中報告,GPT-5.4 在 Excel 財務模型評估裡,把準確度提高了 30 個百分點,顯著加快了情景分析的自動化流程。
人才評估平臺 Mercor 的 CEO 則直接稱其為「我們測試過的最好模型」,在處理幻燈片製作、財務建模和法律分析等長週期任務上表現突出。
一位每天使用 Codex 的獨立開發者,給出了更接地氣的評價:「GPT-5.4 是我在 Codex 裡的新日常驅動。它的思考方式更接近人類,沒有 5.3 那麼痴迷於技術細節。」但他也加了一句提醒——「要小心,我遇到過幾次模型錯誤執行任務卻隱瞞這一事實的情況。」
![]()
GPT-5.4 在操作和視覺方面的提升|圖片來源:OpenAI
這個細節值得玩味。
基準測試數據也在印證這種能力的提升。據報道,GPT-5.4 在 GDPval 基準上的表現超過了 83% 的普通辦公室員工。這個數字聽起來很炸,但真正的問題不是「它能超過多少人」,而是「在哪些任務上能替代人」。
不過,愛丁堡大學信息學院的 Jeff Dalton 博士也指出了一個現實問題——目前的演示裡,幾乎沒有足夠詳細的評估證據來支撐那些宏大的說法。能力是真實的,但邊界在哪裡,還需要更多獨立驗證。
03 Agent 戰場,沒有安全區
如果說 GPT-5.4 代表 OpenAI 的 Agent 野心,那競爭對手們並沒有閒著。
Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上線了「Computer Use」功能,Anthropic 把它定位為專為複雜任務設計的混合推理模型。
Google 的 Gemini 2.0 系列也在「Agentic」能力上持續發力,Project Mariner 已經可以在 Chrome 瀏覽器裡自主完成多步操作。
但 GPT-5.4 和競品的本質差異,在於它是 OpenAI 第一個把計算機操作能力,內置進通用模型的產品——不是一個獨立工具,不是需要額外調用的 API,而是模型本身就帶著這個能力。
這個「原生」二字,在工程實現上意味著什麼,說白了就是更低的延遲、更自然的任務銜接、更少的「膠水代碼」。對於想快速落地 Agent 應用的企業來說,這個區別直接影響部署成本。
OpenAI 還宣佈 GPT-5.4 可以直接接入微軟 Excel 和 Google Sheets,在單元格層面完成粒度分析和自動化操作。這一步,明顯是在打企業決策流程的核心地帶。
Agent 的戰場,從來就不是哪家跑得快,而是誰能最先把自己嵌進企業工作流裡,成為那個「拔不掉的存在」。
技術發佈會總是充滿激情,但真正的考驗在第 91 天——那時候熱度散去,用戶在真實工作場景裡打開這個工具,它能不能穩穩接住那個截圖,準確點下那個按鈕,安靜地把任務跑完,然後把結果交回來。
那個開發者說的「隱瞞錯誤」,是我目前看到的這篇報道里最值得警惕的一句話。
AI Agent 能力的天花板,從來不是「它能做什麼」,而是「你敢不敢信任它去做」。
信任,才是這場 Agent 戰爭真正的貨幣。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News













