GPT-5.4，「Agent 原生」大模型來了？

2026.03.06

分享至

TechFlow Selected深潮精選

GPT-5.4，「Agent 原生」大模型來了？

OpenAI 終於想明白了。

2026.03.06 - 04:46:31

OpenAIAI

專注 Web3 行業深度報導，洞察潮水流動的方向

OpenAI 終於想明白了。

在傳聞剛剛兩天後，當地時間 3 月 5 日，OpenAI 就正式推出 GPT-5.4。而這次模型更新，主打的正是當下最火熱的 AI Agent 方向。

在 GPT-5.4 之前，大模型的能力邊界可以用一句話總結：它能告訴你「怎麼做」，但它自己做不了。

你讓它幫你分析競爭對手，它會給你一份洋洋灑灑的文字報告；你讓它整理 Excel，它會寫一段 Python 代碼讓你自己去跑；你讓它幫你訂機票，它會一步一步告訴你去哪個網站、點哪個按鈕。

中間那道牆，叫做「計算機操作」。

GPT-5.4 是 OpenAI 第一個把這道牆拆掉的通用模型。

GPT-5.4 相比之前模型的提升｜圖片來源：OpenAI

它可以通過截圖識別屏幕內容，發出鼠標和鍵盤指令，在不同應用之間執行多步工作流。用 OpenAI 自己的話說，這是他們「迄今為止面向專業工作最強大、最高效的前沿模型」。

更技術一點，GPT-5.4 支持高達 100 萬 token 的上下文窗口，並且可以調用 Playwright 等庫，直接操控瀏覽器和桌面應用。

這意味著它處理的不再是「關於任務的對話」，而是「任務本身」。

01 OpenAI 的鋪墊

如果你一直在跟蹤 OpenAI 最近幾個月的動作，會發現 GPT-5.4 不是一個突然冒出來的產品，而是一條清晰戰略線上的最新落子。

就在兩週前，OpenAI 剛剛發佈了 GPT-5.3-Codex，把 Codex 從「能寫代碼的 Agent」升級為「幾乎能做開發者在電腦上所有事情的 Agent」，並在 SWE-Bench Pro 和 Terminal-Bench 上刷新了行業基準。

與此同時，OpenAI 推出了面向企業的「Frontier」平臺，HP、Intuit、Uber 已經是早期用戶。

GPT-5.4 在表格填寫上明顯比 5.2 更聰明｜圖片來源：OpenAI

更早之前的 3 月 2 日，OpenAI 和 AWS 把原有的 38 億美元合作擴大到超過 1000 億美元，為期 8 年，AWS 成為 OpenAI Frontier 平臺的獨家第三方雲分發商。這筆錢的規模，本身就是一個信號。

1100 億美元的最新融資輪，由 Amazon、SoftBank 和 Nvidia 各出數百億美元撐起來，也在同期落地。

這不是一家在「研發好產品」的公司，這是一家在全力衝刺「贏得企業 AI Agent 市場」的公司。

GPT-5.4 的原生計算機操作能力，正是這場衝刺的關鍵武器。

02 真的好用嗎？

發佈會上的功能演示永遠很好看，問題在於實際表現。

金融科技公司 Walleye Capital 在內部測試中報告，GPT-5.4 在 Excel 財務模型評估裡，把準確度提高了 30 個百分點，顯著加快了情景分析的自動化流程。

人才評估平臺 Mercor 的 CEO 則直接稱其為「我們測試過的最好模型」，在處理幻燈片製作、財務建模和法律分析等長週期任務上表現突出。

一位每天使用 Codex 的獨立開發者，給出了更接地氣的評價：「GPT-5.4 是我在 Codex 裡的新日常驅動。它的思考方式更接近人類，沒有 5.3 那麼痴迷於技術細節。」但他也加了一句提醒——「要小心，我遇到過幾次模型錯誤執行任務卻隱瞞這一事實的情況。」

GPT-5.4 在操作和視覺方面的提升｜圖片來源：OpenAI

這個細節值得玩味。

基準測試數據也在印證這種能力的提升。據報道，GPT-5.4 在 GDPval 基準上的表現超過了 83% 的普通辦公室員工。這個數字聽起來很炸，但真正的問題不是「它能超過多少人」，而是「在哪些任務上能替代人」。

不過，愛丁堡大學信息學院的 Jeff Dalton 博士也指出了一個現實問題——目前的演示裡，幾乎沒有足夠詳細的評估證據來支撐那些宏大的說法。能力是真實的，但邊界在哪裡，還需要更多獨立驗證。

03 Agent 戰場，沒有安全區

如果說 GPT-5.4 代表 OpenAI 的 Agent 野心，那競爭對手們並沒有閒著。

Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上線了「Computer Use」功能，Anthropic 把它定位為專為複雜任務設計的混合推理模型。

Google 的 Gemini 2.0 系列也在「Agentic」能力上持續發力，Project Mariner 已經可以在 Chrome 瀏覽器裡自主完成多步操作。

但 GPT-5.4 和競品的本質差異，在於它是 OpenAI 第一個把計算機操作能力，內置進通用模型的產品——不是一個獨立工具，不是需要額外調用的 API，而是模型本身就帶著這個能力。

這個「原生」二字，在工程實現上意味著什麼，說白了就是更低的延遲、更自然的任務銜接、更少的「膠水代碼」。對於想快速落地 Agent 應用的企業來說，這個區別直接影響部署成本。

OpenAI 還宣佈 GPT-5.4 可以直接接入微軟 Excel 和 Google Sheets，在單元格層面完成粒度分析和自動化操作。這一步，明顯是在打企業決策流程的核心地帶。

Agent 的戰場，從來就不是哪家跑得快，而是誰能最先把自己嵌進企業工作流裡，成為那個「拔不掉的存在」。

技術發佈會總是充滿激情，但真正的考驗在第 91 天——那時候熱度散去，用戶在真實工作場景裡打開這個工具，它能不能穩穩接住那個截圖，準確點下那個按鈕，安靜地把任務跑完，然後把結果交回來。

那個開發者說的「隱瞞錯誤」，是我目前看到的這篇報道里最值得警惕的一句話。

AI Agent 能力的天花板，從來不是「它能做什麼」，而是「你敢不敢信任它去做」。

信任，才是這場 Agent 戰爭真正的貨幣。

歡迎加入深潮 TechFlow 官方社群

Telegram 訂閱群：https://t.me/TechFlowDaily

Twitter 官方帳號：https://x.com/TechFlowPost

Twitter 英文帳號：https://x.com/BlockFlow_News

原文連結

添加收藏

分享社交媒體

作者

极客公园

GPT-5.4，「Agent 原生」大模型來了？

TechFlow Selected深潮精選

GPT-5.4，「Agent 原生」大模型來了？

01 OpenAI 的鋪墊

02 真的好用嗎？

03 Agent 戰場，沒有安全區

相關文章

文章內容

美股潮向（6 月 19 日）：美伊協議落地溢價退潮，芯片獨秀再創新高、能源板塊領跌

DeepSeek 融資故事

Bernstein 研報：Agentic AI 會讓 CPU 從配角變主角，看多海光信息

對話 Arthur Hayes：AI 抽乾了市場的流動性，年底 BTC 將在 10 萬以下

CEX AI 軍備競賽：入口 or 基建，你更適配哪種方案？

OpenAI 審計財報：2025 年虧損 385 億美元，研發燒錢 192 億，微軟一年收走 172 億

給 OpenAI 盤前定價：Hyperliquid 上一門半年生死的新生意

“七巨頭”不夠用了？SpaceX 上市散戶狂買，華爾街端出“AI 科技十巨頭”

達利歐最新發聲：AI 集中度太高，未來 5 到 10 年美股實際回報可能是負的

美國政府封禁 Anthropic 模型，根本不是因為什麼「越獄」

深潮精選
更多>

GPT-5.4，「Agent 原生」大模型來了？

TechFlow Selected深潮精選

GPT-5.4，「Agent 原生」大模型來了？

01 OpenAI 的鋪墊

02 真的好用嗎？

03 Agent 戰場，沒有安全區

相關文章

文章內容

美股潮向（6 月 19 日）：美伊協議落地溢價退潮，芯片獨秀再創新高、能源板塊領跌

DeepSeek 融資故事

Bernstein 研報：Agentic AI 會讓 CPU 從配角變主角，看多海光信息

對話 Arthur Hayes：AI 抽乾了市場的流動性，年底 BTC 將在 10 萬以下

CEX AI 軍備競賽：入口 or 基建，你更適配哪種方案？

OpenAI 審計財報：2025 年虧損 385 億美元，研發燒錢 192 億，微軟一年收走 172 億

給 OpenAI 盤前定價：Hyperliquid 上一門半年生死的新生意

“七巨頭”不夠用了？SpaceX 上市散戶狂買，華爾街端出“AI 科技十巨頭”

達利歐最新發聲：AI 集中度太高，未來 5 到 10 年美股實際回報可能是負的

美國政府封禁 Anthropic 模型，根本不是因為什麼「越獄」

深潮精選更多>

深潮精選
更多>