
GPT-5.4, mô hình ngôn ngữ lớn “nguyên bản dành riêng cho Agent” đã xuất hiện?
Tuyển chọn TechFlowTuyển chọn TechFlow

GPT-5.4, mô hình ngôn ngữ lớn “nguyên bản dành riêng cho Agent” đã xuất hiện?
OpenAI cuối cùng cũng đã hiểu ra.
Chỉ hai ngày sau khi tin đồn xuất hiện, vào ngày 5 tháng 3 theo giờ địa phương, OpenAI chính thức ra mắt GPT-5.4. Đợt cập nhật mô hình lần này tập trung vào hướng AI Agent – lĩnh vực “nóng” nhất hiện nay.
Trước GPT-5.4, giới hạn năng lực của các mô hình ngôn ngữ lớn (LLM) có thể được tóm gọn trong một câu: “Nó có thể nói cho bạn biết ‘cách làm’, nhưng bản thân nó lại không tự làm được.”
Bạn yêu cầu nó phân tích đối thủ cạnh tranh, nó sẽ đưa ra một báo cáo văn bản dài dòng; bạn yêu cầu nó xử lý bảng tính Excel, nó sẽ viết một đoạn mã Python để bạn tự chạy; bạn yêu cầu nó đặt vé máy bay, nó sẽ từng bước hướng dẫn bạn truy cập website nào, nhấn nút nào.
Bức tường ở giữa ấy mang tên “thao tác máy tính”.
GPT-5.4 là mô hình tổng quát đầu tiên của OpenAI phá bỏ bức tường này.
![]()
Cải tiến của GPT-5.4 so với các mô hình trước đó | Nguồn ảnh: OpenAI
Mô hình này có khả năng nhận diện nội dung trên màn hình thông qua ảnh chụp màn hình, phát ra các lệnh chuột và bàn phím, đồng thời thực hiện quy trình công việc đa bước giữa các ứng dụng khác nhau. Theo cách diễn đạt của chính OpenAI, đây là “mô hình tiên tiến mạnh mẽ và hiệu quả nhất cho công việc chuyên nghiệp mà họ từng phát triển cho đến nay”.
Ở góc độ kỹ thuật hơn, GPT-5.4 hỗ trợ cửa sổ ngữ cảnh lên tới 1 triệu token và có thể gọi trực tiếp các thư viện như Playwright để điều khiển trình duyệt và ứng dụng trên máy tính để bàn.
Điều này nghĩa là nó không còn xử lý “cuộc hội thoại về nhiệm vụ” nữa, mà trực tiếp xử lý “chính nhiệm vụ đó”.
01 Những bước chuẩn bị của OpenAI
Nếu bạn theo dõi sát các động thái của OpenAI trong vài tháng gần đây, sẽ nhận ra GPT-5.4 không phải sản phẩm bất ngờ xuất hiện, mà là nước đi mới nhất trên một chiến lược rõ ràng.
Chỉ hai tuần trước, OpenAI vừa ra mắt GPT-5.3-Codex, nâng cấp Codex từ “Agent có khả năng viết mã” thành “Agent gần như có thể thực hiện mọi việc mà một lập trình viên làm trên máy tính”, đồng thời thiết lập lại các mốc chuẩn ngành trên SWE-Bench Pro và Terminal-Bench.
Đồng thời, OpenAI cũng ra mắt nền tảng “Frontier” dành riêng cho doanh nghiệp, với HP, Intuit và Uber đã trở thành những khách hàng sớm.
![]()
GPT-5.4 thông minh hơn rõ rệt so với phiên bản 5.2 trong việc điền biểu mẫu | Nguồn ảnh: OpenAI
Sớm hơn nữa, vào ngày 2 tháng 3, OpenAI và AWS đã mở rộng thỏa thuận hợp tác ban đầu trị giá 3,8 tỷ USD lên hơn 100 tỷ USD trong vòng 8 năm, với AWS trở thành nhà phân phối đám mây bên thứ ba duy nhất cho nền tảng Frontier của OpenAI. Quy mô khoản tiền này bản thân nó đã là một tín hiệu rõ ràng.
Vòng tài trợ mới nhất trị giá 110 tỷ USD cũng được hoàn tất cùng thời điểm, do Amazon, SoftBank và Nvidia mỗi bên đóng góp hàng chục tỷ USD.
Đây không phải một công ty chỉ đang “nghiên cứu và phát triển sản phẩm tốt”, mà là một công ty đang lao hết tốc lực nhằm “chiếm lĩnh thị trường AI Agent dành cho doanh nghiệp”.
Khả năng thao tác máy tính gốc (native computer operation) của GPT-5.4 chính là vũ khí then chốt trong cuộc đua này.
02 Thực tế có thực sự hiệu quả?
Các phần trình diễn chức năng tại buổi ra mắt luôn trông rất ấn tượng — vấn đề nằm ở hiệu suất thực tế.
Công ty tài chính công nghệ Walleye Capital báo cáo trong thử nghiệm nội bộ rằng GPT-5.4 đã nâng độ chính xác khi đánh giá mô hình tài chính Excel lên 30 điểm phần trăm, đồng thời đẩy nhanh đáng kể quy trình tự động hóa phân tích kịch bản.
CEO của nền tảng đánh giá nhân sự Mercor thậm chí gọi GPT-5.4 là “mô hình tốt nhất mà họ từng thử nghiệm”, đặc biệt nổi bật trong các tác vụ dài hạn như tạo bài thuyết trình, xây dựng mô hình tài chính và phân tích pháp lý.
Một nhà phát triển độc lập sử dụng Codex hàng ngày đưa ra đánh giá chân thực hơn: “GPT-5.4 là công cụ vận hành mới trong quy trình làm việc thường ngày của tôi với Codex. Cách suy luận của nó gần giống con người hơn, không quá ám ảnh bởi chi tiết kỹ thuật như phiên bản 5.3.” Tuy nhiên, anh ấy cũng đưa ra lời nhắc nhở: “Cần cẩn trọng — tôi từng gặp vài trường hợp mô hình thực hiện sai nhiệm vụ nhưng lại che giấu sự việc này.”
![]()
Cải tiến của GPT-5.4 trong thao tác và thị giác | Nguồn ảnh: OpenAI
Chi tiết này đáng để suy ngẫm.
Dữ liệu kiểm tra chuẩn cũng đang xác nhận sự cải thiện năng lực này. Theo báo cáo, GPT-5.4 đạt kết quả cao hơn 83% nhân viên văn phòng thông thường trên bộ kiểm tra GDPval. Con số này nghe rất ấn tượng, nhưng vấn đề thực sự không nằm ở “nó vượt mặt bao nhiêu người”, mà là “nó có thể thay thế con người ở những nhiệm vụ cụ thể nào”.
Tuy nhiên, Tiến sĩ Jeff Dalton thuộc Khoa Thông tin, Đại học Edinburgh cũng chỉ ra một vấn đề thực tế: hầu như không có bằng chứng đánh giá đủ chi tiết trong các phần trình diễn hiện tại để hỗ trợ những tuyên bố hoành tráng đó. Năng lực là có thật, nhưng ranh giới của nó ở đâu thì vẫn cần thêm nhiều kiểm chứng độc lập.
03 Trường đấu Agent: Không tồn tại vùng an toàn
Nếu GPT-5.4 đại diện cho khát vọng Agent của OpenAI, thì các đối thủ cạnh tranh cũng chẳng hề đứng yên.
Claude 3.7 Sonnet của Anthropic đã ra mắt tính năng “Computer Use” từ tháng Hai năm nay, và Anthropic định vị mô hình này là một mô hình suy luận lai (hybrid reasoning model) được thiết kế riêng cho các tác vụ phức tạp.
Dòng Gemini 2.0 của Google cũng liên tục tăng cường năng lực “Agentic”, trong khi Project Mariner đã có thể tự chủ thực hiện nhiều bước thao tác trong trình duyệt Chrome.
Tuy nhiên, điểm khác biệt cốt lõi giữa GPT-5.4 và các sản phẩm cạnh tranh nằm ở chỗ đây là mô hình tổng quát đầu tiên của OpenAI tích hợp sẵn khả năng thao tác máy tính ngay trong lõi mô hình — không phải một công cụ độc lập, cũng không phải một API cần gọi riêng, mà chính mô hình đã “mang sẵn” khả năng này.
Hai chữ “nguyên bản” (native) này, xét về mặt kỹ thuật, đồng nghĩa với độ trễ thấp hơn, sự chuyển tiếp giữa các tác vụ tự nhiên hơn, và ít hơn các đoạn “mã keo” (glue code). Đối với các doanh nghiệp muốn nhanh chóng triển khai ứng dụng Agent, sự khác biệt này ảnh hưởng trực tiếp đến chi phí triển khai.
OpenAI cũng công bố GPT-5.4 có thể kết nối trực tiếp với Microsoft Excel và Google Sheets, thực hiện phân tích và tự động hóa ở mức độ ô dữ liệu (cell-level). Động thái này rõ ràng nhằm tấn công vào “trung tâm quy trình ra quyết định doanh nghiệp”.
Trường đấu Agent chưa bao giờ là cuộc đua xem ai chạy nhanh hơn, mà là cuộc đua xem ai có thể sớm nhất “cắm rễ” vào quy trình làm việc của doanh nghiệp, trở thành một “yếu tố không thể gỡ bỏ”.
Các buổi ra mắt công nghệ luôn tràn đầy nhiệt huyết, nhưng bài kiểm tra thực sự diễn ra vào ngày thứ 91 — khi cơn sốt lắng xuống, người dùng mở công cụ này trong môi trường làm việc thực tế, và nó có thể ổn định bắt được ảnh chụp màn hình, nhấn đúng nút, lặng lẽ hoàn tất tác vụ rồi trả lại kết quả hay không.
Câu nói của nhà phát triển về việc “che giấu lỗi” là câu đáng lo ngại nhất mà tôi thấy trong báo cáo này.
Ngưỡng giới hạn thực sự của năng lực AI Agent không nằm ở “nó có thể làm gì”, mà ở “bạn dám tin tưởng để nó làm điều đó hay không”.
Sự tin tưởng mới chính là đồng tiền thực sự trong cuộc chiến Agent.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













