GPT-5.4, mô hình ngôn ngữ lớn “nguyên bản dành riêng cho Agent” đã xuất hiện?

2026.03.06

Chia sẻ đến

Tuyển chọn TechFlowTuyển chọn TechFlow

GPT-5.4, mô hình ngôn ngữ lớn “nguyên bản dành riêng cho Agent” đã xuất hiện?

OpenAI cuối cùng cũng đã hiểu ra.

2026.03.06 - 04:46:31

OpenAIAI

Chuyên sâu báo cáo Web3

OpenAI cuối cùng cũng đã hiểu ra.

Chỉ hai ngày sau khi tin đồn xuất hiện, vào ngày 5 tháng 3 theo giờ địa phương, OpenAI chính thức ra mắt GPT-5.4. Đợt cập nhật mô hình lần này tập trung vào hướng AI Agent – lĩnh vực “nóng” nhất hiện nay.

Trước GPT-5.4, giới hạn năng lực của các mô hình ngôn ngữ lớn (LLM) có thể được tóm gọn trong một câu: “Nó có thể nói cho bạn biết ‘cách làm’, nhưng bản thân nó lại không tự làm được.”

Bạn yêu cầu nó phân tích đối thủ cạnh tranh, nó sẽ đưa ra một báo cáo văn bản dài dòng; bạn yêu cầu nó xử lý bảng tính Excel, nó sẽ viết một đoạn mã Python để bạn tự chạy; bạn yêu cầu nó đặt vé máy bay, nó sẽ từng bước hướng dẫn bạn truy cập website nào, nhấn nút nào.

Bức tường ở giữa ấy mang tên “thao tác máy tính”.

GPT-5.4 là mô hình tổng quát đầu tiên của OpenAI phá bỏ bức tường này.

Cải tiến của GPT-5.4 so với các mô hình trước đó | Nguồn ảnh: OpenAI

Mô hình này có khả năng nhận diện nội dung trên màn hình thông qua ảnh chụp màn hình, phát ra các lệnh chuột và bàn phím, đồng thời thực hiện quy trình công việc đa bước giữa các ứng dụng khác nhau. Theo cách diễn đạt của chính OpenAI, đây là “mô hình tiên tiến mạnh mẽ và hiệu quả nhất cho công việc chuyên nghiệp mà họ từng phát triển cho đến nay”.

Ở góc độ kỹ thuật hơn, GPT-5.4 hỗ trợ cửa sổ ngữ cảnh lên tới 1 triệu token và có thể gọi trực tiếp các thư viện như Playwright để điều khiển trình duyệt và ứng dụng trên máy tính để bàn.

Điều này nghĩa là nó không còn xử lý “cuộc hội thoại về nhiệm vụ” nữa, mà trực tiếp xử lý “chính nhiệm vụ đó”.

01 Những bước chuẩn bị của OpenAI

Nếu bạn theo dõi sát các động thái của OpenAI trong vài tháng gần đây, sẽ nhận ra GPT-5.4 không phải sản phẩm bất ngờ xuất hiện, mà là nước đi mới nhất trên một chiến lược rõ ràng.

Chỉ hai tuần trước, OpenAI vừa ra mắt GPT-5.3-Codex, nâng cấp Codex từ “Agent có khả năng viết mã” thành “Agent gần như có thể thực hiện mọi việc mà một lập trình viên làm trên máy tính”, đồng thời thiết lập lại các mốc chuẩn ngành trên SWE-Bench Pro và Terminal-Bench.

Đồng thời, OpenAI cũng ra mắt nền tảng “Frontier” dành riêng cho doanh nghiệp, với HP, Intuit và Uber đã trở thành những khách hàng sớm.

GPT-5.4 thông minh hơn rõ rệt so với phiên bản 5.2 trong việc điền biểu mẫu | Nguồn ảnh: OpenAI

Sớm hơn nữa, vào ngày 2 tháng 3, OpenAI và AWS đã mở rộng thỏa thuận hợp tác ban đầu trị giá 3,8 tỷ USD lên hơn 100 tỷ USD trong vòng 8 năm, với AWS trở thành nhà phân phối đám mây bên thứ ba duy nhất cho nền tảng Frontier của OpenAI. Quy mô khoản tiền này bản thân nó đã là một tín hiệu rõ ràng.

Vòng tài trợ mới nhất trị giá 110 tỷ USD cũng được hoàn tất cùng thời điểm, do Amazon, SoftBank và Nvidia mỗi bên đóng góp hàng chục tỷ USD.

Đây không phải một công ty chỉ đang “nghiên cứu và phát triển sản phẩm tốt”, mà là một công ty đang lao hết tốc lực nhằm “chiếm lĩnh thị trường AI Agent dành cho doanh nghiệp”.

Khả năng thao tác máy tính gốc (native computer operation) của GPT-5.4 chính là vũ khí then chốt trong cuộc đua này.

02 Thực tế có thực sự hiệu quả?

Các phần trình diễn chức năng tại buổi ra mắt luôn trông rất ấn tượng — vấn đề nằm ở hiệu suất thực tế.

Công ty tài chính công nghệ Walleye Capital báo cáo trong thử nghiệm nội bộ rằng GPT-5.4 đã nâng độ chính xác khi đánh giá mô hình tài chính Excel lên 30 điểm phần trăm, đồng thời đẩy nhanh đáng kể quy trình tự động hóa phân tích kịch bản.

CEO của nền tảng đánh giá nhân sự Mercor thậm chí gọi GPT-5.4 là “mô hình tốt nhất mà họ từng thử nghiệm”, đặc biệt nổi bật trong các tác vụ dài hạn như tạo bài thuyết trình, xây dựng mô hình tài chính và phân tích pháp lý.

Một nhà phát triển độc lập sử dụng Codex hàng ngày đưa ra đánh giá chân thực hơn: “GPT-5.4 là công cụ vận hành mới trong quy trình làm việc thường ngày của tôi với Codex. Cách suy luận của nó gần giống con người hơn, không quá ám ảnh bởi chi tiết kỹ thuật như phiên bản 5.3.” Tuy nhiên, anh ấy cũng đưa ra lời nhắc nhở: “Cần cẩn trọng — tôi từng gặp vài trường hợp mô hình thực hiện sai nhiệm vụ nhưng lại che giấu sự việc này.”

Cải tiến của GPT-5.4 trong thao tác và thị giác | Nguồn ảnh: OpenAI

Chi tiết này đáng để suy ngẫm.

Dữ liệu kiểm tra chuẩn cũng đang xác nhận sự cải thiện năng lực này. Theo báo cáo, GPT-5.4 đạt kết quả cao hơn 83% nhân viên văn phòng thông thường trên bộ kiểm tra GDPval. Con số này nghe rất ấn tượng, nhưng vấn đề thực sự không nằm ở “nó vượt mặt bao nhiêu người”, mà là “nó có thể thay thế con người ở những nhiệm vụ cụ thể nào”.

Tuy nhiên, Tiến sĩ Jeff Dalton thuộc Khoa Thông tin, Đại học Edinburgh cũng chỉ ra một vấn đề thực tế: hầu như không có bằng chứng đánh giá đủ chi tiết trong các phần trình diễn hiện tại để hỗ trợ những tuyên bố hoành tráng đó. Năng lực là có thật, nhưng ranh giới của nó ở đâu thì vẫn cần thêm nhiều kiểm chứng độc lập.

03 Trường đấu Agent: Không tồn tại vùng an toàn

Nếu GPT-5.4 đại diện cho khát vọng Agent của OpenAI, thì các đối thủ cạnh tranh cũng chẳng hề đứng yên.

Claude 3.7 Sonnet của Anthropic đã ra mắt tính năng “Computer Use” từ tháng Hai năm nay, và Anthropic định vị mô hình này là một mô hình suy luận lai (hybrid reasoning model) được thiết kế riêng cho các tác vụ phức tạp.

Dòng Gemini 2.0 của Google cũng liên tục tăng cường năng lực “Agentic”, trong khi Project Mariner đã có thể tự chủ thực hiện nhiều bước thao tác trong trình duyệt Chrome.

Tuy nhiên, điểm khác biệt cốt lõi giữa GPT-5.4 và các sản phẩm cạnh tranh nằm ở chỗ đây là mô hình tổng quát đầu tiên của OpenAI tích hợp sẵn khả năng thao tác máy tính ngay trong lõi mô hình — không phải một công cụ độc lập, cũng không phải một API cần gọi riêng, mà chính mô hình đã “mang sẵn” khả năng này.

Hai chữ “nguyên bản” (native) này, xét về mặt kỹ thuật, đồng nghĩa với độ trễ thấp hơn, sự chuyển tiếp giữa các tác vụ tự nhiên hơn, và ít hơn các đoạn “mã keo” (glue code). Đối với các doanh nghiệp muốn nhanh chóng triển khai ứng dụng Agent, sự khác biệt này ảnh hưởng trực tiếp đến chi phí triển khai.

OpenAI cũng công bố GPT-5.4 có thể kết nối trực tiếp với Microsoft Excel và Google Sheets, thực hiện phân tích và tự động hóa ở mức độ ô dữ liệu (cell-level). Động thái này rõ ràng nhằm tấn công vào “trung tâm quy trình ra quyết định doanh nghiệp”.

Trường đấu Agent chưa bao giờ là cuộc đua xem ai chạy nhanh hơn, mà là cuộc đua xem ai có thể sớm nhất “cắm rễ” vào quy trình làm việc của doanh nghiệp, trở thành một “yếu tố không thể gỡ bỏ”.

Các buổi ra mắt công nghệ luôn tràn đầy nhiệt huyết, nhưng bài kiểm tra thực sự diễn ra vào ngày thứ 91 — khi cơn sốt lắng xuống, người dùng mở công cụ này trong môi trường làm việc thực tế, và nó có thể ổn định bắt được ảnh chụp màn hình, nhấn đúng nút, lặng lẽ hoàn tất tác vụ rồi trả lại kết quả hay không.

Câu nói của nhà phát triển về việc “che giấu lỗi” là câu đáng lo ngại nhất mà tôi thấy trong báo cáo này.

Ngưỡng giới hạn thực sự của năng lực AI Agent không nằm ở “nó có thể làm gì”, mà ở “bạn dám tin tưởng để nó làm điều đó hay không”.

Sự tin tưởng mới chính là đồng tiền thực sự trong cuộc chiến Agent.

Chào mừng tham gia cộng đồng chính thức TechFlow

Nhóm Telegram:https://t.me/TechFlowDaily

Tài khoản Twitter chính thức:https://x.com/TechFlowPost

Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News

Liên kết gốc

Thêm vào mục ưa thích

Chia sẻ lên mạng xã hội

Tác giả

极客公园

GPT-5.4, mô hình ngôn ngữ lớn “nguyên bản dành riêng cho Agent” đã xuất hiện?

Tuyển chọn TechFlowTuyển chọn TechFlow

GPT-5.4, mô hình ngôn ngữ lớn “nguyên bản dành riêng cho Agent” đã xuất hiện?

01 Những bước chuẩn bị của OpenAI

02 Thực tế có thực sự hiệu quả?

03 Trường đấu Agent: Không tồn tại vùng an toàn

Bài viết liên quan

Nội dung bài viết

Xu hướng thị trường chứng khoán Mỹ (19/6): Kỳ vọng về thỏa thuận Mỹ–Iran suy giảm sau khi thỏa thuận được ký kết; ngành bán dẫn tiếp tục tỏa sáng và lập đỉnh mới, trong khi lĩnh vực năng lượng dẫn đầu đà giảm.

Câu chuyện huy động vốn của DeepSeek

Báo cáo nghiên cứu của Bernstein: AI tác nhân (Agentic AI) sẽ biến CPU từ vai phụ thành vai chính – khuyến nghị mua Haisco Information

Cuộc trò chuyện với Arthur Hayes: AI đã làm cạn kiệt thanh khoản thị trường, giá BTC sẽ dưới 100.000 USD vào cuối năm

Cuộc chạy đua vũ trang AI của các sàn giao dịch tập trung (CEX): Cổng vào hay hạ tầng – giải pháp nào phù hợp hơn với bạn?

Kiểm toán tài chính của OpenAI: Thua lỗ 38,5 tỷ USD trong năm 2025, chi 19,2 tỷ USD cho nghiên cứu và phát triển, Microsoft thu về 17,2 tỷ USD trong một năm

Định giá trước giao dịch cho OpenAI: Một mô hình kinh doanh mới trên Hyperliquid với thời hạn sống chỉ sáu tháng

“Bảy công ty lớn” đã không còn đủ? Cổ phiếu SpaceX niêm yết, nhà đầu tư cá nhân đổ xô mua; Phố Wall đề xuất “Mười công ty công nghệ AI hàng đầu”

Ray Dalio mới đây phát biểu: Độ tập trung của AI quá cao, lợi nhuận thực tế của thị trường chứng khoán Mỹ trong 5–10 năm tới có thể là âm.

Chính phủ Hoa Kỳ cấm các mô hình của Anthropic không phải vì lý do «thoát khỏi kiểm soát» nào cả.

Tuyển chọn TechFlow
Xem thêm>

GPT-5.4, mô hình ngôn ngữ lớn “nguyên bản dành riêng cho Agent” đã xuất hiện?

Tuyển chọn TechFlowTuyển chọn TechFlow

GPT-5.4, mô hình ngôn ngữ lớn “nguyên bản dành riêng cho Agent” đã xuất hiện?

01 Những bước chuẩn bị của OpenAI

02 Thực tế có thực sự hiệu quả?

03 Trường đấu Agent: Không tồn tại vùng an toàn

Bài viết liên quan

Nội dung bài viết

Xu hướng thị trường chứng khoán Mỹ (19/6): Kỳ vọng về thỏa thuận Mỹ–Iran suy giảm sau khi thỏa thuận được ký kết; ngành bán dẫn tiếp tục tỏa sáng và lập đỉnh mới, trong khi lĩnh vực năng lượng dẫn đầu đà giảm.

Câu chuyện huy động vốn của DeepSeek

Báo cáo nghiên cứu của Bernstein: AI tác nhân (Agentic AI) sẽ biến CPU từ vai phụ thành vai chính – khuyến nghị mua Haisco Information

Cuộc trò chuyện với Arthur Hayes: AI đã làm cạn kiệt thanh khoản thị trường, giá BTC sẽ dưới 100.000 USD vào cuối năm

Cuộc chạy đua vũ trang AI của các sàn giao dịch tập trung (CEX): Cổng vào hay hạ tầng – giải pháp nào phù hợp hơn với bạn?

Kiểm toán tài chính của OpenAI: Thua lỗ 38,5 tỷ USD trong năm 2025, chi 19,2 tỷ USD cho nghiên cứu và phát triển, Microsoft thu về 17,2 tỷ USD trong một năm

Định giá trước giao dịch cho OpenAI: Một mô hình kinh doanh mới trên Hyperliquid với thời hạn sống chỉ sáu tháng

“Bảy công ty lớn” đã không còn đủ? Cổ phiếu SpaceX niêm yết, nhà đầu tư cá nhân đổ xô mua; Phố Wall đề xuất “Mười công ty công nghệ AI hàng đầu”

Ray Dalio mới đây phát biểu: Độ tập trung của AI quá cao, lợi nhuận thực tế của thị trường chứng khoán Mỹ trong 5–10 năm tới có thể là âm.

Chính phủ Hoa Kỳ cấm các mô hình của Anthropic không phải vì lý do «thoát khỏi kiểm soát» nào cả.

Tuyển chọn TechFlowXem thêm>

Tuyển chọn TechFlow
Xem thêm>