
Một bài viết để hiểu rõ GPT-5.5: Kể từ hôm nay, OpenAI “không bán” token nữa
Tuyển chọn TechFlowTuyển chọn TechFlow

Một bài viết để hiểu rõ GPT-5.5: Kể từ hôm nay, OpenAI “không bán” token nữa
Lớn hơn, đắt hơn và thông minh hơn — có người nói rằng “mất nó giống như bị cụt chi”.
Tác giả: Helen
Vào ngày 23 tháng 4 theo giờ địa phương, OpenAI chính thức ra mắt mô hình chủ lực thế hệ mới GPT-5.5, được công ty định vị là “một cấp độ trí tuệ hoàn toàn mới nhằm phục vụ công việc thực tế”, đồng thời cũng là một bước tiến quan trọng hướng tới một cách thức vận hành máy tính hoàn toàn mới.
Đợt ra mắt lần này tập trung vào hai điểm chính:
Thứ nhất là đột phá về hiệu suất: Với cùng độ trễ, mô hình lớn hơn nhưng tốc độ không hề chậm lại. Cửa sổ ngữ cảnh của GPT-5.5 đạt mức 1 triệu token; tuy nhiên, đây không đơn thuần là nâng cấp khả năng từ GPT-5.4, mà là đạt được mức độ thông minh cao hơn trên cùng độ trễ nhờ cải thiện hiệu suất.
Thứ hai, trong quá trình huấn luyện, GPT-5.5 đã tham gia tối ưu hóa cơ sở hạ tầng suy luận của chính mình. Nói một cách đơn giản, đây là lần đầu tiên AI học cách tự điều chỉnh tham số.
Trong bài kiểm tra luồng công việc dòng lệnh phức tạp Terminal-Bench 2.0, GPT-5.5 đạt điểm 82,7%, vượt xa Claude Opus 4.7 (69,4%) tới 13 điểm phần trăm; trong bài kiểm tra OSWorld-Verified – đánh giá khả năng vận hành máy tính thực tế một cách độc lập của AI – tỷ lệ thành công đạt 78,7%, vượt ngưỡng hiệu suất của con người; còn trong bài kiểm tra GDPval – đánh giá kiến thức chuyên môn trên 44 lĩnh vực nghề nghiệp khác nhau – GPT-5.5 hoàn thành 84,9% nhiệm vụ ở mức hoặc vượt chuẩn chuyên gia ngành.
Tuy nhiên, giá của GPT-5.5 cũng tăng rõ rệt.
Giá API được niêm yết ở mức 5 USD cho mỗi triệu token đầu vào và 30 USD cho mỗi triệu token đầu ra – gấp đôi so với GPT-5.4 (2,50 USD cho mỗi triệu token đầu vào và 15 USD cho mỗi triệu token đầu ra). Tuy nhiên, OpenAI nhấn mạnh rằng số lượng token cần thiết để hoàn thành cùng một tác vụ với GPT-5.5 giảm đáng kể, do đó chi phí tổng thể có thể không tăng đáng kể. Giá API GPT-5.5 Pro là 30 USD cho mỗi triệu token đầu vào và 180 USD cho mỗi triệu token đầu ra. Các gói xử lý hàng loạt và định giá linh hoạt được hưởng mức chiết khấu 50%; ưu tiên xử lý có giá bằng 2,5 lần giá tiêu chuẩn.
Trong ChatGPT, GPT-5.5 được triển khai dưới dạng “GPT-5.5 Thinking”, từng bước thay thế các phiên bản trước đó.
Một tính năng nhỏ mới được bổ sung là: Trước khi bắt đầu suy luận, mô hình sẽ đưa ra một bản tóm tắt sơ bộ về hướng tiếp cận; người dùng có thể chen ngang bất kỳ lúc nào trong quá trình thực thi để điều chỉnh hướng đi.
Nếu khái quát ý nghĩa của GPT-5.5 trong một câu: Các mô hình trước đây là tập hợp các khả năng, còn GPT-5.5 gần giống hơn với một hệ thống làm việc có khả năng lập kế hoạch, kiểm tra và thúc đẩy tiến trình liên tục.
01. 84,9% nhiệm vụ đạt trình độ chuyên gia
So sánh hiệu suất của GPT-5.5 với các đối thủ cạnh tranh trên các bộ đánh giá cốt lõi như Terminal-Bench 2.0, GDPval và OSWorld-Verified
Hãy bắt đầu bằng việc đánh giá hiệu suất của mô hình trong các tình huống nghề nghiệp thực tế. OpenAI sử dụng bộ đánh giá mang tên “GDPval”, yêu cầu mô hình thực hiện trọn vẹn một chuỗi nhiệm vụ chuyên ngành. Bộ đánh giá bao quát 44 lĩnh vực nghề nghiệp, bao gồm mô hình tài chính, phân tích pháp lý, báo cáo khoa học dữ liệu, quy hoạch vận hành, v.v.
Kết quả cho thấy: GPT-5.5 đạt hoặc vượt mức chuyên gia ngành trong 84,9% nhiệm vụ. So sánh với các mô hình khác: GPT-5.4 đạt 83,0%, Claude Opus 4.7 đạt 80,3%, còn Gemini 3.1 Pro chỉ đạt 67,3%.
Sự chênh lệch này không chỉ thể hiện ở điểm tổng thể. Trong các nhiệm vụ mô hình bảng tính, GPT-5.5 đạt 88,5% trong thử nghiệm nội bộ; trong các nhiệm vụ mô hình mức độ ngân hàng đầu tư, GPT-5.5 cũng dẫn trước thế hệ trước. Phản hồi từ những người dùng thử nghiệm sớm cũng khá thống nhất: Câu trả lời của GPT-5.5 Pro có sự cải thiện rõ rệt so với GPT-5.4 Pro về tính toàn diện, tính cấu trúc và tính ứng dụng thực tiễn — đặc biệt nổi bật trong các lĩnh vực kinh doanh, pháp lý, giáo dục và khoa học dữ liệu.
Chỉ nhìn các con số dễ gây nhàm chán, nên lần này OpenAI quyết định “mở cửa văn phòng” để bạn trực tiếp chứng kiến.
OpenAI cho biết hơn 85% nhân viên công ty sử dụng Codex hàng tuần, bao phủ nhiều bộ phận như tài chính, truyền thông, tiếp thị, sản phẩm và khoa học dữ liệu. Đội ngũ truyền thông dùng nó để phân tích dữ liệu về các lời mời thuyết trình trong suốt sáu tháng, từ đó xây dựng một quy trình phân loại tự động; đội tài chính dùng nó để kiểm tra 24.771 mẫu biểu mẫu thuế K-1, tương đương 71.637 trang, hoàn thành sớm hơn hai tuần so với năm ngoái; đội mở rộng thị trường tiết kiệm được từ 5 đến 10 giờ mỗi người mỗi tuần nhờ báo cáo tuần tự động.
Đây không phải là một màn trình diễn trong phòng thí nghiệm, mà đã trở thành một phần trong quy trình làm việc thường nhật.
02. Mô hình lập trình tự chủ mạnh nhất
OpenAI khẳng định GPT-5.5 hiện là mô hình lập trình tự chủ mạnh nhất của công ty.
Trên Terminal-Bench 2.0 (đánh giá luồng công việc dòng lệnh phức tạp, đòi hỏi khả năng lập kế hoạch, lặp lại và phối hợp công cụ), GPT-5.5 đạt 82,7%, tăng gần 8 điểm phần trăm so với GPT-5.4 (75,1%), đồng thời tiêu thụ ít token hơn. Trên SWE-Bench Pro (đánh giá khả năng giải quyết vấn đề GitHub thực tế trong một lần duy nhất), GPT-5.5 đạt 58,6%. Còn trong bài đánh giá nội bộ Expert-SWE (nhiệm vụ lập trình dài hạn, thời gian hoàn thành trung bình của con người khoảng 20 giờ), GPT-5.5 cũng vượt qua GPT-5.4.
Biểu đồ phân tán Terminal-Bench 2.0 và Expert-SWE
Dưới sự điều khiển của GPT-5.5, Codex giờ đây có thể tự hoàn tất toàn bộ quy trình phát triển — từ tạo mã, kiểm thử chức năng đến gỡ lỗi trực quan — chỉ từ một gợi ý một câu.
Các ví dụ minh họa do OpenAI công bố cho thấy ứng dụng nhiệm vụ không gian được xây dựng dựa trên dữ liệu quỹ đạo thực tế của NASA, hỗ trợ điều khiển tương tác 3D với mô phỏng cơ học quỹ đạo đạt độ chính xác vật lý thực tế; bộ theo dõi động đất kết nối nguồn dữ liệu thời gian thực và thực hiện trực quan hóa — điều này chứng tỏ mô hình đã sở hữu đầy đủ khả năng gọi API bên ngoài, xử lý dữ liệu động và hiển thị thời gian thực.
Về phản hồi từ người dùng: Dan Shipper, nhà sáng lập kiêm CEO của Every, kể lại một trải nghiệm: Trước đây anh gặp một lỗi sau khi triển khai, tự sửa trong vài ngày không xong, cuối cùng phải nhờ kỹ sư giỏi nhất công ty can thiệp và viết lại một phần hệ thống. Sau khi GPT-5.5 ra đời, anh thực hiện một thử nghiệm — đưa mô hình trở lại trạng thái chưa sửa lỗi và xem nó có thể tự đưa ra giải pháp giống kỹ sư hay không. GPT-5.4 không làm được, còn GPT-5.5 thì làm được. Anh nhận xét: “Đây là mô hình lập trình đầu tiên tôi từng dùng thực sự có khả năng tư duy mạch lạc.”
Đánh giá của một kỹ sư NVIDIA còn thẳng thắn hơn: “Việc mất quyền truy cập GPT-5.5 giống như bị cắt cụt chi vậy.”
Michael Truell, đồng sáng lập kiêm CEO của Cursor, bổ sung thêm: GPT-5.5 thông minh hơn và bền bỉ hơn GPT-5.4, có khả năng duy trì thực hiện các nhiệm vụ phức tạp, kéo dài hơn mà không dừng sớm — đây chính xác là đặc điểm cần thiết nhất trong công việc kỹ thuật.
03. Công việc tri thức: Lần đầu tiên AI thực sự “sử dụng” máy tính
Trong bài kiểm tra OSWorld-Verified (đánh giá khả năng vận hành môi trường máy tính thực tế một cách độc lập), GPT-5.5 đạt tỷ lệ thành công 78,7%, cao hơn GPT-5.4 (75,0%) và cũng vượt Claude Opus 4.7 (78,0%).
Đây không phải là phân tích ảnh chụp màn hình, mà là thao tác thực sự trên màn hình: nhìn giao diện, nhấp chuột, nhập liệu, chuyển đổi giữa nhiều công cụ cho đến khi hoàn tất nhiệm vụ. GPT-5.5 lần đầu tiên khiến người dùng cảm nhận rõ ràng rằng AI thực sự có thể cùng bạn sử dụng chung một chiếc máy tính.
Video minh họa mô hình tài chính
Trong bài kiểm tra luồng công việc tổng đài viễn thông Tau2-bench, GPT-5.5 đạt độ chính xác 98,0% mà không cần điều chỉnh gợi ý, trong khi GPT-5.4 chỉ đạt 92,8%.
Điều này cho thấy mô hình hiểu sâu sắc ý định nhiệm vụ đến mức không cần thiết kế kỹ lưỡng các gợi ý để xử lý các quy trình hội thoại đa bước phức tạp.
Về khả năng tìm kiếm công cụ, GPT-5.5 đạt 84,4% trong bài kiểm tra BrowseComp, còn GPT-5.5 Pro đạt tới 90,1%, cho thấy mô hình có khả năng truy xuất và tích hợp thông tin mạnh mẽ trong các nhiệm vụ nghiên cứu đòi hỏi suy luận tổng hợp từ nhiều nguồn thông tin.
04. Nghiên cứu khoa học: Hỗ trợ khám phá chứng minh toán học mới
Trong lần ra mắt này, hiệu suất của GPT-5.5 trong lĩnh vực nghiên cứu khoa học có thể là phần gây bất ngờ nhất.
Trước đây khi nói về AI làm nghiên cứu khoa học, chúng ta thường coi nó chỉ là “công cụ hỗ trợ”, dùng để tra cứu tài liệu, viết mã hoặc tổng hợp dữ liệu. Nhưng lần này vai trò của nó rõ ràng đã tiến lên phía trước, bắt đầu tham gia vào các khâu cốt lõi hơn: suy luận phức tạp, thậm chí cả việc khám phá.
Trên GeneBench (bộ đánh giá phân tích dữ liệu đa giai đoạn trong di truyền học và sinh học định lượng), GPT-5.5 đạt 25,0%, cao hơn GPT-5.4 (19,0%). Những nhiệm vụ này thường tương đương khối lượng công việc của chuyên gia khoa học trong vài ngày, đòi hỏi mô hình phải suy luận về khả năng tồn tại sai sót trong dữ liệu gần như không có giám sát, xử lý các yếu tố nhiễu tiềm ẩn và áp dụng đúng các phương pháp thống kê hiện đại.
Từ đường cong biểu đồ có thể thấy, khi số token đầu ra tăng lên, mức tăng điểm của GPT-5.5 luôn dẫn trước GPT-5.4, và sự chênh lệch rõ rệt xuất hiện tại khoảng 15.000 token — điều này cho thấy với các nhiệm vụ đòi hỏi suy luận sâu, lợi thế của GPT-5.5 sẽ càng được khuếch đại khi độ phức tạp tăng lên.
Trên BixBench (bộ đánh giá sinh tin học và phân tích dữ liệu trong thế giới thực), GPT-5.5 đạt 80,5%, vượt GPT-5.4 (74,0%) và đứng đầu trong số các mô hình đã công bố điểm số.
Điều thực sự thu hút sự chú ý là một ví dụ cụ thể: Một phiên bản nội bộ của GPT-5.5 được trang bị khung công cụ tùy chỉnh đã hỗ trợ khám phá một chứng minh toán học mới về số Ramsey và được xác minh bằng công cụ chứng minh hình thức Lean. Số Ramsey là đối tượng nghiên cứu cốt lõi trong toán tổ hợp; những thành quả trong lĩnh vực này rất hiếm và có độ khó kỹ thuật cực cao. Đây không phải là việc AI cung cấp mã hoặc giải thích, mà là đóng góp thực sự vào một lập luận toán học.
Ở cấp độ ứng dụng thực tế cũng rất thuyết phục. Giáo sư miễn dịch học Derya Unutmaz tại Phòng thí nghiệm Jackson đã sử dụng GPT-5.5 Pro để phân tích một tập dữ liệu biểu hiện gen gồm 62 mẫu và gần 28.000 gene, tạo ra báo cáo nghiên cứu chi tiết, rút ra những phát hiện then chốt và các câu hỏi nghiên cứu — ông cho biết công việc này thường đòi hỏi cả nhóm phải mất hàng tháng trời.
Giáo sư trợ giảng Bartosz Naskręcki thuộc Khoa Toán, Đại học Adam Mickiewicz tại Poznań, chỉ với một gợi ý duy nhất, đã sử dụng GPT-5.5 trong Codex để xây dựng một ứng dụng hình học đại số trong vòng 11 phút, trực quan hóa giao tuyến của hai mặt bậc hai và chuyển đổi đường cong thu được sang dạng mô hình Weierstrass. Các hệ số phương trình hiển thị thời gian thực ở bên phải có thể sử dụng trực tiếp cho các nghiên cứu toán học tiếp theo — từ gợi ý đến công cụ nghiên cứu chạy được, toàn bộ quá trình đều do mô hình tự hoàn tất.
Ảnh chụp màn hình ứng dụng hình học đại số do Giáo sư Bartosz Naskręcki xây dựng — trực quan hóa giao tuyến mặt bậc hai và giao diện tính toán thời gian thực phương trình Weierstrass
Brandon White, đồng sáng lập Axiom Bio, đánh giá trực tiếp hơn: “Nếu OpenAI duy trì đà này, nền tảng phát hiện thuốc sẽ thay đổi vào cuối năm nay.”
05. Hiệu suất suy luận: Lần đầu tiên AI tự tối ưu cơ sở hạ tầng của chính mình
Có một chi tiết trong lần ra mắt này dễ bị bỏ qua, nhưng lại có thể là tiến triển đáng chú ý nhất về mặt kỹ thuật.
GPT-5.5 là một mô hình lớn hơn và mạnh hơn, nhưng độ trễ trên mỗi token trong thực tế vẫn giữ nguyên so với GPT-5.4. Để duy trì độ trễ như cũ trong khi nâng cao năng lực, OpenAI đã thiết kế lại toàn bộ hệ thống suy luận — và chính Codex cùng GPT-5.5 đã trực tiếp tham gia vào quá trình tối ưu hóa này.
Điều này có thể dễ dàng nhận thấy từ biểu đồ chỉ số trí tuệ Artificial Analysis: trục hoành biểu thị tổng số token đầu ra (thang logarit), trục tung biểu thị điểm số trí tuệ tổng hợp. Đường cong của GPT-5.5 không chỉ dẫn trước toàn diện so với GPT-5.4, Claude Opus 4.7 và Gemini 3.1 Pro Preview về điểm số, mà quan trọng hơn là nó đã đạt được mức điểm mà các mô hình khác cần tiêu thụ nhiều token hơn mới đạt được — năng lực mạnh hơn, chi phí thấp hơn, đây chính là minh chứng trực quan nhất cho “cải thiện hiệu suất”.
Biểu đồ đường chỉ số trí tuệ Artificial Analysis
Cụ thể hơn, nhóm phát triển đối mặt với vấn đề cân bằng tải: Trước đây, các yêu cầu được chia thành các khối cố định nhằm cân bằng tải GPU, nhưng việc chia khối tĩnh không phải là tối ưu cho mọi dạng lưu lượng. Codex đã phân tích dữ liệu lưu lượng sản xuất trong vài tuần và viết thuật toán phỏng đoán tùy chỉnh, giúp nâng tốc độ tạo token hơn 20%.
GPT-5.5 được thiết kế đồng bộ, huấn luyện đồng bộ và triển khai đồng bộ với các hệ thống NVIDIA GB200 và GB300 NVL72. Nói cách khác, thế hệ mô hình này đã tham gia tối ưu hóa kiến trúc suy luận phục vụ chính nó — đây không phải phép ẩn dụ, mà là sự thật theo nghĩa đen: “AI cải tiến hệ thống chạy chính nó”.
06. An ninh mạng: Năng lực tăng, kiểm soát cũng siết chặt hơn
GPT-5.5 có sự cải thiện rõ rệt về năng lực an ninh mạng. Trong bài kiểm tra CyberGym, GPT-5.5 đạt 81,8%, cao hơn GPT-5.4 (79,0%) và Claude Opus 4.7 (73,1%). Trong các nhiệm vụ thử thách “cướp cờ” (CTF) nội bộ, GPT-5.5 đạt 88,1%, cao hơn GPT-5.4 (83,7%).
Biểu đồ cột CyberGym và biểu đồ phân tán nhiệm vụ thử thách CTF
OpenAI xếp hạng năng lực an ninh mạng và năng lực sinh học/hóa học của GPT-5.5 ở mức “cao” theo Khung Chuẩn bị Ứng phó Khẩn cấp, chưa đạt mức “then chốt”, nhưng đã có sự cải thiện rõ rệt so với thế hệ trước. Đồng thời, công ty cũng thừa nhận rằng bộ phân loại rủi ro nghiêm ngặt hơn vừa triển khai “ban đầu có thể khiến một số người dùng cảm thấy bất tiện”, và sẽ tiếp tục điều chỉnh.
Để cân bằng giữa nhu cầu phòng thủ và giới hạn truy cập, OpenAI ra mắt chương trình “Truy cập đáng tin cậy về an ninh mạng”: Các nhà nghiên cứu an ninh mạng đủ điều kiện và những người bảo vệ cơ sở hạ tầng trọng yếu có thể đăng ký để được cấp quyền truy cập linh hoạt hơn, từ đó sử dụng các năng lực an ninh mạng nâng cao với ít trở ngại hơn.
Nhìn sâu vào logic đằng sau, sự lan tỏa công nghệ trong các lĩnh vực như an ninh mạng, thậm chí cả sinh học, gần như là xu thế không thể đảo ngược. Thay vì cố gắng hạn chế tuyệt đối việc sử dụng của tất cả mọi người, cách tiếp cận hợp lý hơn là: để những người thực sự làm công tác phòng thủ được ưu tiên sử dụng công cụ tiên tiến nhất. Nói ngắn gọn, đây không còn là vấn đề “có nên mở cửa hay không”, mà là “nên ưu tiên mở cửa cho ai trước”.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News











