
Sau khi ra mắt ChatGPT Health 6 ngày, OpenAI bị vượt mặt trên chính bảng điểm chuẩn y tế của mình
Tuyển chọn TechFlowTuyển chọn TechFlow

Sau khi ra mắt ChatGPT Health 6 ngày, OpenAI bị vượt mặt trên chính bảng điểm chuẩn y tế của mình
BaiChuan Intelligence cho biết trong nửa đầu năm nay, sẽ lần lượt ra mắt hai sản phẩm y tế dành cho người tiêu dùng.
Tác giả: Li Yuan
Bạn đã từng hỏi trợ lý AI của mình về các vấn đề sức khỏe chưa?
Nếu bạn cũng là một người dùng AI chuyên sâu như tôi, rất có thể bạn đã thử qua.
Dữ liệu do chính OpenAI công bố cho thấy, lĩnh vực sức khỏe đã trở thành một trong những trường hợp sử dụng phổ biến nhất của ChatGPT, với hơn 230 triệu người trên toàn thế giới đặt câu hỏi liên quan đến sức khỏe và chăm sóc sức khỏe mỗi tuần.
Chính vì vậy, khi bước vào năm 2026, lĩnh vực y tế dường như đang trở thành mảnh đất tranh giành quyết liệt trong ngành AI.
Vào ngày 7 tháng 1, OpenAI ra mắt ChatGPT Health, cho phép người dùng kết nối hồ sơ y tế điện tử và nhiều ứng dụng sức khỏe khác nhau để nhận được phản hồi y tế cá nhân hóa hơn; và chỉ vài ngày sau, vào ngày 12 tháng 1, Anthropic cũng nhanh chóng ra mắt Claude for Healthcare, nhấn mạnh khả năng mới của mô hình trong các tình huống y học.
Tuy nhiên điều thú vị là lần này, các công ty Trung Quốc không hề tụt hậu, thậm chí còn có dấu hiệu dẫn đầu.
Vào ngày 13 tháng 1, Baichuan Intelligence thông báo phát hành mô hình Baichuan M3, vượt qua GPT-5.2 High của OpenAI trên bộ dữ liệu đánh giá HealthBench trong lĩnh vực y tế do OpenAI công bố, đạt điểm SOTA (trạng thái nghệ thuật tiên tiến nhất).
Sau khi tuyên bố "đặt cược tất cả vào y tế" và vấp phải nhiều nghi ngờ, Baichuan Intelligence dường như cuối cùng cũng đã chứng minh được năng lực của mình. GeekPark đã dành riêng cuộc trò chuyện với Vương Tiểu Xuyên để tìm hiểu cách Baichuan nhìn nhận khả năng của mô hình M3 lần này cũng như viễn cảnh cuối cùng của AI trong y tế.
01 Lần đầu tiên vượt mặt OpenAI trong bộ kiểm thử lĩnh vực sức khỏe
Một trong những thành tích nổi bật nhất của mô hình M3 được phát hành lần này là việc lần đầu tiên một mô hình vượt qua GPT-5.2 High của OpenAI trên bộ kiểm thử đánh giá lĩnh vực y tế HealthBench do OpenAI công bố, đạt được điểm SOTA.

SOTA Trên Healthbench, Healthbench Hard và Đánh giá Ảo giác
Healthbench là bộ kiểm thử đánh giá lĩnh vực y tế do OpenAI công bố vào tháng 5 năm 2025, do 262 bác sĩ từ 60 quốc gia cùng xây dựng, bao gồm 5.000 chuỗi hội thoại y tế đa vòng đời thực cao, hiện là một trong những bộ đánh giá y tế uy tín nhất toàn cầu và gần gũi nhất với các tình huống lâm sàng thực tế.
Kể từ khi phát hành, các mô hình của OpenAI luôn thống trị bảng xếp hạng.
Lần này, mô hình lớn mở nguồn mới nhất chuyên về y tế của Baichuan Intelligence – Baichuan-M3 – đạt tổng điểm 65,1, đứng đầu toàn cầu; thậm chí trên HealthBench Hard – phần kiểm tra khả năng ra quyết định phức tạp – M3 cũng giành ngôi vô địch, lập kỷ lục điểm số cao nhất.
Baichuan đồng thời công bố thêm kết quả kiểm thử tỷ lệ ảo giác: mô hình M3 đạt mức 3,5%, thuộc loại thấp nhất toàn cầu.
Đáng chú ý, tỷ lệ ảo giác này được đo ở chế độ thuần mô hình, không phụ thuộc vào bất kỳ công cụ truy xuất bên ngoài nào.
Theo Baichuan Intelligence, chìa khóa để đạt được hai điểm này nằm ở việc cải tiến mô hình bằng cách áp dụng thuật toán học tăng cường phù hợp với lĩnh vực y tế.
Baichuan lần đầu tiên áp dụng công nghệ Fact Aware RL (Học tăng cường nhận thức sự thật) trên mô hình M3, giúp mô hình vừa không nói lan man, vừa tránh nói bừa.
Đây thực sự là yếu tố then chốt trong lĩnh vực y tế.
Khi đặt câu hỏi y tế cho các mô hình chưa được tối ưu hóa, hai lỗi phổ biến nhất là: thứ nhất, mô hình tự bịa ra triệu chứng, phỏng đoán bệnh lý không có thật; thứ hai, mô hình trả lời mơ hồ rồi khuyên bạn nên đi khám bác sĩ – điều này chẳng mang lại ích lợi gì đáng kể cho cả bác sĩ lẫn bệnh nhân.
Nguyên nhân chính là do nhiều mô hình lấy tỷ lệ ảo giác thuần túy làm mục tiêu tối ưu hóa, khiến chúng có thể giảm tỷ lệ ảo giác bằng cách chất đống các chi tiết đúng đơn giản. Để khắc phục, Baichuan đưa vào cơ chế phân cụm ngữ nghĩa và trọng số hóa theo tầm quan trọng — phân cụm nhằm loại bỏ nhiễu do diễn đạt dư thừa, trọng số hóa đảm bảo các luận điểm y khoa cốt lõi được ưu tiên cao hơn.
Đồng thời, nếu chỉ đơn thuần tăng phạt nặng với ảo giác, mô hình dễ rơi vào chiến lược bảo thủ "nói ít thì sai ít". Vì vậy, thuật toán Fact Aware RL còn thiết kế cơ chế điều chỉnh trọng số động, tự động cân bằng hai mục tiêu này dựa trên năng lực hiện tại của mô hình — trong giai đoạn xây dựng năng lực, ưu tiên học và biểu đạt kiến thức y khoa (trọng số nhiệm vụ cao); khi năng lực trưởng thành, dần siết chặt ràng buộc tính chân thực (tăng trọng số ảo giác).
Khi có thể kết nối mạng, Baichuan còn bổ sung mô-đun xác minh trực tuyến dựa trên tìm kiếm đa vòng, đồng thời áp dụng hệ thống bộ nhớ đệm hiệu quả để căn chỉnh lượng lớn kiến thức y tế.
02 Trình độ chẩn đoán vượt bác sĩ con người, bước vào giai đoạn sử dụng được
Tuy nhiên, việc vượt mặt OpenAI trên Healthbench không phải là điểm nổi bật duy nhất.
Một điểm thú vị hơn, Baichuan đã sáng tạo ra bộ kiểm thử riêng có tên SCAN-benche. So với việc chạy đua điểm số trên bộ kiểm thử của OpenAI, bộ kiểm thử tự xây dựng này có lẽ phản ánh rõ hơn định hướng mà Baichuan Intelligence muốn tối ưu trong lĩnh vực y tế.
Trọng tâm của bộ kiểm thử do Baichuan xây dựng là cải thiện "khả năng chẩn đoán đầu cuối". Điều này bắt nguồn từ quan sát thực nghiệm của chính Baichuan: cứ tăng 2% độ chính xác trong hỏi bệnh, độ chính xác kết quả chẩn đoán sẽ tăng 1%.
Tức là so với HealthBench của OpenAI vẫn chủ yếu tập trung vào "AI có biết trả lời câu hỏi hay không", SCAN-benche của Baichuan hướng tới việc đánh giá xem: AI có thể thu thập thông tin hiệu quả trong quá trình đối thoại và đưa ra kết quả chẩn đoán, tư vấn y tế chính xác hay không.
Thông thường, khi đặt câu hỏi cho trợ lý AI, dù có nhắc "bạn là một bác sĩ giàu kinh nghiệm", hiệu quả mô hình thường không tốt. Bởi quy trình hỏi bệnh thực sự của bác sĩ rất chuẩn mực — Baichuan khái quát thành nguyên tắc SCAN bốn góc phần tư: Safety Stratification (phân tầng an toàn), Clarity Matters (làm rõ thông tin), Association & Inquiry (liên kết và hỏi sâu), Normative Protocol (đầu ra chuẩn hóa).
Dựa trên nguyên tắc SCAN, Baichuan tham khảo phương pháp OSCE lâu nay được dùng trong giáo dục y khoa, phối hợp cùng hơn 150 bác sĩ tuyến đầu xây dựng hệ thống đánh giá SCAN-bench, chia quá trình chẩn trị thành ba giai đoạn lớn: thu thập tiền sử, xét nghiệm hỗ trợ, chẩn đoán chính xác; đánh giá theo cách thức động, đa vòng, mô phỏng đầy đủ toàn bộ quá trình từ tiếp bệnh đến chẩn đoán xác định, từ đó tối ưu mô hình để đạt kết quả tốt hơn ở từng bước.
Lần này Baichuan cũng công bố kết quả kiểm thử mô hình M3 trên SCAN-benche.

Kết quả rất thú vị. Lần này Baichuan không chỉ so sánh giữa các mô hình mà còn mời cả bác sĩ thật tham gia đối chiếu. Trong cả bốn góc phần tư, trình độ của bác sĩ thật thực tế đều đã bị mô hình vượt qua.
GeekPark đặc biệt đặt câu hỏi này với đội ngũ Baichuan và nhận được phản hồi: tất cả các bài kiểm thử này đều là so sánh giữa mô hình và bác sĩ chuyên khoa thực thụ trên các ca bệnh chuyên khoa. Mô hình chiến thắng một phần nhờ sự kiên nhẫn, nhưng quan trọng hơn là khả năng nắm vững kiến thức liên ngành tốt hơn.
Ví dụ, trong một ca bệnh, một đứa trẻ 10 tuổi bị sốt tái phát — sốt là hiện tượng y khoa tổng hợp cao; nếu chỉ hỏi về ho hoặc tình trạng phổi, dễ bỏ sót các vấn đề nghiêm trọng ở khớp hoặc hệ tiết niệu, dẫn đến chẩn đoán nhầm là nhiễm trùng thông thường.
Bác sĩ con người thường chỉ giỏi về các bệnh thuộc chuyên khoa của mình, đó cũng là lý do các triệu chứng phức tạp thường cần hội chẩn chuyên gia, hoặc ngay cả chuyên gia bệnh khó cũng thường phải tra cứu sách vở.
Còn các mô hình thông thường, nếu không được huấn luyện chuyên biệt mà chỉ đóng vai bác sĩ, thường cũng khó trả lời tốt các câu hỏi dạng này.
03 Bước tiếp theo: Dần triển khai sản phẩm đầu người dùng, thúc đẩy y tế nghiêm túc hơn
Với Baichuan Intelligence, mốc vượt qua bác sĩ con người có ý nghĩa to lớn: điều này có nghĩa AI bắt đầu vượt qua ngưỡng khả dụng, sẵn sàng được triển khai vào các tình huống sử dụng thực tế.
Kể từ ngày 13 tháng 1, người dùng đã có thể trải nghiệm câu trả lời do mô hình M3 cung cấp trên website và ứng dụng Ba Xiao Ying.
Thiết kế website hiện tại khá thú vị: mặc dù đều dùng mô hình M3 để trả lời, nhưng có phân biệt bản dành cho bác sĩ và bản dành cho người dùng. Bản bác sĩ ngắn gọn hơn, trích dẫn nhiều tài liệu tham khảo hơn, và "ít nói kiểu người thường". Trong khi đó, bản dành cho bệnh nhân thông thường, mô hình hầu như không đưa ra câu trả lời ngay lập tức, mà sẽ đặt thêm nhiều câu hỏi để chẩn đoán rõ ràng hơn.

Baichuan Intelligence cho biết, quá trình suy nghĩ của mô hình phía sau hệ thống rất thú vị. « Chúng tôi thường thấy mô hình nhắc trong chuỗi suy luận rằng: ‘Bệnh nhân này không trả lời câu hỏi của tôi, nhưng câu hỏi này tôi nhất định phải hỏi’. Thậm chí có trường hợp cực đoan, mô hình nói: ‘Tôi đã hỏi bệnh nhân 20 vòng rồi, vượt quá số vòng tối đa đã định, nhưng câu hỏi này tôi vẫn phải hỏi’. Bởi vì trong quá trình huấn luyện, nếu mô hình nói khéo léo thì sẽ không nhận được phần thưởng; nó chỉ nhận thưởng khi thực sự thu thập đủ thông tin then chốt và đưa ra chẩn đoán chính xác. Đây là điểm khác biệt rõ rệt giữa chúng tôi và các đơn vị khác khi huấn luyện mô hình. »
Gần đây, nhiều công ty AI bắt đầu tham gia lĩnh vực y tế. Tuy nhiên, Baichuan cho rằng đây chính là điểm khác biệt lớn nhất của họ — đó là làm y tế nghiêm túc.
« Điều này có nghĩa khi chọn lựa tình huống ứng dụng, Baichuan không chọn cái nào dễ làm trước. Ngược lại, Baichuan kiên trì nâng cao năng lực công nghệ, thách thức những vấn đề khó hơn. » Vương Tiểu Xuyên nói.
Một ví dụ điển hình là Baichuan sẽ ưu tiên giải quyết các tình huống chuyên khoa ung thư trong tương lai, trong khi trị liệu tâm lý lại nằm ở vị trí thấp hơn trong danh sách ưu tiên.
Theo quan điểm phổ thông, AI hỗ trợ trị liệu tâm lý thường được coi là đơn giản hơn và dễ triển khai hơn. Nhưng logic đánh giá của Baichuan lại khác. Họ cho rằng lĩnh vực ung thư có cơ sở khoa học chặt chẽ hơn. Ở đây, AI có nhiều khả năng tạo ra hiệu quả y tế nghiêm túc, đạt đến hoặc vượt qua trình độ bác sĩ con người. Ngược lại, lĩnh vực tâm lý học thiếu các mốc khoa học xác định như vậy.
Một ví dụ khác: có công ty chọn tạo "bản sao" cho bác sĩ, nhưng Vương Tiểu Xuyên cho rằng đây không phải hướng đi mà Baichuan muốn theo đuổi. Bản sao bác sĩ không thể tái sử dụng đầy đủ năng lực của bác sĩ, càng không thể vượt qua họ. Loại AI như vậy cuối cùng chỉ trở thành chiêu bài quảng cáo và công cụ thu hút khách hàng, chứ không thể thúc đẩy y tế nghiêm túc thực sự.
Sự kiên định với tính nghiêm túc này ảnh hưởng sâu sắc đến nhiều lựa chọn thương mại của Baichuan.
Nó liên quan trực tiếp đến suy nghĩ của Vương Tiểu Xuyên về vấn đề cốt lõi trong giai đoạn tiếp theo của AI y tế. Ông cho rằng, nhiệm vụ quan trọng nhất hiện nay là dựa trên việc tăng cường năng lực AI, từ từ cung cấp thêm nguồn lực y tế.
Trung Quốc nhiều năm nay luôn cố gắng thực hiện chế độ khám chữa bệnh phân cấp và hệ thống bác sĩ đa khoa. Ban đầu mong muốn người dân đi khám ở tuyến cơ sở trước, nhằm giải quyết tình trạng đăng ký khám khó khăn, xếp hàng dài và quá tải ở các bệnh viện lớn.
Việc thực hiện chế độ này gặp khó khăn bản chất vì nguồn cung dịch vụ y tế không đủ. Các cơ sở y tế cơ sở thiếu bác sĩ trình độ cao. Dù chỉ bị cảm cúm, mọi người vẫn sẵn sàng xếp hàng ở bệnh viện hạng ba, bởi họ không yên tâm về trình độ chẩn trị ở tuyến dưới.
Đây chính là điểm then chốt để AI y tế phát huy tác dụng. Mô hình lớn có thể khuếch đại kiến thức y học đỉnh cao một cách quy mô. Nó lấp đầy khoảng trống cung ứng ở tuyến cơ sở, giúp mỗi cộng đồng, mỗi gia đình đều sở hữu năng lực chẩn trị như chuyên gia bệnh viện hạng ba.
Về lâu dài, điều này còn có thể tạo ra ảnh hưởng rộng hơn, có thể chuyển dần quyền ra quyết định trong y tế từ tay bác sĩ sang tay người dùng. Trong tình huống y tế truyền thống, bệnh nhân là bên hưởng lợi, nhưng thường không có quyền ra quyết định. Quyền lực này tập trung trong tay bác sĩ. Sự mất cân bằng quyền lực này thường gây ra chi phí giao tiếp và nỗi đau trong quá trình điều trị.
Baichuan hy vọng thông qua AI, bệnh nhân có thể dễ dàng tiếp cận nguồn lực y tế chất lượng cao hơn. « Nhiều người cho rằng y tế quá phức tạp, bệnh nhân mãi mãi không thể hiểu được. Nhưng chúng tôi nghĩ, trong hệ thống tư pháp Mỹ có chế độ bồi thẩm đoàn. Luật pháp cũng rất chuyên môn, người bình thường trong bồi thẩm đoàn không hiểu, nhưng yêu cầu các thẩm phán, luật sư và công tố viên phải dẫn dắt, tranh luận kỹ lưỡng, trình bày rõ ràng đến mức người bình thường có thể phán xét có tội hay không, chỉ cần dựa vào logic thông thường là được. » Vương Tiểu Xuyên nói.
Đây cũng là một trong những lý do Baichuan Intelligence không muốn chỉ làm các tình huống đơn giản, mà muốn liên tục tiến vào các chẩn trị nghiêm túc khó hơn.
Khi được hỏi liệu giải quyết các vấn đề khó có thực sự mang lại lợi nhuận thương mại cao nhất không, Vương Tiểu Xuyên đã đưa ra câu trả lời sâu sắc.
Ông cho rằng, việc giải quyết các vấn đề nhỏ như cảm cúm, sốt khó có thể xây dựng đủ niềm tin trong lòng người dùng. Y tế là ngành cực kỳ phụ thuộc vào niềm tin. Chỉ khi AI có thể giải quyết các thách thức nghiêm trọng như bệnh nan y, mới có thể thực sự xây dựng nền tảng niềm tin.
Xét về logic thương mại, khi đối mặt với các vấn đề sức khỏe nghiêm trọng, bệnh nhân cũng sẵn sàng chi trả nhiều hơn cho dịch vụ AI chất lượng cao. Niềm tin này không chỉ là tiền đề cho lợi nhuận thương mại, mà còn là cốt lõi để AI y tế có thể ứng dụng quy mô lớn.
Và về ý nghĩa căn bản hơn, y tế đối với Baichuan Intelligence và cá nhân Vương Tiểu Xuyên, vẫn là một con đường tiếp cận Trí tuệ Nhân tạo Tổng quát (AGI).
Vương Tiểu Xuyên cho rằng, hiện tại AI đã tìm được giải pháp thiết thực trong các lĩnh vực văn, lý, công, nghệ; nhưng y tế lại là một lĩnh vực cực kỳ đặc biệt. Con người vẫn chưa khám phá hết y học, và AI trong lĩnh vực này cũng đang ở giai đoạn thăm dò.
Lộ trình của Baichuan rất rõ ràng. Trước tiên, dùng AI nâng cao hiệu suất chẩn bệnh, giải quyết vấn đề thiếu hụt nguồn cung y tế hiện nay. Trên nền tảng này, Baichuan nỗ lực xây dựng niềm tin sâu sắc với bệnh nhân. Khi bệnh nhân sẵn sàng dùng công cụ AI, tư vấn y tế dài hạn, AI sẽ tích lũy được dữ liệu y tế thực tế và chất lượng cao trong hành trình đồng hành dài hạn.
Mục tiêu tối thượng của dữ liệu này là xây dựng mô hình toán học của sự sống. Đây là con đường mà bác sĩ con người vẫn chưa hoàn toàn đi tới, nhưng trong tương lai rất có thể sẽ do AI thực hiện trước tiên. Nếu có thể hoàn thành mô hình hóa bản chất sự sống, đây sẽ là bước tiến then chốt thúc đẩy AI tổng quát tiến lên một bậc cao hơn.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














