
Six days after launching ChatGPT Health, OpenAI was overtaken on its own healthcare benchmark.
TechFlow SélectionTechFlow Sélection

Six days after launching ChatGPT Health, OpenAI was overtaken on its own healthcare benchmark.
Baichuan Intelligence a indiqué que, au cours du premier semestre de cette année, il lancera progressivement deux produits médicaux destinés aux consommateurs.
Auteur : Li Yuan
Avez-vous déjà posé des questions sur votre santé à un assistant IA ?
Si vous êtes comme moi un utilisateur intensif de l’IA, il est fort probable que vous ayez déjà essayé.
D’après les données fournies par OpenAI elle-même, la santé est devenue l’un des scénarios d’utilisation les plus courants de ChatGPT : chaque semaine, plus de 230 millions de personnes dans le monde posent des questions liées à la santé et au bien-être.
C’est pourquoi, en 2026, le domaine médical semble destiné à devenir un terrain stratégique incontournable pour l’IA.
Le 7 janvier, OpenAI a lancé ChatGPT Health, permettant aux utilisateurs de connecter leurs dossiers médicaux électroniques et diverses applications de santé afin d’obtenir des réponses médicales plus ciblées ; puis le 12 janvier, Anthropic a rapidement introduit Claude for Healthcare, soulignant expressément les capacités du nouveau modèle dans les scénarios médicaux.
Ce qui est intéressant, c’est que cette fois-ci, les entreprises chinoises ne sont pas en reste – elles semblent même prendre une longueur d’avance.
Le 13 janvier, Baichuan Intelligence a annoncé le lancement de son modèle Baichuan M3, obtenant le meilleur résultat mondial (SOTA) sur le jeu de tests HealthBench publié par OpenAI dans le domaine de la santé, dépassant ainsi GPT-5.2 High d’OpenAI.
Après avoir été largement critiqué pour son pari total sur la santé, Baichuan Intelligence semble enfin prouver sa valeur. Le magazine GeekPark s’est entretenu en exclusivité avec Wang Xiaochuan pour discuter de la performance du modèle M3 et de la vision finale de l’IA en médecine.
01 Une première victoire dans un benchmark médical face à OpenAI
L’un des résultats les plus remarquables du modèle M3 réside dans sa performance sur HealthBench, le jeu d’évaluation dans le domaine médical lancé par OpenAI, où il a surpassé pour la première fois GPT-5.2 High d’OpenAI et atteint le niveau SOTA mondial.

SOTA sur Healthbench, Healthbench Hard et évaluation des hallucinations
Healthbench est un ensemble d’évaluation dans le domaine médical lancé par OpenAI en mai 2025, conçu conjointement par 262 médecins provenant de 60 pays. Il comprend 5 000 séries de dialogues médicaux multiconversationnels très réalistes, et constitue aujourd’hui l’un des jeux d’évaluation médicaux les plus fiables et les plus proches des situations cliniques réelles au monde.
Depuis sa publication, les modèles d’OpenAI dominaient sans partage ce classement.
Cette fois, le nouveau grand modèle médical open source de Baichuan Intelligence, Baichuan-M3, a obtenu un score global de 65,1, se plaçant ainsi en tête mondiale. Sur HealthBench Hard, spécialement conçu pour tester les capacités décisionnelles complexes, M3 a également remporté la première place, établissant un nouveau record maximal.
Baichuan a également publié simultanément un résultat concernant le taux d’hallucination : le modèle M3 atteint un taux d’hallucination de 3,5 %, l’un des plus bas au monde.
À noter que ce taux d’hallucination est mesuré sans recours à des outils externes de recherche, uniquement en mode pur modèle.
Selon Baichuan Intelligence, la clé de ces deux performances réside dans l’introduction d’un algorithme d’apprentissage par renforcement adapté au domaine médical.
Pour la première fois sur le modèle M3, Baichuan a utilisé la technologie Fact Aware RL (apprentissage par renforcement conscient des faits), permettant au modèle de ne pas produire de réponses stéréotypées ni de délirer.
Ceci est particulièrement crucial dans le domaine médical.
Lorsque l’on pose des questions médicales à un modèle non optimisé, deux types de problèmes surviennent fréquemment : soit le modèle invente purement et simplement vos symptômes, diagnostiquant une maladie imaginaire ; soit il donne une réponse vague, concluant toujours qu’il faut consulter un médecin – ce qui n’aide guère ni le médecin ni le patient.
Cela provient souvent du fait que de nombreux modèles prennent uniquement le taux d’hallucination comme objectif d’optimisation, ce qui pousse à noyer les hallucinations en accumulant des faits simples et corrects. Baichuan introduit donc un mécanisme de regroupement sémantique et de pondération par importance : le regroupement élimine les redondances, tandis que la pondération assure que les affirmations médicales essentielles reçoivent un poids supérieur.
Par ailleurs, si l’on applique purement une forte pénalité aux hallucinations, cela risque de pousser le modèle vers une stratégie conservatrice du type « moins je dis, moins je me trompe ». C’est pourquoi l’algorithme Fact Aware RL intègre un mécanisme de réglage dynamique des poids, qui équilibre automatiquement ces deux objectifs selon le niveau actuel du modèle : lors de la phase d’apprentissage, priorité est donnée à l’acquisition et à l’expression des connaissances médicales (poids élevé sur la tâche) ; une fois le modèle mature, les contraintes factuelles sont progressivement resserrées (augmentation du poids sur les hallucinations).
Lorsqu’il est connecté à Internet, Baichuan ajoute aussi un module de vérification en ligne basé sur des recherches multiconversationnelles, accompagné d’un système de cache efficace pour aligner une masse considérable de connaissances médicales.
02 Un niveau de diagnostic supérieur à celui des médecins humains, entrée dans la phase d’utilisabilité
Toutefois, dépasser OpenAI sur Healthbench n’est pas le seul point fort de cette annonce.
Un autre aspect encore plus intéressant réside dans la création par Baichuan d’un jeu d’évaluation original, SCAN-bench. Contrairement aux benchmarks d’OpenAI, cet ensemble personnalisé reflète mieux la direction que Baichuan souhaite suivre dans le domaine médical.
Le point clé du jeu d’évaluation SCAN-bench conçu par Baichuan est l’optimisation de la « capacité de consultation bout-en-bout ». Cette orientation découle d’une observation issue d’expériences internes : chaque augmentation de 2 % de la précision du diagnostic entraîne une hausse de 1 % de la justesse du résultat thérapeutique.
Alors que HealthBench d’OpenAI se concentre principalement sur « l’IA sait-elle répondre à des questions », SCAN-bench vise à évaluer si l’IA peut, au fil d’un dialogue, recueillir des informations pertinentes tout en proposant des diagnostics et conseils médicaux corrects.
En général, lorsque nous posons une question à un assistant IA en précisant seulement « tu es un médecin expérimenté », les résultats restent souvent médiocres. En réalité, le processus de consultation médicale suit une procédure rigoureuse – que Baichuan résume en quatre quadrants selon le principe SCAN : Safety Stratification (stratification de sécurité), Clarity Matters (clarification des informations), Association & Inquiry (questions associatives et approfondies), et Normative Protocol (production normalisée).
Sur la base du principe SCAN, Baichuan s’est inspiré de la méthode OSCE longuement utilisée dans l’enseignement médical et a collaboré avec plus de 150 médecins praticiens pour construire le système d’évaluation SCAN-bench. Ce dernier décompose le processus thérapeutique en trois grandes phases : collecte de l’anamnèse, examens complémentaires, et diagnostic précis. L’évaluation se fait de manière dynamique et multiconversationnelle, simulant intégralement le parcours du médecin, de l’accueil du patient jusqu’au diagnostic final, permettant ainsi d’optimiser le modèle à chaque étape.
Baichuan a également publié les résultats du modèle M3 sur SCAN-bench.

Les résultats sont fascinants. Baichuan n’a pas seulement comparé le modèle à d’autres modèles, mais a également fait passer le test à des médecins humains. Dans les quatre quadrants, les médecins humains ont en réalité été surpassés par le modèle.
GeekPark a interrogé l’équipe de Baichuan à ce sujet, qui a expliqué que tous les cas testés impliquaient des médecins spécialistes confrontés à des cas relevant de leur spécialité. La supériorité du modèle s’explique d’abord par sa patience, mais surtout par sa meilleure maîtrise transdisciplinaire des connaissances.
Par exemple, dans un cas, un enfant de 10 ans présente des fièvres récurrentes. La fièvre étant un phénomène médical complexe, se concentrer uniquement sur la toux ou les symptômes pulmonaires pourrait faire négliger des problèmes graves au niveau articulaire ou urinaire, conduisant à un diagnostic erroné d’infection banale.
Les médecins humains sont généralement spécialisés dans leur domaine, ce qui explique pourquoi les symptômes complexes nécessitent souvent des consultations pluridisciplinaires, ou pourquoi même les experts en maladies rares doivent parfois consulter des ouvrages.
Quant aux modèles classiques non spécialement entraînés – ceux qui jouent simplement le rôle du médecin – ils peinent aussi à répondre correctement à ce genre de cas.
03 Étape suivante : développement progressif de produits grand public, vers une médecine plus sérieuse
Pour Baichuan Intelligence, franchir le seuil où l’IA dépasse les médecins humains est une étape décisive : cela signifie que l’IA franchit désormais le seuil de l’utilisabilité et peut commencer à être déployée dans des scénarios réels.
Depuis le 13 janvier, les utilisateurs peuvent déjà expérimenter les réponses du modèle M3 via le site web et l’application Bai Xiao Ying.
La conception actuelle du site est intéressante : bien que toutes les réponses soient générées par le modèle M3, deux versions sont proposées : une version « médecin » et une version « patient ». La version médecin est plus concise, cite davantage de références bibliographiques et utilise un langage technique. En revanche, la version patient ne fournit presque jamais de réponse immédiate, mais pose d’abord plusieurs questions supplémentaires pour parvenir à un diagnostic plus précis.

Baichuan Intelligence souligne que les processus mentaux du modèle en arrière-plan sont très intéressants. « Nous voyons souvent dans la chaîne de pensée du modèle des remarques telles que “le patient n’a pas répondu à cette question, mais je dois absolument la poser”. Nous avons même vu des cas extrêmes où le modèle dit : “J’ai déjà posé 20 questions au patient, ce qui dépasse le nombre maximum autorisé, mais je dois quand même poser cette question.” Cela s’explique par le fait que, durant l’entraînement, le modèle n’obtient aucune récompense s’il formule habilement ses réponses ; il ne reçoit une récompense que s’il obtient suffisamment d’informations critiques et parvient à un diagnostic correct. C’est là une différence marquante entre notre approche et celle des autres. »
De nombreuses entreprises IA s’engagent récemment dans le domaine médical. Mais Baichuan Intelligence insiste sur une distinction fondamentale : elle veut promouvoir une médecine véritablement sérieuse.
« Cela signifie que Baichuan ne choisit pas les scénarios uniquement selon leur facilité de mise en œuvre. Au contraire, nous nous engageons à repousser continuellement les limites techniques et à relever des défis plus difficiles », explique Wang Xiaochuan.
Un exemple typique est que Baichuan privilégiera d’abord les solutions spécialisées en oncologie, tandis que la psychothérapie occupera une place secondaire dans ses priorités.
Dans l’opinion commune, on pense généralement que l’IA en psychothérapie est plus simple et plus facile à déployer. La logique de Baichuan est différente : selon eux, l’oncologie repose sur des bases scientifiques plus rigoureuses. C’est donc dans ce domaine que l’IA peut produire des effets médicaux sérieux, atteindre, voire dépasser, le niveau des médecins humains. En revanche, la psychologie manque de points d’ancrage scientifiques aussi certains.
Un autre exemple : certaines entreprises développent des « doublons » de médecins. Wang Xiaochuan juge que cette voie ne correspond pas à la vision de Baichuan. Un double ne peut pas pleinement reproduire, encore moins dépasser, les compétences d’un médecin. Une telle IA finirait par n’être qu’un leurre ou un outil de captation de clients, incapable de faire avancer une médecine sérieuse.
Ce souci de sérieux influence profondément bon nombre de choix commerciaux de Baichuan.
Cela relie directement à la réflexion de Wang Xiaochuan sur la prochaine étape fondamentale de l’IA médicale. Selon lui, la tâche la plus importante actuellement consiste, après avoir renforcé les capacités de l’IA, à fournir progressivement davantage de services médicaux.
Depuis des années, la Chine tente de mettre en œuvre un système de soins hiérarchisés et de médecins généralistes. L’objectif initial était que les patients consultent d’abord localement, afin d’alléger la pression sur les grands hôpitaux, saturés, où il est difficile d’obtenir un rendez-vous.
Ce système peine à s’imposer car il souffre d’un manque structurel de ressources médicales. Les centres de soins primaires manquent de médecins hautement qualifiés. Même pour un simple rhume, les gens préfèrent faire la queue dans des hôpitaux de troisième niveau, faute de confiance dans les compétences locales.
C’est précisément ici que l’IA médicale peut jouer un rôle clé. Les grands modèles permettent de diffuser à grande échelle les connaissances médicales de haut niveau. Ils comblent le déficit local, offrant à chaque communauté, à chaque foyer, une capacité diagnostique comparable à celle d’un expert d’hôpital de premier plan.
À plus long terme, cela pourrait avoir des conséquences encore plus vastes, en transférant progressivement le pouvoir décisionnel de la médecine du médecin vers le patient. Dans les scénarios médicaux traditionnels, le patient est bénéficiaire du traitement, mais rarement décisionnaire. Ce déséquilibre de pouvoir engendre coûts de communication et souffrances pendant le traitement.
Baichuan espère que grâce à l’IA, les patients pourront accéder plus facilement à des ressources médicales de qualité. « Beaucoup pensent que la médecine est trop complexe, que les patients ne pourront jamais la comprendre. Mais nous pensons à l’exemple du système judiciaire américain, avec le jury populaire. Le droit est aussi un domaine très spécialisé, les jurés sont des profanes, mais on exige que juges, avocats et procureurs mènent un débat suffisamment clair pour que n’importe qui puisse comprendre et juger si quelqu’un est coupable ou non, sur la base d’un raisonnement logique. C’est ce que nous voulons atteindre », explique Wang Xiaochuan.
C’est aussi une raison pour laquelle Baichuan Intelligence refuse de se limiter aux scénarios simples, et cherche plutôt à progresser constamment vers des diagnostics sérieux et complexes.
Interrogé sur le fait que résoudre des problèmes complexes apporte-t-il nécessairement le meilleur retour commercial, Wang Xiaochuan livre une réponse profonde.
Il estime que résoudre des problèmes mineurs comme le rhume ou la fièvre ne suffit pas à instaurer une confiance solide auprès des utilisateurs. La médecine est un secteur hautement tributaire de la confiance. Seule l’IA capable de résoudre des maladies graves et des défis complexes pourra véritablement établir cette base de confiance.
Du point de vue commercial, les patients sont aussi plus enclins à payer pour un service IA de haute qualité lorsqu’ils font face à des problèmes de santé sérieux. Cette confiance n’est pas seulement la condition du retour économique, mais aussi la clé de l’adoption massive de l’IA médicale.
Et sur un plan plus fondamental, la médecine représente, pour Baichuan Intelligence et Wang Xiaochuan lui-même, un chemin vers l’intelligence artificielle générale (AGI).
Wang Xiaochuan considère que l’IA a déjà trouvé des solutions concrètes dans les domaines des lettres, des sciences, de l’ingénierie ou des arts, mais que la médecine demeure un domaine exceptionnel. L’exploration humaine de la médecine n’est pas achevée, et l’IA elle-même en est encore à ses balbutiements dans ce champ.
La feuille de route de Baichuan est très claire. D’abord améliorer l’efficacité du diagnostic grâce à l’IA, pour résoudre le problème actuel de pénurie de services médicaux. Sur cette base, Baichuan s’efforce de bâtir une relation de confiance profonde avec les patients. Lorsque les patients acceptent d’utiliser des outils IA pour des consultations médicales prolongées, l’IA peut accumuler, au fil du temps, des données médicales réelles et de haute qualité.
L’objectif ultime de ces données est de construire un modèle mathématique de la vie. C’est une voie que les médecins humains n’ont pas encore pu emprunter complètement, mais que l’IA pourrait bien être la première à accomplir. Réussir à modéliser l’essence même de la vie deviendrait alors une étape décisive pour faire progresser l’intelligence artificielle générale vers des niveaux supérieurs.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














