
Tout comprendre sur le GPT-5.5 en un seul article : à compter d’aujourd’hui, OpenAI « ne vend plus » de jetons
TechFlow SélectionTechFlow Sélection

Tout comprendre sur le GPT-5.5 en un seul article : à compter d’aujourd’hui, OpenAI « ne vend plus » de jetons
Plus grand, plus cher, plus intelligent : certains disent qu’« en être privé, c’est comme subir une amputation ».
Auteur : Helen
Le 23 avril, heure locale, OpenAI a officiellement lancé son nouveau modèle phare, GPT-5.5, qu’il présente comme « un nouveau niveau d’intelligence conçu pour le travail réel », une étape décisive vers une nouvelle façon d’utiliser les ordinateurs.
Deux aspects ont été particulièrement mis en avant lors de cette annonce :
Premièrement, une percée au niveau de l’efficacité : à latence égale, le modèle est plus grand sans être plus lent. La fenêtre de contexte de GPT-5.5 atteint 1 million de jetons (tokens), mais ce n’est pas une simple amélioration des capacités par rapport à GPT-5.4 ; il s’agit plutôt d’une intelligence supérieure à latence identique, rendue possible grâce à des gains d’efficacité significatifs.
Deuxièmement, durant son entraînement, GPT-5.5 a participé activement à l’optimisation de ses propres infrastructures d’inférence. Autrement dit, c’est la première fois qu’une IA apprend à ajuster elle-même ses propres paramètres.
Sur Terminal-Bench 2.0 — un benchmark évaluant la capacité du modèle à exécuter des flux de travail complexes en ligne de commande — GPT-5.5 obtient un score de 82,7 %, dépassant de plus de 13 points de pourcentage celui de Claude Opus 4.7 (69,4 %). Sur OSWorld-Verified — un benchmark testant la capacité de l’IA à manipuler un véritable environnement informatique de façon autonome — sa réussite atteint 78,7 %, dépassant même la performance humaine de référence. Enfin, sur GDPval — un benchmark évaluant les compétences dans 44 domaines professionnels variés — GPT-5.5 accomplit 84,9 % des tâches au niveau ou au-dessus de celui d’experts du secteur.
Cependant, le prix de GPT-5.5 augmente sensiblement.
Le tarif de l’API est désormais de 5 dollars par million de jetons en entrée et de 30 dollars par million de jetons en sortie, soit le double de celui de GPT-5.4 (2,50 dollars en entrée et 15 dollars en sortie). Toutefois, OpenAI souligne que le nombre de jetons requis pour accomplir une même tâche diminue fortement avec GPT-5.5, si bien que le coût global pourrait ne pas augmenter de façon significative. Le tarif de l’API GPT-5.5 Pro s’élève à 30 dollars par million de jetons en entrée et à 180 dollars par million de jetons en sortie. Des remises de 50 % sont offertes pour le traitement par lots et les tarifs flexibles, tandis que le traitement prioritaire coûte 2,5 fois le tarif standard.
Dans ChatGPT, GPT-5.5 est déployé sous la forme « GPT-5.5 Thinking », progressivement en remplacement des versions antérieures.
Une nouveauté discrète mais intéressante : avant de commencer à raisonner, le modèle fournit d’abord un bref aperçu de sa démarche. L’utilisateur peut alors intervenir à tout moment pendant l’exécution pour rediriger le processus.
Pour résumer en une phrase la signification de GPT-5.5 : les modèles précédents étaient essentiellement des agrégats de capacités ; GPT-5.5, lui, s’apparente davantage à un système de travail capable de planifier, de vérifier et de faire avancer les tâches de façon continue.
01 84,9 % des tâches réalisées au niveau d’un professionnel
Comparaison de GPT-5.5 avec ses concurrents sur les benchmarks clés Terminal-Bench 2.0, GDPval et OSWorld-Verified
Examinons d’abord les performances du modèle dans des scénarios professionnels réels. OpenAI utilise un benchmark appelé « GDPval », qui exige que le modèle accomplisse une série complète de tâches professionnelles couvrant 44 domaines distincts, notamment la modélisation financière, l’analyse juridique, la rédaction de rapports en science des données ou encore la planification opérationnelle.
Les résultats montrent que GPT-5.5 atteint ou dépasse le niveau d’un professionnel qualifié dans 84,9 % des tâches. À titre de comparaison, GPT-5.4 obtient 83,0 %, Claude Opus 4.7 atteint 80,3 %, et Gemini 3.1 Pro seulement 67,3 %.
Cette différence ne se limite pas au score global. Dans les tâches de modélisation de feuilles de calcul, GPT-5.5 obtient 88,5 % lors des tests internes ; il devance également GPT-5.4 sur les modèles de niveau banque d’investissement. Les premiers retours des utilisateurs testeurs sont cohérents : les réponses de GPT-5.5 Pro présentent une amélioration nette en termes de complétude, de structure et d’utilité pratique par rapport à celles de GPT-5.4 Pro, notamment dans les domaines du commerce, du droit, de l’éducation et de la science des données.
Les chiffres seuls risquent de lasser — OpenAI a donc choisi de vous montrer directement ce qui se passe sur ses propres postes de travail.
OpenAI indique que plus de 85 % de ses employés utilisent chaque semaine Codex, dans des départements aussi variés que la finance, la communication, le marketing, les produits ou la science des données. L’équipe communication a ainsi analysé six mois de données relatives aux invitations à prononcer des discours, puis automatisé entièrement le processus de classement ; l’équipe finance a examiné 24 771 formulaires fiscaux K-1, représentant au total 71 637 pages, terminant le travail deux semaines plus tôt que l’année précédente ; quant à l’équipe développement commercial, elle a gagné 5 à 10 heures hebdomadaires par personne grâce à la génération automatisée de rapports hebdomadaires.
Il ne s’agit plus ici d’une démonstration en laboratoire, mais bien d’un usage quotidien intégré à la routine professionnelle.
02 Le modèle de programmation autonome le plus performant
OpenAI affirme que GPT-5.5 est actuellement son modèle de programmation autonome le plus puissant.
Sur Terminal-Bench 2.0 — un benchmark évaluant la capacité à gérer des flux de travail complexes en ligne de commande, nécessitant planification, itération et coordination d’outils — GPT-5.5 obtient 82,7 %, contre 75,1 % pour GPT-5.4, soit une progression proche de 8 points de pourcentage, avec une consommation réduite de jetons. Sur SWE-Bench Pro — qui évalue la capacité à résoudre d’un seul coup des problèmes réels issus de GitHub — GPT-5.5 atteint 58,6 %. Et sur le benchmark interne Expert-SWE — qui teste des tâches de programmation longues (dont le temps moyen de résolution par un humain est d’environ 20 heures) — GPT-5.5 surpasse également GPT-5.4.
Nuages de points pour Terminal-Bench 2.0 et Expert-SWE
Piloté par GPT-5.5, Codex est désormais capable, à partir d’une seule instruction textuelle, de réaliser de façon entièrement autonome l’ensemble du cycle de développement : génération de code, tests fonctionnels et débogage visuel.
Selon la démonstration officielle d’OpenAI, une application liée aux missions spatiales, construite à partir de données orbitales réelles de la NASA, permet une interaction 3D et simule la mécanique orbitale avec une précision physique réelle ; un outil de suivi des séismes intègre des sources de données en temps réel et produit des visualisations dynamiques, prouvant ainsi que le modèle possède désormais la capacité complète d’appeler des API externes, de traiter des données dynamiques et de les restituer en temps réel.
Concernant les retours utilisateurs, Dan Shipper, fondateur et PDG de Every, raconte une expérience personnelle : il avait rencontré un bug après mise en production, qu’il n’avait pas réussi à résoudre malgré plusieurs jours d’efforts, et avait dû finalement solliciter l’ingénieur le plus expérimenté de son entreprise, qui avait dû réécrire une partie du système. Après la sortie de GPT-5.5, Shipper a mené une expérience : il a soumis au modèle l’état exact du système tel qu’il était juste avant la correction du bug, afin de voir s’il pouvait aboutir à la même solution que l’ingénieur. GPT-5.4 n’y est pas parvenu, mais GPT-5.5 y est arrivé. Il commente ainsi : « C’est le premier modèle de programmation que j’ai utilisé qui possède réellement une clarté conceptuelle. »
Un ingénieur de NVIDIA va encore plus loin : « Perdre l’accès à GPT-5.5, c’est comme subir une amputation. »
Michael Truell, cofondateur et PDG de Cursor, ajoute que GPT-5.5 est non seulement plus intelligent et plus robuste que GPT-5.4, mais qu’il maintient aussi mieux sa concentration sur des tâches complexes et longues sans s’arrêter prématurément — une caractéristique précisément indispensable dans le domaine de l’ingénierie.
03 Travail intellectuel : l’IA peut désormais « utiliser » un ordinateur pour de vrai
Sur OSWorld-Verified — un benchmark évaluant la capacité du modèle à piloter un environnement informatique réel de façon autonome — GPT-5.5 atteint un taux de réussite de 78,7 %, dépassant à la fois GPT-5.4 (75,0 %) et Claude Opus 4.7 (78,0 %).
Il ne s’agit pas ici d’une analyse d’images fixes, mais bel et bien d’une manipulation réelle de l’interface : reconnaissance visuelle de l’écran, clics, saisie de texte, basculement entre plusieurs applications, jusqu’à l’achèvement complet de la tâche. Avec GPT-5.5, on ressent pour la première fois que l’IA peut véritablement partager l’usage d’un même ordinateur avec nous.
Vidéo de démonstration de modélisation financière
Sur Tau2-bench — un benchmark évaluant les flux de travail de service client télécom — GPT-5.5 atteint un taux de précision de 98,0 % sans aucun ajustement préalable des prompts, contre seulement 92,8 % pour GPT-5.4.
Cela signifie que le modèle comprend suffisamment profondément l’intention derrière la tâche pour traiter des dialogues complexes à plusieurs étapes, sans avoir besoin de prompts soigneusement conçus.
En matière de recherche d’outils, GPT-5.5 obtient 84,4 % sur BrowseComp, et GPT-5.5 Pro atteint même 90,1 %, ce qui témoigne d’une capacité remarquable à effectuer des recherches continues et à intégrer des informations provenant de multiples sources — une compétence cruciale pour les tâches de recherche exigeant une synthèse approfondie.
04 Recherche scientifique : assistance à la découverte de nouvelles preuves mathématiques
Lors de cette annonce, les performances de GPT-5.5 dans le domaine de la recherche scientifique constituent probablement la partie la plus surprenante.
Jusqu’ici, quand on parlait de l’IA dans la recherche, on la considérait surtout comme un « outil d’assistance », utile pour consulter la littérature, écrire du code ou structurer des données. Cette fois, son rôle s’est clairement déplacé vers des phases plus centrales : raisonnement complexe, voire découverte proprement dite.
Sur GeneBench — un benchmark évaluant l’analyse de données multi-étapes en génétique et en biologie quantitative — GPT-5.5 obtient 25,0 %, contre 19,0 % pour GPT-5.4. Ces tâches correspondent généralement à plusieurs jours de travail d’un expert scientifique : le modèle doit, en quasi-absence de supervision, détecter des erreurs potentielles dans les données, identifier des facteurs de confusion cachés et appliquer correctement des méthodes statistiques modernes.
Comme le montre la courbe du graphique, l’amélioration du score de GPT-5.5 suit toujours une progression supérieure à celle de GPT-5.4 à mesure que le nombre de jetons générés augmente, avec un écart net qui apparaît autour de 15 000 jetons — ce qui signifie que, face à des tâches exigeant un raisonnement approfondi, l’avantage de GPT-5.5 s’accroît proportionnellement à la complexité croissante de la tâche.
Sur BixBench — un benchmark réel en bio-informatique et en analyse de données — GPT-5.5 obtient 80,5 %, dépassant GPT-5.4 (74,0 %) et se plaçant parmi les meilleurs modèles ayant publié leurs scores.
Ce qui a vraiment suscité l’attention, c’est un cas concret : une version interne personnalisée de GPT-5.5, équipée d’un cadre d’outils adapté, a contribué à la découverte d’une nouvelle preuve mathématique concernant les nombres de Ramsey, puis validé formellement cette preuve à l’aide de l’outil de preuve formelle Lean. Les nombres de Ramsey constituent un objet central de la combinatoire ; les avancées dans ce domaine sont extrêmement rares et techniquement très exigeantes. Il ne s’agit pas ici d’une simple assistance en codage ou en explication : l’IA a réellement apporté une contribution originale au raisonnement mathématique.
Sur le plan des applications concrètes, Derya Unutmaz, professeur d’immunologie au Jackson Laboratory, a utilisé GPT-5.5 Pro pour analyser un jeu de données d’expression génique comprenant 62 échantillons et près de 28 000 gènes, produisant un rapport détaillé qui identifie les découvertes clés et les questions de recherche émergentes — un travail qui nécessiterait habituellement plusieurs mois d’effort collectif.
Bartosz Naskręcki, maître de conférences au département de mathématiques de l’université Adam Mickiewicz de Poznań, a, à partir d’un seul prompt, utilisé GPT-5.5 intégré à Codex pour construire en 11 minutes une application en géométrie algébrique visualisant l’intersection de deux quadriques et transformant automatiquement la courbe obtenue en modèle de Weierstrass. Les coefficients de l’équation affichés en temps réel à droite peuvent être directement utilisés dans des travaux mathématiques ultérieurs : du prompt initial à l’outil de recherche fonctionnel, tout le processus a été réalisé de façon entièrement autonome par le modèle.
Capture d’écran de l’application en géométrie algébrique créée par le professeur Bartosz Naskręcki — visualisation de l’intersection de quadriques et calcul en temps réel de l’équation de Weierstrass
Brandon White, cofondateur d’Axiom Bio, va encore plus loin : « Si OpenAI maintient ce rythme, les fondements de la découverte de médicaments seront transformés d’ici la fin de l’année. »
05 Efficacité du raisonnement : l’IA optimise pour la première fois son propre infrastructure
Un détail facile à négliger lors de cette annonce pourrait bien constituer, sur le plan technique, la progression la plus remarquable.
GPT-5.5 est un modèle plus grand et plus puissant, mais sa latence par jeton reste strictement identique à celle de GPT-5.4. Pour maintenir une latence constante tout en offrant des capacités accrues, OpenAI a repensé l’ensemble de son système d’inférence — et Codex ainsi que GPT-5.5 eux-mêmes ont participé directement à cette optimisation.
Le graphique de l’indice d’intelligence artificielle d’Artificial Analysis illustre clairement ce point : l’axe horizontal représente le volume total de jetons générés (échelle logarithmique), l’axe vertical le score d’intelligence composite. La courbe de GPT-5.5 ne dépasse pas seulement systématiquement celles de GPT-5.4, de Claude Opus 4.7 et de Gemini 3.1 Pro Preview en termes de score, mais surtout, elle atteint déjà des niveaux de performance qui exigent chez les autres modèles une consommation beaucoup plus élevée de jetons — des capacités accrues pour un coût réduit, voilà précisément ce qu’illustre de façon tangible cette « amélioration de l’efficacité ».
Graphique en lignes de l’indice d’intelligence artificielle d’Artificial Analysis
Plus concrètement, l’équipe a dû relever un défi majeur de répartition de charge : auparavant, les requêtes étaient divisées en blocs de taille fixe pour équilibrer la charge entre les GPU, mais cette répartition statique n’était pas optimale pour tous les types de trafic. Codex a analysé plusieurs semaines de données de trafic en production et a écrit un algorithme heuristique personnalisé, augmentant ainsi la vitesse de génération de jetons de plus de 20 %.
GPT-5.5 a été conçu, entraîné et déployé en synergie étroite avec les systèmes NVIDIA GB200 et GB300 NVL72. Autrement dit, cette génération de modèles a réellement participé à l’optimisation de l’architecture d’inférence qui la fait fonctionner — ce n’est pas une métaphore, mais une réalité littérale : « l’IA a amélioré le système qui l’exécute ».
06 Cybersécurité : des capacités renforcées, accompagnées d’un contrôle accru
Les capacités de GPT-5.5 en matière de cybersécurité connaissent une amélioration nette. Sur CyberGym, GPT-5.5 obtient 81,8 %, contre 79,0 % pour GPT-5.4 et 73,1 % pour Claude Opus 4.7. Sur les défis internes de « capture the flag » (CTF), GPT-5.5 atteint 88,1 %, contre 83,7 % pour GPT-5.4.
Histogramme de CyberGym et nuage de points des défis CTF
OpenAI classe les capacités de GPT-5.5 en cybersécurité, ainsi que ses compétences en biologie et en chimie, au niveau « élevé » dans le cadre du cadre de préparation aux urgences, sans toutefois atteindre encore le niveau « critique », bien qu’il s’agisse d’une progression claire par rapport à la génération précédente. L’entreprise reconnaît par ailleurs que le nouveau classificateur de risques, plus strict, « pourrait initialement sembler quelque peu contraignant pour certains utilisateurs », et précise qu’il fera l’objet d’ajustements continus.
Pour concilier impératifs de défense et restrictions d’accès, OpenAI a lancé le programme « Accès de confiance en cybersécurité » : les chercheurs en sécurité et les défenseurs des infrastructures critiques éligibles peuvent demander un accès plus souple, leur permettant d’utiliser les capacités avancées en cybersécurité avec moins de frictions.
La logique sous-jacente est la suivante : pour des domaines tels que la cybersécurité ou même la biologie, la diffusion technologique est pratiquement irréversible. Plutôt que de chercher à limiter totalement l’accès pour tous, il est plus pertinent d’adopter une autre approche : permettre aux professionnels chargés de la défense d’utiliser en priorité les outils les plus avancés. En résumé, la question n’est plus tant « faut-il ouvrir l’accès ? », mais plutôt « à qui faut-il donner accès en premier ? ».
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News











