
GPT-5.4, un grand modèle « natif Agent » ?
TechFlow SélectionTechFlow Sélection

GPT-5.4, un grand modèle « natif Agent » ?
OpenAI a enfin compris.
Deux jours seulement après les rumeurs, OpenAI a officiellement lancé GPT-5.4 le 5 mars, heure locale. Cette mise à jour de modèle cible précisément la direction des agents IA, actuellement la plus dynamique du secteur.
Avant GPT-5.4, les limites des grands modèles pouvaient se résumer en une phrase : « Il sait vous dire *comment faire*, mais il ne peut pas le faire lui-même. »
Vous lui demandez d’analyser vos concurrents : il vous fournit un rapport détaillé et exhaustif. Vous lui demandez d’organiser un fichier Excel : il rédige un script Python que vous devrez exécuter vous-même. Vous lui demandez de réserver un billet d’avion : il vous indique pas à pas sur quel site aller et quel bouton cliquer.
Cette barrière intermédiaire s’appelle « l’interaction avec l’ordinateur ».
GPT-5.4 est le premier modèle généraliste d’OpenAI à franchir cette barrière.
![]()
Améliorations de GPT-5.4 par rapport aux versions antérieures | Source de l’image : OpenAI
Il est capable d’identifier le contenu affiché à l’écran à partir d’une capture d’écran, d’émettre des commandes souris et clavier, et d’exécuter des flux de travail multi-étapes entre différentes applications. Selon OpenAI lui-même, il s’agit de leur « modèle de pointe le plus puissant et le plus efficace à ce jour pour les tâches professionnelles ».
Sur le plan technique, GPT-5.4 prend en charge une fenêtre de contexte atteignant jusqu’à 1 million de tokens et peut invoquer des bibliothèques telles que Playwright pour contrôler directement navigateurs web et applications bureautiques.
Cela signifie qu’il ne traite plus « des dialogues concernant une tâche », mais bien « la tâche elle-même ».
01 Les préparatifs d’OpenAI
Si vous suivez attentivement les initiatives d’OpenAI ces derniers mois, vous remarquerez que GPT-5.4 n’est pas un produit apparu subitement, mais bien la dernière pièce d’une stratégie clairement définie.
Il y a tout juste deux semaines, OpenAI lançait GPT-5.3-Codex, transformant Codex d’un « agent capable d’écrire du code » en un « agent presque capable d’accomplir toutes les tâches qu’un développeur effectue sur son ordinateur », établissant de nouveaux records sur les benchmarks SWE-Bench Pro et Terminal-Bench.
Parallèlement, OpenAI a lancé la plateforme « Frontier », destinée aux entreprises, dont HP, Intuit et Uber sont déjà des utilisateurs précoces.
![]()
GPT-5.4 remplit nettement mieux les tableaux que GPT-5.2 | Source de l’image : OpenAI
Plus tôt encore, le 2 mars, OpenAI et AWS ont étendu leur partenariat initial de 3,8 milliards de dollars à plus de 1 000 milliards de dollars sur huit ans, faisant d’AWS le distributeur cloud tiers exclusif de la plateforme OpenAI Frontier. L’ampleur financière de cet accord constitue en soi un signal fort.
Une nouvelle levée de fonds de 110 milliards de dollars, soutenue par Amazon, SoftBank et Nvidia chacun à hauteur de plusieurs dizaines de milliards de dollars, a également été finalisée au même moment.
Ce n’est pas une entreprise simplement engagée dans la « conception de bons produits » : c’est une entreprise qui concentre tous ses efforts sur la « conquête du marché des agents IA en milieu professionnel ».
La capacité native d’interaction avec l’ordinateur de GPT-5.4 constitue justement l’arme décisive de cette offensive.
02 Est-ce vraiment efficace ?
Les démonstrations fonctionnelles présentées lors des conférences de presse sont toujours impressionnantes — la question cruciale porte toutefois sur les performances réelles.
L’entreprise de technologie financière Walleye Capital rapporte, à l’issue de tests internes, que GPT-5.4 améliore de 30 points de pourcentage la précision des évaluations de modèles financiers Excel, accélérant notablement l’automatisation des analyses de scénarios.
Le PDG de la plateforme d’évaluation des talents Mercor le qualifie carrément de « meilleur modèle que nous ayons testé », soulignant ses performances exceptionnelles dans des tâches longues telles que la création de présentations, la modélisation financière ou l’analyse juridique.
Un développeur indépendant utilisant quotidiennement Codex livre une évaluation plus concrète : « GPT-5.4 est devenu mon moteur quotidien dans Codex. Son mode de raisonnement est plus proche de celui d’un humain ; contrairement à la version 5.3, il n’est pas obsédé par les détails techniques. » Il ajoute toutefois une mise en garde : « Faites attention : j’ai rencontré à plusieurs reprises des cas où le modèle exécutait incorrectement une tâche sans en avouer l’échec. »
![]()
Améliorations de GPT-5.4 en matière d’interaction et de vision | Source de l’image : OpenAI
Ce détail mérite réflexion.
Les données issues des benchmarks viennent également confirmer cette progression. Selon les informations disponibles, GPT-5.4 obtient, sur le benchmark GDPval, de meilleurs résultats que 83 % des employés de bureau ordinaires. Ce chiffre paraît spectaculaire, mais la véritable question n’est pas « combien de personnes dépasse-t-il ? », mais plutôt « dans quels types de tâches peut-il remplacer un humain ? »
Toutefois, le Dr Jeff Dalton, du département d’informatique de l’Université d’Édimbourg, souligne un problème concret : les démonstrations publiées à ce jour ne fournissent guère de preuves d’évaluation suffisamment détaillées pour étayer ces affirmations ambitieuses. Les capacités sont réelles, mais leurs limites exactes restent à établir via davantage de vérifications indépendantes.
03 Le champ de bataille des agents : aucune zone de sécurité
Si GPT-5.4 incarne l’ambition d’OpenAI en matière d’agents IA, ses concurrents ne sont pas restés inactifs.
Claude 3.7 Sonnet d’Anthropic avait déjà intégré dès février une fonctionnalité baptisée « Computer Use », que l’entreprise positionne comme un modèle hybride de raisonnement spécifiquement conçu pour les tâches complexes.
La série Gemini 2.0 de Google poursuit également activement le développement de ses capacités « agentic », et le projet Mariner est désormais capable d’accomplir de manière autonome des séquences d’opérations multiples dans le navigateur Chrome.
Mais la différence essentielle entre GPT-5.4 et ses concurrents réside dans le fait qu’il s’agit du premier modèle généraliste d’OpenAI intégrant nativement la capacité d’interagir avec l’ordinateur — non pas comme un outil distinct, ni comme une API à appeler séparément, mais comme une fonctionnalité inhérente au modèle lui-même.
Ce simple adjectif « natif » revêt une importance capitale sur le plan de l’ingénierie : cela signifie, concrètement, une latence moindre, une transition plus fluide entre les tâches et moins de « code colle » (glue code). Pour les entreprises souhaitant déployer rapidement des applications basées sur des agents, cette distinction influe directement sur les coûts de mise en œuvre.
OpenAI annonce par ailleurs que GPT-5.4 peut s’intégrer directement à Microsoft Excel et Google Sheets, permettant une analyse et une automatisation granulaires au niveau des cellules. Une manœuvre clairement destinée à toucher le cœur même des processus décisionnels en entreprise.
Le champ de bataille des agents n’a jamais été une course à la vitesse, mais bien une compétition pour savoir qui réussira le premier à s’intégrer profondément dans les flux de travail professionnels, devenant ainsi une présence « impossible à désinstaller ».
Les conférences technologiques sont toujours empreintes de passion, mais le véritable test intervient au jour 91 : lorsque l’effervescence retombe, que l’utilisateur ouvre l’outil dans un contexte professionnel réel, et qu’il doit simplement, tranquillement, capturer l’écran, cliquer précisément sur le bon bouton, exécuter discrètement la tâche, puis restituer le résultat.
La remarque du développeur concernant le « masquage des erreurs » constitue, à ce stade, la phrase la plus inquiétante de ce rapport.
Le plafond des capacités des agents IA n’a jamais été défini par « ce qu’ils peuvent faire », mais bien par « jusqu’à quel point on ose leur faire confiance pour le faire ».
La confiance est, en réalité, la véritable monnaie de cette guerre des agents.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News













