
Un salaire de 400 000 dollars grâce à la programmation par l'IA ?
TechFlow SélectionTechFlow Sélection

Un salaire de 400 000 dollars grâce à la programmation par l'IA ?
L'impact de l'IA sur le remplacement des programmeurs n'est actuellement pas aussi exagéré que cela.
Auteur : Tan Zixin, Tête de la technologie

Image : générée par Wuji AI
Les grands modèles linguistiques (LLM) transforment la manière dont les logiciels sont développés. La question de savoir si l'IA peut remplacer à grande échelle les programmeurs humains est désormais un sujet fortement discuté dans le secteur.
En seulement deux ans, les grands modèles d'IA sont passés de la résolution de problèmes fondamentaux en informatique à la compétition avec des experts humains lors de concours internationaux de programmation. Par exemple, OpenAI o1 a participé aux Olympiades Internationales d'Informatique 2024 (IOI) dans les mêmes conditions que les participants humains et a remporté une médaille d'or, démontrant ainsi un potentiel de programmation remarquable.
Par ailleurs, la vitesse d'itération de l'IA s'accélère également. Sur la référence d'évaluation SWE-Bench Verified, GPT-4o atteignait un score de 33 % en août 2024, mais le nouveau modèle o3 a doublé ce score pour atteindre 72 %.

Pour mieux mesurer les capacités des modèles d'IA dans l'ingénierie logicielle du monde réel, OpenAI a publié aujourd'hui une nouvelle référence open source appelée SWE-Lancer, qui relie pour la première fois les performances des modèles à leur valeur monétaire.
SWE-Lancer est un ensemble de tests composé de plus de 1400 tâches de développement logiciel indépendantes provenant de la plateforme Upwork, dont la rémunération totale dans le monde réel s'élève à environ un million de dollars américains. Combien d'argent l'IA pourrait-elle gagner en programmant ?
Les « spécificités » de cette nouvelle référence
Les prix des tâches du benchmark SWE-Lancer reflètent la valeur marchande réelle : plus la tâche est difficile, plus la rémunération est élevée.
L'ensemble inclut à la fois des tâches techniques individuelles et des tâches de gestion, permettant de choisir entre différentes approches techniques. Ce benchmark ne cible pas uniquement les programmeurs, mais toute l'équipe de développement, y compris les architectes et les gestionnaires.

Comparé aux précédents benchmarks d'ingénierie logicielle, SWE-Lancer présente plusieurs avantages, par exemple :
1. Les 1488 tâches représentent toutes des paiements réels versés par des employeurs à des développeurs indépendants, offrant ainsi un gradient naturel de difficulté déterminé par le marché, avec des rémunérations allant de 250 à 32 000 dollars, ce qui est assez conséquent.
Parmi elles, 35 % des tâches valent plus de 1 000 dollars, et 34 % se situent entre 500 et 1 000 dollars. Le groupe des tâches d'ingénierie logicielle par contributeur individuel (IC) comprend 764 tâches, d'une valeur totale de 414 775 dollars ; le groupe des tâches de gestion SWE comprend 724 tâches, d'une valeur totale de 585 225 dollars.
2. L'ingénierie logicielle à grande échelle dans le monde réel nécessite non seulement du codage concret, mais aussi une coordination technique solide. Ce benchmark utilise des données réelles pour évaluer la capacité des modèles à assumer le rôle de « responsable technique » en ingénierie logicielle (SWE).

3. Capacité avancée d'évaluation full stack. SWE-Lancer représente l'ingénierie logicielle du monde réel, car ses tâches proviennent de plateformes utilisées par des millions d'utilisateurs réels.
Les tâches impliquent le développement d'applications mobiles et web, l'interaction avec des API, des navigateurs et des applications externes, ainsi que la vérification et la reproduction de problèmes complexes.
Par exemple, certaines tâches consistent à améliorer la fiabilité pour 250 dollars (corriger un problème d'appel API double déclenchement), corriger une faille de sécurité pour 1 000 dollars (résoudre un problème de permissions) ou implémenter une nouvelle fonctionnalité pour 16 000 dollars (ajouter la prise en charge de la lecture vidéo dans l'application sur web, iOS, Android et desktop).
4. Diversité des domaines. 74 % des tâches IC SWE et 76 % des tâches de gestion SWE concernent la logique applicative, tandis que 17 % des tâches IC SWE et 18 % des tâches de gestion SWE portent sur le développement UI/UX.
En termes de difficulté, les tâches sélectionnées par SWE-Lancer sont très exigeantes : en moyenne, celles issues de jeux de données open source prennent 26 jours à être résolues sur GitHub.
De plus, OpenAI affirme avoir adopté une collecte de données impartiale, en choisissant des échantillons représentatifs sur Upwork et en engageant 100 ingénieurs logiciels professionnels pour rédiger et valider des tests de bout en bout pour toutes les tâches.
Face-à-face sur la rentabilité du codage par IA
Bien que de nombreux leaders technologiques affirment régulièrement que les modèles d'IA peuvent remplacer les ingénieurs « bas de gamme », il reste très incertain que les entreprises puissent entièrement substituer les ingénieurs logiciels humains par des LLM.
Les premiers résultats d'évaluation montrent que, sur l'ensemble complet de données SWE-Lancer, les meilleurs modèles d'IA testés génèrent des revenus bien inférieurs au gain potentiel total de un million de dollars.

Dans l'ensemble, tous les modèles obtiennent de meilleurs résultats sur les tâches de gestion SWE que sur les tâches IC SWE. Les tâches IC SWE restent largement non maîtrisées par les modèles d'IA. Actuellement, le meilleur modèle testé est Claude 3.5 Sonnet, développé par Anthropic, concurrent d'OpenAI.
Pour les tâches IC SWE, tous les modèles ont un taux de réussite unique et un rendement inférieurs à 30 %. Pour les tâches de gestion SWE, le meilleur modèle, Claude 3.5 Sonnet, atteint un score de 45 %.
Claude 3.5 Sonnet fait preuve de performances solides tant sur les tâches IC SWE que sur les tâches de gestion SWE, surpassant le deuxième meilleur modèle, o1, de 9,7 % sur les tâches IC SWE et de 3,4 % sur les tâches de gestion SWE.
En termes de revenus, le meilleur modèle, Claude 3.5 Sonnet, générerait plus de 400 000 dollars sur l'ensemble complet des données.

Un point important à noter est que un volume de calcul de raisonnement plus élevé améliore considérablement la « rentabilité de l'IA ».
Sur les tâches IC SWE, les expériences menées avec le modèle o1 équipé d'outils de raisonnement approfondi montrent qu'un calcul de raisonnement accru augmente le taux de réussite unique de 9,3 % à 16,5 %, et les revenus passent de 16 000 à 29 000 dollars, tandis que le taux de rendement grimpe de 6,8 % à 12,1 %.
Les chercheurs concluent que même si le meilleur modèle, Claude 3.5 Sonnet, a résolu 26,2 % des problèmes IC SWE, la majorité des solutions restantes contiennent encore des erreurs, nécessitant de nombreuses corrections avant un déploiement fiable. Viennent ensuite o1, puis GPT-4o. En outre, le taux de réussite unique sur les tâches de gestion est généralement plus du double de celui observé sur les tâches IC SWE.
Cela signifie que, même si l'idée que les agents d'IA remplacent les ingénieurs logiciels humains fait beaucoup parler, les entreprises doivent rester prudentes. Les modèles d'IA peuvent résoudre certains problèmes de codage « basiques », mais ils ne peuvent pas encore remplacer les ingénieurs logiciels débutants, car ils ne comprennent pas les causes sous-jacentes de certaines erreurs de code et en commettent souvent de nouvelles par extension.
Le cadre d'évaluation actuel ne prend pas encore en charge les entrées multimodales. En outre, les chercheurs n'ont pas encore évalué le « retour sur investissement », comme la comparaison entre la rémunération versée aux freelances et le coût d'utilisation des API pour accomplir une tâche. Cela constituera un axe prioritaire d'amélioration pour ce benchmark.
Devenir un programmeur « augmenté par l'IA »
Pour l'instant, l'IA a encore un long chemin à parcourir avant de pouvoir véritablement remplacer les programmeurs humains, car développer un projet logiciel va bien au-delà de la simple génération de code selon des spécifications.
Par exemple, les programmeurs sont souvent confrontés à des demandes clients extrêmement complexes, abstraites ou floues, nécessitant une compréhension approfondie des principes techniques, de la logique métier et de l'architecture système. Lors de l'optimisation d'une architecture logicielle complexe, les programmeurs humains peuvent prendre en compte de façon globale des facteurs tels que l'extensibilité, la maintenabilité et les performances futures du système, alors que l'IA pourrait avoir du mal à effectuer une analyse aussi complète.
En outre, la programmation ne consiste pas seulement à implémenter une logique existante, mais requiert aussi une grande créativité et une pensée innovante. Les programmeurs doivent concevoir de nouveaux algorithmes, concevoir des interfaces logicielles uniques et des modes d'interaction originaux, des idées véritablement novatrices que l'IA peine à produire.

Les programmeurs doivent également communiquer et collaborer avec les membres de l'équipe, les clients et autres parties prenantes. Ils doivent comprendre les besoins de chacun, évaluer leur faisabilité, exprimer clairement leurs points de vue et coopérer avec autrui pour mener à bien un projet. De plus, les programmeurs humains possèdent une capacité d'apprentissage continu et d'adaptation aux changements. Ils peuvent rapidement acquérir de nouvelles connaissances et compétences et les appliquer à des projets concrets, alors qu'un modèle d'IA performant nécessite divers entraînements et tests.
Le secteur du développement logiciel est également soumis à de nombreuses contraintes légales et réglementaires, telles que la propriété intellectuelle, la protection des données et les licences logicielles. L'intelligence artificielle pourrait avoir du mal à comprendre et respecter pleinement ces exigences juridiques, ce qui pourrait entraîner des risques juridiques ou des litiges.
À long terme, le progrès technologique de l'IA continuera d'affecter l'emploi des programmeurs, mais à court terme, le modèle dominant sera le « programmeur augmenté par l'IA ». Maîtriser l'utilisation des derniers outils d'IA devient l'une des compétences essentielles des meilleurs programmeurs.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News













