Sequoia Capital : L'IA générative, un nouveau monde de création

2022.09.20

Partager vers

TechFlow SélectionTechFlow Sélection

Sequoia Capital : L'IA générative, un nouveau monde de création

Les humains sont doués pour analyser les choses, et les machines font encore mieux dans ce domaine.

2022.09.20 - 04:48:29

红杉AI

Dédié à des analyses Web3 approfondies

Les humains sont doués pour analyser les choses, et les machines font encore mieux dans ce domaine.

Sequoia Capital : L'IA générative, un nouveau monde créatif

Par Sonya Huang et Pat Grady

Traduction : TechFlow

L'AIGC (contenu généré par l'IA) est actuellement un sujet très discuté. Avec le déploiement massif d'applications, la génération par IA d'images, de textes, d'audio ou encore de vidéos s'insinue progressivement dans notre quotidien.

Il y a quelques heures à peine, Sequoia Capital États-Unis a publié sur son site officiel un nouvel article intitulé « Generative AI: A Creative New World ». S’agit-il du début d’un nouveau changement de paradigme (paradigm shift) ?

Examinons ensemble cet article, rédigé par deux partenaires de Sequoia : Sonya Huang et Pat Grady. Ce qui est intéressant, c’est que le nom de GPT-3 figure également clairement dans la liste des auteurs, tandis que les illustrations ont été générées par Midjourney. Cet article lui-même constitue une application concrète de l'AIGC. Voici sa traduction, dans l'espoir qu'elle puisse vous apporter de nouvelles perspectives et stimuler votre réflexion.

Introduction

Les humains excellent dans l'analyse, mais les machines le font encore mieux. Une machine peut analyser un ensemble de données et en extraire des modèles applicables à de nombreux cas d'usage — détection de fraudes ou de spams, prédiction du délai de livraison ou de la vidéo TikTok à vous montrer. Dans ces tâches, elles deviennent de plus en plus performantes. On appelle cela l'« IA analytique (Analytical AI) », ou IA traditionnelle.

Mais les humains ne se contentent pas d’analyser : nous sommes aussi créatifs. Nous écrivons des poèmes, concevons des produits, créons des jeux, rédigeons du code. Jusqu’à récemment, les machines n’avaient guère leur place dans les activités créatives — reléguées aux tâches cognitives analytiques et mécaniques. Or désormais, les machines commencent à produire des œuvres significatives et belles. Cette nouvelle catégorie est appelée « IA générative (Generative AI) », signifiant que les machines génèrent du nouveau contenu au lieu d’analyser ce qui existe déjà.

L'IA générative devient non seulement plus rapide et moins chère, mais dans certains cas, elle produit même de meilleurs résultats que les humains. Des médias sociaux aux jeux, de la publicité à l’architecture, de la programmation au design graphique, du design produit au droit, du marketing à la vente, tous les secteurs reposant auparavant sur la création humaine sont destinés à être repensés par la machine. Certaines fonctions pourraient être entièrement remplacées par l’IA générative, tandis que d’autres prospéreront davantage dans un cycle créatif étroit entre homme et machine. Mais l’IA générative devrait permettre, sur de vastes marchés, une création meilleure, plus rapide et moins coûteuse. Le rêve ultime : l’IA générative réduira à zéro le coût marginal de la création et du travail intellectuel, générant ainsi une productivité du travail, une valeur économique, et par conséquent une capitalisation boursière gigantesques.

L’IA générative couvre les domaines du travail intellectuel et créatif, impliquant des milliards de travailleurs humains. Elle pourrait augmenter l’efficacité et la créativité de ces travailleurs d’au moins 10 %. Non seulement ils deviendront plus rapides et efficaces, mais aussi plus compétents qu’auparavant. Ainsi, l’IA générative a le potentiel de créer des trillions de dollars de valeur économique.

01. Pourquoi maintenant ?

L’IA générative partage avec l’IA en général la même question « pourquoi maintenant ? » : de meilleurs modèles, davantage de données, plus de puissance de calcul. L’évolution de cette catégorie est plus rapide que ce que nous pouvons saisir, mais il est utile de revoir brièvement l’histoire récente dans son contexte global.

Première vague : domination des petits modèles (avant 2015). Les petits modèles étaient alors considérés comme « l’état de l’art » en compréhension linguistique. Ils excellaient dans les tâches analytiques, comme la prédiction des délais de livraison ou la classification des fraudes. Toutefois, ils manquaient d’expressivité pour les tâches générales de génération. Produire un texte ou du code de niveau humain restait un rêve inaccessible.

Deuxième vague : course à l’échelle (2015 – aujourd’hui). Un article fondateur de Google Research (« Attention is All You Need », https://arxiv.org/abs/1706.03762) a décrit une nouvelle architecture de réseau neuronal pour la compréhension du langage naturel, appelée « transformer », capable de générer des modèles linguistiques de haute qualité, avec une meilleure parallélisation et un temps d’entraînement réduit. Ces modèles sont des apprenants simples, facilement adaptables à des domaines spécifiques.

Sequoia Capital : L'IA générative, un nouveau monde créatif

Effectivement, à mesure que les modèles grossissaient, leurs sorties atteignaient puis dépassaient le niveau humain. De 2015 à 2020, la puissance de calcul utilisée pour entraîner ces modèles a augmenté de six ordres de grandeur, surpassant les performances humaines en écriture, parole, reconnaissance d’image, lecture et compréhension du langage. GPT-3 d’OpenAI s’est particulièrement illustré : ses performances ont fait un bond énorme par rapport à GPT-2, démontrant brillamment sa capacité à générer du code ou des blagues, notamment via des démos Twitter virales.

Malgré ces avancées fondamentales, ces modèles restaient peu accessibles. Ils étaient trop volumineux et difficiles à exécuter (nécessitant des configurations GPU spéciales), peu disponibles pour un usage généralisé (fermés ou en test privé), et coûteux lorsqu’utilisés comme service cloud. Malgré ces limites, les premières applications d’IA générative ont commencé à entrer en concurrence.

Troisième vague : mieux, plus vite, moins cher (2022+). La puissance de calcul devient moins chère ; de nouvelles technologies, comme les modèles de diffusion (diffusion models), réduisent les coûts d’entraînement et d’exécution. Les chercheurs continuent d’améliorer les algorithmes et d’agrandir les modèles. L’accès pour les développeurs passe des tests fermés aux tests ouverts, voire à l’open source dans certains cas.

Pour les développeurs désireux d’expérimenter les grands modèles linguistiques (LLMs), les vannes de l’exploration et du développement d’applications sont désormais ouvertes, entraînant une explosion d’applications.

Sequoia Capital : L'IA générative, un nouveau monde créatif

Quatrième vague : apparition d’applications phares (maintenant). Avec la stabilisation de la couche plateforme, les modèles continuent de s’améliorer, devenir plus rapides et moins chers, leur accès tend vers le gratuit et l’open source, et la créativité au niveau applicatif arrive à maturité.

Tout comme les smartphones ont permis de nouvelles catégories d’applications grâce à des fonctionnalités inédites (GPS, caméra, connexion internet), nous anticipons que ces grands modèles stimuleront une nouvelle vague d’applications d’IA générative. Comme il y a dix ans, le point d’inflexion de l’internet mobile a été déclenché par certaines applications phares : nous prévoyons que des applications emblématiques de l’IA générative vont bientôt apparaître. Le sprint est lancé.

02. Paysage du marché

Le schéma ci-dessous illustre les couches plateformes alimentant chaque catégorie, ainsi que les types d’applications potentielles qui seront construits dessus.

Sequoia Capital : L'IA générative, un nouveau monde créatif

Modèles

Texte (Text) est le domaine le plus avancé, bien que l’usage correct du langage naturel soit difficile et que la qualité reste cruciale. Actuellement, ces modèles excellent dans les écrits moyens à courts (mais même là, ils servent souvent d’itérations ou de brouillons). À mesure qu’ils s’améliorent, nous devrions observer des sorties de meilleure qualité, des contenus plus longs et une expertise accrue dans des domaines verticaux spécifiques.

Génération de code (Code generation) devrait rapidement impacter fortement la productivité des développeurs, comme le montre GitHub Copilot. En outre, elle rendra l’utilisation créative du code plus accessible aux non-développeurs.

Images (Images) constituent un phénomène récent, mais déjà viral. Partager des images générées sur Twitter est bien plus amusant que du texte ! Nous voyons apparaître des modèles d’image aux styles esthétiques variés, ainsi que diverses techniques pour modifier et retoucher les images générées.

Synthèse vocale (Speech synthesis) existe depuis un moment, mais les applications grand public et professionnelles en sont encore à leurs balbutiements. Pour des usages exigeants comme les films ou les podcasts, obtenir une voix naturelle, humaine, est un seuil élevé. Tout comme pour les images, les modèles actuels fournissent un point de départ pour optimiser ou finaliser les sorties applicatives.

Vidéo et modèles 3D sont encore très en retard. Pourtant, on s’enthousiasme face à leur potentiel, car ils pourraient ouvrir de vastes marchés créatifs comme le cinéma, les jeux, la réalité virtuelle, l’architecture ou le design de produits physiques. Nous pouvons nous attendre à voir apparaître des modèles basiques de 3D et de vidéo dans les 1 à 2 années à venir.

De nombreux autres domaines, allant de l’audio et de la musique à la biologie et à la chimie, connaissent aussi des recherches sur des modèles fondamentaux. Le diagramme ci-dessous présente une chronologie des progrès des modèles de base et de la faisabilité des applications associées, dont les parties postérieures à 2025 restent spéculatives.

Sequoia Capital : L'IA générative, un nouveau monde créatif

Applications

Voici quelques applications qui nous enthousiasment — seulement une partie d’un éventail bien plus large. Nous sommes fascinés par les applications créatives imaginées par les fondateurs et développeurs.

Rédaction publicitaire (Copywriting) : de plus en plus de personnes ont besoin de contenus personnalisés pour leurs pages web, e-mails, stratégies de vente, marketing et support client. C’est un usage idéal pour les modèles linguistiques. Ces textes ont souvent des formes simples et des gabarits fixes, et étant donné les contraintes de temps et de coût, la demande en solutions automatisées ou assistées devrait croître fortement.

Assistants d’écriture verticaux (Vertical specific writing assistants) : la plupart des assistants d’écriture actuels sont généralistes. Nous pensons qu’il existe une immense opportunité à construire de meilleures applications génératives pour des marchés verticaux spécifiques — des contrats juridiques aux scénarios. La différenciation produit réside ici dans l’ajustement fin des modèles et de l’interface utilisateur aux flux de travail spécifiques.

Génération de code (Code generation) : les applications actuelles boostent la productivité des développeurs. Dans les projets utilisant Copilot, celui-ci génère près de 40 % du code. Mais l’opportunité la plus grande pourrait être d’offrir aux utilisateurs finaux la capacité de programmer. Apprendre à rédiger des prompts pourrait devenir le langage de programmation ultime.

Génération artistique (Art generation) : l’ensemble de l’histoire de l’art et de la culture populaire est désormais encodé dans ces grands modèles, permettant à n’importe qui d’explorer librement des thèmes et styles qui auraient autrefois exigé toute une vie de maîtrise.

Jeux (Gaming) : le rêve ultime est de créer des scénarios complexes ou des modèles manipulables via le langage naturel. Cet objectif lointain prendra du temps, mais des options plus immédiates existent, comme la génération de textures ou d’art de skybox.

Médias / Publicité (Media/Advertising) : imaginez le potentiel d’automatiser la création publicitaire, en optimisant en temps réel texte et créations pour chaque consommateur. Une excellente opportunité de génération multimodale consiste à combiner message commercial et visuels complémentaires.

Design (Design) : concevoir des prototypes numériques ou physiques est un processus itératif intensif. Il est désormais possible que l’IA produise des rendus fidèles à partir de croquis sommaires et de prompts. Avec l’émergence des modèles 3D, le design génératif s’étendra de la fabrication à l’objet physique : votre prochaine appli iPhone ou votre paire de baskets pourrait être conçue par une machine.

Réseaux sociaux et communautés numériques (Social media and digital communities) : existe-t-il de nouvelles façons d’exprimer soi-même grâce aux outils génératifs ? Alors que des applications comme Midjourney apprennent à créer sur les réseaux sociaux comme un humain, de nouvelles expériences sociales émergent.

Sequoia Capital : L'IA générative, un nouveau monde créatif

03. Analyse des applications d’IA générative

À quoi ressembleront les applications d’IA générative ? Voici quelques prévisions :

Intelligence et ajustement des modèles

Les applications d’IA générative s’appuient sur de grands modèles comme GPT-3 ou Stable Diffusion. À mesure qu’elles accumulent des données utilisateur, elles peuvent affiner ces modèles, améliorant leur qualité et performance pour des problèmes spécifiques, tout en réduisant leur taille et leur coût.

On peut voir une application d’IA générative comme une couche UI dotée d’un « petit cerveau (little brain) » positionné au-dessus du « grand cerveau (big brain) » constitué par un modèle généraliste de grande ampleur.

Facteurs d’émergence

Aujourd’hui, les applications d’IA générative existent largement sous forme de plug-ins intégrés à des écosystèmes logiciels existants : génération de code dans votre IDE, création d’image dans Figma ou Photoshop, ou encore bots Discord servant d’outil d’IA générative dans des communautés numériques.

Un petit nombre d’applications Web indépendantes existent aussi, comme Jasper et Copy.ai pour la rédaction, Runway pour le montage vidéo, ou Mem pour la prise de notes.

Le format plug-in pourrait être une bonne porte d’entrée pour les applications d’IA générative, car il permet de surmonter le dilemme du « chien et chat (chicken-and-egg problem) » lié aux données utilisateur et à la qualité du modèle (besoin de distribution pour collecter des données afin d’améliorer le modèle, mais besoin d’un bon modèle pour attirer les utilisateurs). Nous avons déjà vu cette stratégie réussir dans d'autres catégories de marché, comme les marchés grand public et sociaux.

Nouveaux paradigmes d’interaction

Aujourd’hui, la plupart des démonstrations d’IA générative sont « ponctuelles » : vous donnez une entrée, la machine fournit une sortie, que vous gardez ou rejetez avant de recommencer. À l’avenir, les modèles permettront l’itération : vous pourrez modifier, ajuster, améliorer et générer des variantes à partir de la sortie initiale.

Actuellement, les sorties d’IA générative servent de prototype ou de brouillon. Les applications excellent à proposer plusieurs idées différentes pour poursuivre le processus créatif (comme plusieurs options pour un logo ou une architecture), et à produire des premiers jets, mais nécessitent encore une touche finale humaine (par exemple, pour un billet de blog ou une complétion automatique de code). À mesure que les modèles gagnent en intelligence, aidés en partie par les données utilisateur, nous pouvons espérer que ces brouillons deviendront de meilleure qualité, jusqu’à être suffisamment bons pour servir directement de produit final.

Leadership industriel durable

Les meilleures entreprises d’IA générative pourront créer un avantage concurrentiel durable grâce à un cercle vertueux entre fidélisation des utilisateurs, données et performance du modèle. Pour réussir, les équipes doivent activer ce cercle via :

Forte fidélisation → Transformer cette fidélisation en meilleure performance du modèle (améliorations rapides, ajustement du modèle, utilisation des choix des utilisateurs comme données étiquetées) → Utiliser cette performance supérieure pour attirer et retenir davantage d’utilisateurs.

Elles pourraient se concentrer sur des domaines spécifiques (code, design, jeux) plutôt que tenter de tout résoudre pour tout le monde. Elles pourraient d’abord s’intégrer profondément à des applications existantes pour bénéficier de leur distribution, puis tenter de remplacer ces applications par des workflows nativement conçus pour l’IA. Construire correctement ces applications afin d’accumuler utilisateurs et données prend du temps, mais nous croyons que les meilleures d’entre elles seront durables et auront la possibilité de devenir très grandes.

04. Difficultés et risques

Malgré son potentiel énorme, l’IA générative fait face à de nombreuses questions non résolues en matière de modèle économique et technique. Des enjeux cruciaux comme les droits d’auteur, la confiance, la sécurité et le coût restent à régler.

05. Regard vers l’avenir

L’IA générative en est encore à ses débuts. La couche plateforme commence à peine à émerger, et celle des applications n’en est qu’à ses prémices.

Précisons-le : nous n’avons pas besoin que l’IA générative écrive les romans de Tolstoï. Ces modèles sont déjà suffisamment bons pour rédiger des brouillons d’articles de blog, ou générer des prototypes de logos et d’interfaces produits. À court et moyen terme, cela créera une valeur considérable.

La première vague d’applications d’IA générative ressemble aux applications mobiles à l’époque du lancement de l’iPhone — quelque peu spectaculaires mais superficielles, avec des différenciations floues et des modèles économiques incertains. Pourtant, certaines applications offrent un aperçu fascinant de ce que l’avenir pourrait réserver. Dès que vous avez vu une machine produire du code fonctionnel complexe ou des images saisissantes, il devient difficile d’imaginer un futur où la machine ne jouerait aucun rôle dans notre travail et notre création.

Si nous nous autorisons à rêver à plusieurs décennies, il est facile d’imaginer un futur où l’IA générative sera profondément intégrée à nos modes de travail, de création et de divertissement : les notes s’écriront toutes seules, l’impression 3D reproduira tout ce que vous imaginez, des films Pixar passeront du texte à l’écran, et des expériences de jeu à la Roblox permettront de créer rapidement des mondes riches. Bien que cela semble aujourd’hui relever de la science-fiction, la vitesse du progrès technologique est stupéfiante. Passer de modèles linguistiques étroits à la génération automatique de code n’a pris que quelques années. Si nous maintenons ce rythme et suivons la « Loi de Moore des grands modèles (Large Model Moore's Law) », alors ces scénarios lointains deviendront à portée de main.

Lien vers l'article original

Bienvenue dans la communauté officielle TechFlow

Groupe Telegram :https://t.me/TechFlowDaily

Compte Twitter officiel :https://x.com/TechFlowPost

Compte Twitter anglais :https://x.com/BlockFlow_News

Ajouter aux favoris

Partager sur les réseaux sociaux

Auteur红杉资本

Sequoia Capital : L'IA générative, un nouveau monde de création

TechFlow SélectionTechFlow Sélection