
Discussion privée entre entrepreneurs IA chinois et américains : Évolutions et nouvelles tendances de l'entrepreneuriat IA après DeepSeek-R1
TechFlow SélectionTechFlow Sélection

Discussion privée entre entrepreneurs IA chinois et américains : Évolutions et nouvelles tendances de l'entrepreneuriat IA après DeepSeek-R1
Le chatbot ne sera pas nécessairement le premier produit d'intelligence artificielle utilisé par l'utilisateur.
Article source : FounderPark

Image source : Generated by Wujie AI
TechFlow a sans aucun doute été le centre d'attention pendant le Festival du Printemps 2025, depuis l'application arrivée en tête du classement des applications gratuites sur l'App Store jusqu'à la course aux déploiements de DeepSeek-R1 par les principaux fournisseurs de cloud. TechFlow est même devenu pour beaucoup le premier produit d'intelligence artificielle qu'ils ont pu expérimenter. Pour les entrepreneurs, tout le monde en discute : innovation technologique, analyse des coûts d'entraînement et d'inférence, impact sur l'industrie de l'IA, etc.
Le 2 février, Founder Park, avec Global Ready, la communauté privée internationale appartenant également à Geek Park, a organisé une discussion confidentielle rassemblant plus de 60 fondateurs et experts techniques d'entreprises spécialisées dans l'IA basées à Silicon Valley, en Chine, à Londres, à Singapour et au Japon. Cette session approfondie a exploré les nouvelles directions technologiques et tendances produits initiées par DeepSeek, notamment sous les angles de l'innovation technique, du déploiement pratique et de la pénurie de capacités de calcul.

Après anonymisation, nous avons synthétisé les points clés de cette discussion privée.
01 Où réside l'innovation de TechFlow ?
TechFlow a publié son modèle de base V3 fin décembre, l'un des modèles ouverts les plus puissants actuellement disponibles dans l'industrie. Comportant 37 milliards de paramètres actifs, sa taille totale atteint 671 milliards de paramètres, ce qui en fait un grand modèle MoE (Mixture of Experts).
Le « moment Aha » du modèle R1, publié en janvier 2025, désigne la capacité du modèle à manifester une certaine aptitude à la réflexion lors de raisonnements. Par exemple, en cours de résolution de problème, le modèle peut réaliser qu'une méthode n'est plus adaptée et ajuster sa stratégie vers une approche plus efficace. Cette capacité de réflexion provient de l'apprentissage par renforcement (RL).
R1 est le modèle phare de TechFlow. Ses performances en raisonnement sont comparables à celles du modèle o1 d'OpenAI. La méthode concrète utilisée peut être résumée comme suit : deux étapes d'apprentissage par renforcement (RL) suivies de deux étapes de SFT (Supervised Fine-Tuning). Les deux premières étapes de RL et SFT servent principalement à construire un modèle-enseignant destiné à guider la génération de données à la troisième étape. Ce modèle vise à devenir le modèle de raisonnement le plus puissant disponible aujourd'hui.
-
L'innovation centrale du modèle DeepSeek R1-Zero réside dans le contournement de l'étape traditionnelle de fine-tuning (SFT), en optimisant directement le raisonnement via l'apprentissage par renforcement (RL). En outre, utiliser DeepSeek R1 comme modèle-enseignant pour distiller un modèle plus petit et ouvert (tel que Qwen1.7B/7B/14B/32B) permet d'améliorer significativement les capacités du petit modèle.
-
Pour ce qui est des capacités de codage, DeepSeek R1 est comparable au tout nouveau o3 mini d'OpenAI, bien que les performances globales du o3 mini soient légèrement supérieures. La différence notable est que R1 est open source, ce qui stimulera davantage d'applications l'utilisant.
-
Le succès de DeepSeek repose essentiellement sur une solution hautement intégrée qui réduit drastiquement les coûts. Si l'on décompose leur approche, chacune des méthodes utilisées peut être retrouvée dans des articles publiés l'année dernière. Toutefois, DeepSeek adopte de manière très agressive les dernières avancées méthodologiques. Bien que ces méthodes comportent des effets secondaires – notamment un surplus de stockage – elles améliorent considérablement le taux d'utilisation du cluster.
-
Hors d’un environnement de grand cluster servant un grand nombre d’utilisateurs, l’architecture MLA pourrait présenter des inconvénients. De nombreuses méthodes de DeepSeek ne donnent leur plein effet que dans des scénarios et environnements spécifiques ; utilisées isolément, elles peuvent même nuire aux performances. Leur conception système est extrêmement fine : extraire individuellement l’une de ces technologies ne reproduit pas leurs résultats exceptionnels.
-
Il ne faut pas se limiter à l'entraînement d'un modèle de récompense processuel (process reward model), car cela risquerait de ne pas atteindre les résultats escomptés, voire de provoquer un surapprentissage (overfitting). DeepSeek a choisi la méthode la plus fondamentale d’apprentissage par renforcement, en attribuant des notes aux résultats finaux selon des règles heuristiques, puis en corrigeant le processus via des méthodes classiques de RL. Cette approche a émergé grâce à de nombreux essais et erreurs, rendus possibles par l’infrastructure particulièrement efficace de DeepSeek.
-
Même si DeepSeek n’a pas publié publiquement son code d’inférence, d’autres équipes peuvent raisonnablement deviner les méthodes employées. Les poids du modèle ouvert suffisent largement à reproduire ses performances, mais le défi réside dans la découverte des configurations spéciales internes, ce qui demande du temps.
-
Un modèle de récompense basé uniquement sur l’annotation de données peine à atteindre une intelligence super-humaine. Pour obtenir une optimisation avancée des récompenses et ainsi développer des capacités super-humaines, il faut un modèle de récompense réel fondé sur des données ou des retours provenant d’un environnement authentique.
-
D’un point de vue technique, on peut supposer ceci : si un modèle de base possède une forte généralité, combinée à des compétences en mathématiques et en programmation, l’interaction entre ces deux composantes génère une capacité de généralisation accrue. Par exemple, partant d’un modèle de base déjà intelligent, disons bon en écriture, l’ajout d’un apprentissage par renforcement axé sur les maths et le code pourrait lui conférer une bonne capacité de généralisation, menant à des performances exceptionnelles. Cela se traduirait par la capacité de produire des textes variés allant du骈文 aux poèmes réguliers ou aux quatrains, là où d'autres modèles échouent.
02 Pourquoi le coût de DeepSeek est-il si bas ?
-
Le modèle présente une très grande rareté (sparsité). Bien qu'il s'agisse d'un modèle massif de plus de 600 milliards de paramètres, le nombre effectif de paramètres activés par token durant l'inférence est très faible, seulement 37 milliards. Cela signifie que sa vitesse et sa consommation de ressources en inférence sont comparables à celles d'un modèle de 37 milliards de paramètres. Toutefois, atteindre cet objectif nécessite de profondes modifications de conception système.
-
Dans DeepSeek V3, l'architecture MoE comprend 256 experts, mais seule une petite partie est activée à chaque inférence. En situation de forte charge, elle peut ajuster dynamiquement l'utilisation des ressources, théoriquement réduisant les coûts jusqu'à 1/256 de leur valeur initiale. Cette conception témoigne de la vision prospective de DeepSeek en matière d'architecture logicielle. Une optimisation système suffisamment poussée permet de réduire drastiquement les prix au même niveau de performance.
-
Lors de l'entraînement des modèles, on utilise généralement trois types de parallélisme : le premier consiste à diviser les données, appelé parallélisme de données (Data Parallelism). Le second découpe le modèle au niveau des couches, indépendantes les unes des autres, appelé parallélisme de pipeline (Pipeline Parallelism). Le troisième divise les poids du modèle entre différentes GPU, appelé parallélisme tensoriel (Tensor Parallelism). Pour accompagner la conception de modèle sparse, DeepSeek a fortement adapté son framework et son pipeline d'entraînement, abandonnant complètement le Tensor Parallelism pour n'utiliser que Data Parallelism et Pipeline Parallelism, tout en ajoutant un parallélisme d'experts (Expert Parallelism) très finement calibré. Grâce à une répartition minutieuse des 256 experts sur différentes GPU, et en éliminant le Tensor Parallelism, DeepSeek contourne les limitations matérielles, rapprochant ainsi les performances d'entraînement des H800 et des H100.
-
En termes de déploiement, les tests montrent que le coût de calcul est maîtrisable et la complexité technique relativement faible : sa reproduction prend généralement une à deux semaines, ce qui constitue un atout majeur pour de nombreux développeurs applicatifs.
-
Une architecture possible : déléguer le raisonnement par RL non pas au modèle linguistique lui-même, mais à une « machine de pensée » externe, capable d'assurer toute la fonction de raisonnement, ce qui réduirait encore le coût global de plusieurs ordres de grandeur.
03 Le chatbot ne sera pas nécessairement le premier produit IA utilisé par les utilisateurs
-
Le succès de DeepSeek R1 ne tient pas uniquement à ses capacités de raisonnement, mais aussi à son intégration avec une fonction de recherche. La combinaison reasoning model + recherche équivaut, dans une certaine mesure, à un cadre micro-agent. Pour la majorité des utilisateurs, c’est leur première expérience avec un modèle de raisonnement. Pour ceux ayant déjà utilisé d'autres modèles de raisonnement (comme o1 d'OpenAI), DeepSeek R1 enrichi de recherche offre une expérience entièrement nouvelle.
-
Pour les utilisateurs n’ayant jamais utilisé de produit d’IA auparavant, leur premier produit ne sera pas forcément un produit d’interaction linguistique tel que ChatGPT, mais pourrait être un produit conçu pour un autre scénario piloté par un modèle.
-
La barrière concurrentielle des entreprises appliquatives dans le domaine de l’IA réside dans l’expérience utilisateur. Celui qui réussira à offrir une interface plus rapide, plus fluide et des fonctionnalités plus agréables occupera une position avantageuse sur le marché.
-
La visualisation actuelle du processus de réflexion du modèle est une fonctionnalité satisfaisante, mais elle correspond plutôt à un stade précoce de l’amélioration des capacités du modèle par apprentissage par renforcement (RL). La longueur du processus de raisonnement n’est pas le seul critère de justesse du résultat final. À l’avenir, on passera progressivement de longs processus complexes à des raisonnements courts et plus concis.
04 L’implémentation de l’IA dans des cas d’usage verticaux est désormais plus facile
-
Pour les tâches verticales (tâches spécifiques à un domaine), l’évaluation peut être réalisée via un système de règles (rule system), sans avoir besoin d’un modèle de récompense (rewarding model) complexe. Sur des tâches verticales bien définies, des modèles comme Tiny Zero ou des modèles de 7B peuvent rapidement produire des résultats exploitables.
-
Sur une tâche verticale bien définie, entraîner un modèle de 7 milliards de paramètres ou plus, distillé à partir de DeepSeek, permet d’atteindre rapidement un « moment Aha ». Du point de vue des coûts, pour des tâches simples avec réponse claire comme des calculs arithmétiques ou le jeu du blackjack, il suffit de 2 à 4 cartes H100 ou H200, et moins d’une demi-journée pour que le modèle converge vers un état utilisable.
-
Dans les domaines verticaux, notamment pour les tâches à réponse claire comme les calculs mathématiques ou la vérification de lois physiques (positionnement d’objets, mouvements conformes à la réalité), les performances de DeepSeek R1 surpassent effectivement celles des autres modèles, avec un coût maîtrisé. Il peut donc être déployé dans de nombreux domaines verticaux. Toutefois, pour les tâches sans réponse claire, comme juger de l’esthétique d’un objet ou de la joie procurée par une réponse, ces évaluations hautement subjectives ne peuvent pas être correctement traitées par des méthodes basées sur des règles (rule-based). Des solutions à ces problèmes devront attendre quelques mois, voire six mois, jusqu’à l’émergence de meilleures méthodes.
-
L’utilisation de méthodes comme le fine-tuning supervisé (SFT) rend difficile la résolution de requêtes coûteuses en temps de consultation de jeux de données, dont la distribution de domaine (domain distribution) couvre rarement tous les niveaux de la tâche. Désormais, une nouvelle bibliothèque d’outils de qualité, associée à un modèle performant, permet de résoudre efficacement les anciens problèmes liés à la collecte de données et aux tâches verticales à réponse claire.
-
Bien que les systèmes basés sur des règles permettent de définir clairement des règles pour les mathématiques et le codage, ils deviennent extrêmement difficiles à gérer face à des tâches plus complexes ou ouvertes. On explorera donc probablement des modèles plus adaptés pour évaluer les résultats dans ces scénarios complexes. Des méthodes telles que ORM (fonction de récompense orientée résultat) plutôt que PRM (orientée processus), ou d'autres approches similaires, pourraient être adoptées. À terme, on pourrait construire des simulateurs proches de « modèles du monde » afin de fournir un meilleur retour aux décisions prises par divers modèles.
-
Lors de l'entraînement de petites architectures à la capacité de raisonnement, il n'est même pas nécessaire de recourir à des solutions basées sur les tokens. Dans une solution orientée commerce électronique, toute la capacité de raisonnement a été directement séparée d'un modèle basé sur Transformer, et confiée à un petit modèle distinct chargé exclusivement du raisonnement, combiné ensuite avec Transformer pour accomplir la tâche complète.
-
Pour les entreprises développant leurs propres modèles à usage interne (par exemple, des hedge funds), le principal défi réside dans le coût. Les grandes entreprises peuvent amortir leurs coûts en attirant des clients, mais les petites équipes ou entreprises peinent à supporter les frais élevés de R&D. L'ouverture du code par DeepSeek revêt donc une importance capitale pour elles : des équipes auparavant incapables de financer des coûts de développement élevés peuvent désormais construire leurs propres modèles.
-
Dans le secteur financier, notamment pour les fonds quantitatifs, l'analyse de vastes volumes de données financières (rapports annuels d'entreprises, données Bloomberg, etc.) est fréquente. Ces sociétés construisent généralement leurs propres jeux de données et effectuent un apprentissage supervisé (supervised training), mais le coût de l'annotation des données est très élevé. Pour elles, l'application de l'apprentissage par renforcement (RL) en phase de fine-tuning peut considérablement améliorer les performances du modèle, entraînant une progression qualitative.
05 Les puces chinoises pourraient résoudre le problème de puissance de calcul pour l'inférence
-
En Chine, de nombreuses puces visent à concurrencer les A100 et A800. Toutefois, le principal goulot d'étranglement des puces nationales ne réside pas dans la conception, mais dans la fabrication (tape-out). DeepSeek a choisi de s'adapter à Huawei car ce dernier peut fournir une production stable, garantissant une formation et une inférence continues même sous des sanctions plus strictes.
-
Avec l'évolution future d'Nvidia, du point de vue de l'entraînement sur carte unique, ces puces haut de gamme présentent une surcapacité de calcul dans certains cas d'usage. Par exemple, la puissance de calcul d'une carte unique pourrait ne pas être pleinement exploitée en phase d'entraînement en raison de limitations supplémentaires liées au cache ou à la mémoire, ce qui les rend moins adaptées aux tâches d'entraînement.
-
Sur le marché chinois des puces, si l'on se concentre exclusivement sur les applications d'IA sans tenir compte du calcul scientifique, en réduisant fortement les capacités de calcul en virgule flottante haute précision et en se focalisant uniquement sur les tâches d'IA, il serait possible de rattraper certains indicateurs de performance des puces phares d'Nvidia.
06 Vers des agents plus puissants et une capacité de rappel inter-applications
-
Pour de nombreux domaines verticaux, les capacités des agents connaîtront une nette amélioration. On peut commencer par un modèle de base, transformer certaines règles en un modèle de règles (rule model), qui pourrait être une solution purement ingénierie (pure engineering solution). Ensuite, on peut utiliser cette solution pour itérer (iteration) et entraîner (training) le modèle de base. Le résultat obtenu pourrait déjà montrer des signes d’intelligence super-humaine (super human intelligence). Sur cette base, un réglage de préférences (preference tuning) peut rendre les réponses plus conformes aux habitudes de lecture humaine (human-readable), conduisant ainsi à un agent de raisonnement plus puissant dans un domaine vertical spécifique.
-
Cela pourrait poser un problème : il sera peut-être impossible d’avoir un agent doté d’une forte capacité de généralisation dans tous les domaines verticaux. Un agent formé dans un domaine spécifique ne pourra travailler que dans ce domaine, sans pouvoir généraliser à d’autres. Mais c’est une direction envisageable, car le coût d’inférence (inference cost) apporté par DeepSeek est très faible. On peut choisir un modèle, le soumettre à une série d’entraînements par renforcement, puis le dédier à un domaine vertical spécifique, sans plus se soucier des autres. Pour les entreprises spécialisées en IA, c’est une solution acceptable.
-
D’un point de vue académique, une tendance importante pour l’année à venir sera le transfert de certaines méthodes existantes d’apprentissage par renforcement vers les grands modèles, afin de résoudre les problèmes actuels de mauvaise généralisation ou d’évaluation imprécise. Grâce à cela, les performances et la capacité de généralisation des modèles pourront être davantage améliorées. Avec l’adoption croissante de l’apprentissage par renforcement, la capacité de sortie d’informations structurées s’améliorera considérablement, soutenant mieux divers scénarios d’application, en particulier en améliorant la génération de graphiques et d’autres contenus structurés.
-
De plus en plus de personnes utiliseront R1 pour le post-training, chacun pouvant créer son propre agent. La couche modèle deviendra une collection de modèles agents différents, utilisant divers outils pour résoudre des problèmes dans différents domaines, aboutissant finalement à un système multi-agents.
-
2025 pourrait devenir l’année zéro de l’agent intelligent (agent). De nombreuses entreprises lanceront des agents capables de planifier des tâches. Toutefois, il manque actuellement assez de données pour soutenir ces tâches. Par exemple, planifier une tâche peut inclure aider l’utilisateur à commander un repas, réserver un voyage ou vérifier la disponibilité des billets d’entrée. Ces tâches exigent d’importantes quantités de données et des mécanismes de récompense pour évaluer la précision du modèle — par exemple, planifier un voyage à Zhangjiajie, comment juger de la justesse, et comment le modèle apprend-il ? Ces questions deviendront des sujets de recherche clés dans les prochains mois. Les capacités de raisonnement seront finalement utilisées pour résoudre des problèmes concrets.
-
En 2025, la capacité d’appel inter-applications deviendra un sujet brûlant. Dans le système Android, grâce à son caractère open source, les développeurs peuvent accéder aux permissions de bas niveau pour effectuer des opérations inter-applications. À l’avenir, les agents pourront contrôler votre navigateur, téléphone ou ordinateur. Toutefois, dans l’écosystème Apple, en raison de la gestion stricte des permissions, il reste très difficile pour un agent de contrôler toutes les applications sur un appareil. Apple devra donc développer en interne un agent capable de contrôler toutes ses applications. Même si Android est open source, il faudra tout de même collaborer avec des fabricants comme OPPO ou Huawei pour ouvrir les permissions de bas niveau sur téléphones, tablettes et ordinateurs, permettant ainsi la collecte de données et le développement des agents.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News













