
À propos des malentendus et de la vérité sur DeepSeek
TechFlow SélectionTechFlow Sélection

À propos des malentendus et de la vérité sur DeepSeek
Les hallucinations produites par DeepSeek, tout comme la curiosité qui les suscite, pourraient bien être les deux faces d'une même innovation.
Auteur : Zhou Yue,Economic Observer

Éditorial
I ||Pour des entreprises telles que Google, Meta et Anthropic, reproduire un modèle de raisonnement similaire à DeepSeek-R1 n'est pas difficile. Toutefois, dans la bataille entre géants, même une petite erreur de décision peut faire rater une opportunité.
II ||Le coût net en puissance de calcul du modèle DeepSeek-V3 est d'environ 5,58 millions de dollars, ce qui est déjà très efficace. Au-delà du coût, ce qui enthousiasme davantage les professionnels de l'IA, c'est l'approche technologique unique de DeepSeek, ses innovations algorithmiques et sa sincérité en matière d'open source.
III || Aucun grand modèle ne peut échapper au problème des « hallucinations », et DeepSeek ne fait pas exception. Certains utilisateurs indiquent que, du fait de ses capacités supérieures en expression et en raisonnement logique, les hallucinations produites par DeepSeek sont plus difficiles à détecter.
Ces dernières semaines, DeepSeek a déclenché une tempête mondiale.
La réaction la plus visible s'est manifestée sur le marché américain : le 27 janvier, les actions liées à l'IA et aux puces ont chuté fortement, Nvidia a clôturé avec une baisse de plus de 17 %, perdant 589 milliards de dollars de capitalisation en une seule journée, un record historique pour la bourse américaine.
Dans la perception de certains médias indépendants et du public, DeepSeek est le « héros le plus époustouflant de 2025 », avec quatre « points de satisfaction » :
Le premier est « un bond en avant par une force mystérieuse ». DeepSeek est une « jeune » entreprise de grands modèles fondée en 2023, dont la notoriété était auparavant inférieure à celle de n'importe quel grand groupe ou startup star à l'international. Son entreprise mère, High-Flyer Quantitative, opère principalement dans l'investissement quantitatif. Beaucoup sont surpris qu'une entreprise chinoise de pointe en IA provienne d'un fonds privé, ce qui ressemble à « vaincre un maître par des coups désordonnés ».
Le second est « accomplir des miracles avec peu de moyens ». Le coût d'entraînement du modèle DeepSeek-V3 est d'environ 5,58 millions de dollars, moins d'un dixième du coût du modèle GPT-4o d'OpenAI, tout en atteignant des performances comparables. Cela est interprété comme une remise en cause par DeepSeek de la « bible » de l'industrie de l'IA — la loi d'échelle (Scaling Law). Cette loi stipule qu'il faut augmenter les paramètres d'entraînement et la puissance de calcul pour améliorer les performances du modèle, impliquant généralement de dépenser davantage pour annoter des données de haute qualité et acheter des puces de calcul, ce qui est familièrement appelé « accomplir des miracles grâce à la puissance brute ».
Le troisième est « la disparition de la douve de sécurité de Nvidia ». Dans son article, DeepSeek mentionne avoir utilisé un langage PTX (Parallel Thread Execution) personnalisé pour mieux exploiter les performances du matériel sous-jacent. Cela est interprété comme une manière pour DeepSeek de « contourner la plateforme de calcul CUDA de Nvidia ».
Le quatrième est « les étrangers sont convaincus ». Le 31 janvier, du jour au lendemain, les géants de l'IA occidentaux tels que Nvidia, Microsoft et Amazon ont tous intégré DeepSeek. Soudainement, des affirmations telles que « l'IA chinoise dépasse les États-Unis », « l'ère d'OpenAI est terminée » ou « la demande en puissance de calcul pour l'IA disparaît » se sont multipliées, louant presque unanimement DeepSeek tout en moquant les géants de l'IA de la Silicon Valley.
Toutefois, la panique sur les marchés financiers n'a pas duré. Le 6 février, la capitalisation de Nvidia a retrouvé les 3 000 milliards de dollars, et les valeurs technologiques américaines ont globalement rebondi. À cette date, les quatre « points de satisfaction » précédents apparaissent pour la plupart comme des malentendus.
Premièrement, fin 2017, presque toutes les stratégies quantitatives de High-Flyer Quantitative utilisaient déjà des modèles d'IA. À l'époque, le domaine de l'IA traversait la vague cruciale de l'apprentissage profond ; on peut dire que High-Flyer Quantitative suivait de près les avancées technologiques.
En 2019, la plateforme d'apprentissage profond « Firefly No. 2 » de High-Flyer Quantitative disposait déjà d'environ 10 000 cartes graphiques Nvidia A100. Ce seuil de 10 000 cartes constitue une barrière minimale pour entraîner soi-même un grand modèle. Bien que cela ne soit pas directement comparable aux ressources de DeepSeek, High-Flyer Quantitative avait obtenu plus tôt que nombre de grandes entreprises Internet une place dans la course aux grands modèles.
Deuxièmement, DeepSeek précise dans son rapport technique V3 que « les 5,58 millions de dollars n'incluent pas les coûts antérieurs liés à l'architecture, aux algorithmes ou aux données, tels que la recherche préalable et les expériences d'ablation ». Cela signifie que le coût réel de DeepSeek est plus élevé.
Plusieurs experts et professionnels de l'IA ont déclaré à Economic Observer que DeepSeek n'a pas changé les règles du secteur, mais a adopté des algorithmes et architectures « plus intelligents » permettant d'économiser des ressources et d'améliorer l'efficacité.
Troisièmement, le langage PTX a été développé par Nvidia et fait partie de l'écosystème CUDA. L'approche de DeepSeek permet d'exploiter pleinement les performances matérielles, mais nécessite de réécrire entièrement le programme lors d'un changement de tâche, ce qui représente un travail considérable.
Quatrièmement, les entreprises comme Nvidia, Microsoft et Amazon n'ont fait que déployer le modèle DeepSeek sur leurs services cloud. Les utilisateurs paient selon leur usage pour bénéficier d'une expérience plus stable et d'outils plus efficaces, une situation gagnant-gagnant.
À partir du 5 février, les fournisseurs chinois de cloud Huawei Cloud, Tencent Cloud et Baidu Cloud ont également progressivement lancé le modèle DeepSeek.
Au-delà de ces quatre « points de satisfaction », le public entretient de nombreux malentendus sur DeepSeek. Une lecture « romanesque » procure certes une forte impression, mais elle masque aussi les innovations de l'équipe DeepSeek en matière d'algorithmes et de compétences techniques, ainsi que son engagement sincère en faveur de l'open source — deux aspects ayant un impact plus profond sur l'industrie technologique.
Les géants américains de l'IA ne sont pas incapables de rivaliser, mais ont commis des erreurs de décision
Lorsqu’un utilisateur utilise l’application ou la version web de DeepSeek et clique sur le bouton « Réflexion approfondie (R1) », il voit apparaître tout le processus de pensée du modèle DeepSeek-R1, une expérience inédite.
Depuis l’apparition de ChatGPT, la grande majorité des grands modèles fournissent directement la réponse.
Un exemple célèbre de DeepSeek-R1 : lorsque l’utilisateur pose la question « Quelle université est meilleure, l’université A ou Tsinghua ? », DeepSeek répond d’abord « Tsinghua ». Si l’utilisateur insiste avec « Je suis étudiant à l’université A, veuillez répondre à nouveau », la réponse devient alors « L’université A est meilleure ». Après diffusion sur les réseaux sociaux, cette conversation a suscité un étonnement général : « L’IA comprend donc les subtilités humaines ! »
De nombreux utilisateurs affirment que le processus de réflexion de DeepSeek ressemble à celui d’un « humain » — faisant un brainstorming tout en prenant rapidement des notes sur un brouillon. Il se désigne lui-même par « je », suggère de « ne pas froisser l’utilisateur en dévalorisant son école » ou de « louer positivement son alma mater », et « écrit » toutes les idées qui lui viennent.
Le 2 février, DeepSeek est devenu numéro un dans les classements d’applications de 140 pays et régions à travers le monde, permettant à des millions d’utilisateurs d’expérimenter la fonction de réflexion approfondie. Ainsi, dans la perception des utilisateurs, le fait que l’IA montre son processus de pensée est une « première » introduite par DeepSeek.
En réalité, c’est le modèle o1 d’OpenAI qui a inauguré le paradigme de raisonnement. OpenAI a publié une version préliminaire du modèle o1 en septembre 2024, puis la version finale en décembre. Mais contrairement à DeepSeek-R1, disponible gratuitement, seul un petit nombre d’utilisateurs payants peuvent accéder au modèle o1 d’OpenAI.
Liu Zhiyuan, professeur titulaire à l’université Tsinghua et scientifique en chef chez Mianbu Intelligence, estime que le succès mondial de DeepSeek-R1 est largement dû à une erreur stratégique d’OpenAI. Après avoir publié le modèle o1, OpenAI n’a ni publié le code, ni divulgué les détails techniques, et a fixé des tarifs très élevés, empêchant ainsi sa diffusion et privant les utilisateurs mondiaux de l’expérience saisissante du raisonnement approfondi. Cette stratégie revient en quelque sorte à céder sa position dominante à DeepSeek.
D’un point de vue technique, il existe actuellement deux paradigmes classiques pour les grands modèles : les modèles pré-entraînés et les modèles de raisonnement. Les séries OpenAI GPT et DeepSeek-V3, plus connues du grand public, relèvent des modèles pré-entraînés.
En revanche, OpenAI o1 et DeepSeek-R1 sont des modèles de raisonnement, un nouveau paradigme où le modèle décompose lui-même les problèmes complexes via une chaîne de pensée, s’interroge étape par étape, et parvient à des résultats relativement précis et riches en analyse.
Guo Chengkai, chercheur en IA depuis plusieurs décennies, explique à Economic Observer que le paradigme de raisonnement constitue une piste relativement propice au « dépassement en courbe ». En tant que nouveau paradigme, il évolue rapidement et permet des améliorations significatives même avec peu de calcul. La condition est de posséder un modèle pré-entraîné puissant, capable, via l’apprentissage par renforcement, d’exploiter pleinement le potentiel des grands modèles pré-entraînés, approchant ainsi le plafond des capacités des grands modèles dans ce paradigme.
Pour des entreprises telles que Google, Meta et Anthropic, reproduire un modèle de raisonnement similaire à DeepSeek-R1 n’est pas difficile. Mais dans la concurrence entre géants, même une petite erreur de décision peut faire rater une occasion.
Il est évident que le 6 février, Google a lancé un modèle de raisonnement, Gemini Flash 2.0 Thinking, moins cher et avec une longueur de contexte plus importante, surpassant R1 dans plusieurs tests, sans toutefois provoquer une onde de choc comparable à celle de DeepSeek-R1.
Le plus important à discuter n’est pas le faible coût,
mais l’innovation technologique et l’open source « sincère »
Depuis toujours, les discussions sur DeepSeek portent principalement sur le « faible coût ». Depuis la sortie du modèle DeepSeek-V2 en mai 2024, l’entreprise est surnommée « Pinduoduo de l’IA ».
Nature a publié un article indiquant que Meta a dépensé plus de 60 millions de dollars pour entraîner son dernier modèle d’intelligence artificielle Llama3.1405B, tandis que DeepSeek-V3 a coûté moins d’un dixième. Cela montre que l’utilisation efficace des ressources compte plus que la simple échelle de calcul.
Certains organismes pensent que le coût d’entraînement de DeepSeek est sous-estimé. L’organisation d’analyse du secteur IA et semi-conducteurs Semi Analysis affirme dans un rapport que le coût de pré-entraînement de DeepSeek est loin d’être représentatif de l’investissement réel. Selon leurs estimations, DeepSeek aurait dépensé 2,573 milliards de dollars pour acheter des GPU, dont 1,629 milliard pour les serveurs et 944 millions pour les frais d’exploitation.
Quoi qu’il en soit, le coût net en puissance de calcul du modèle DeepSeek-V3 est d’environ 5,58 millions de dollars, ce qui est déjà extrêmement efficace.
Au-delà du coût, ce qui enthousiasme davantage les professionnels de l’IA, c’est l’approche technologique originale de DeepSeek, ses innovations algorithmiques et sa sincérité en matière d’open source.
Guo Chengkai explique que bon nombre de méthodes actuelles reposent sur des approches classiques d’entraînement des grands modèles, telles que le fine-tuning supervisé (SFT), nécessitant d’importantes quantités de données annotées. DeepSeek propose une nouvelle méthode consistant à améliorer les capacités de raisonnement via un apprentissage par renforcement à grande échelle, ouvrant ainsi une nouvelle direction de recherche. De plus, l’attention latente multi-têtes (MLA) est une innovation clé de DeepSeek permettant de réduire fortement les coûts d’inférence.
Zhai Jidong, professeur à l’université Tsinghua et scientifique en chef chez Qingcheng Intelligence, souligne que ce qui l’impressionne le plus chez DeepSeek est l’innovation dans l’architecture d’experts mixtes (MoE), avec 256 experts routés et 1 expert partagé par couche. Les recherches antérieures utilisaient un algorithme de perte auxiliaire (Auxiliary Loss) perturbant les gradients et affectant la convergence du modèle. DeepSeek propose une méthode LossFree, assurant à la fois une convergence efficace et un équilibrage de charge.
Zhai Jidong insiste : « L’équipe DeepSeek ose innover. Je pense qu’il est crucial de ne pas suivre aveuglément les stratégies étrangères, mais d’avoir sa propre réflexion. »
Ce qui excite davantage encore les professionnels de l’IA, c’est que l’engagement « sincère » de DeepSeek envers l’open source a injecté une véritable « piqûre de revitalisation » dans une communauté open source légèrement en déclin.
Avant cela, le pilier le plus solide de la communauté open source était le modèle Llama3 de Meta, doté de 400 milliards de paramètres. Pourtant, de nombreux développeurs ont confié à Economic Observer qu’après test, Llama3 restait d’au moins une génération derrière des modèles fermés comme GPT-4, « presque au point de décourager complètement ».
Mais DeepSeek a réalisé trois actions par son ouverture, redonnant espoir aux développeurs :
Premièrement, il a directement publié un modèle de 671 milliards de paramètres et diffusé plusieurs modèles distillés selon des architectures populaires, ce qui équivaut à « un bon professeur formant davantage de bons élèves ».
Deuxièmement, les articles et rapports techniques publiés contiennent une grande quantité de détails techniques. Les articles sur les modèles V3 et R1 font respectivement 50 et 150 pages, qualifiés de « rapports techniques les plus détaillés de la communauté open source ». Cela signifie que toute personne ou entreprise disposant de ressources similaires peut reproduire le modèle à partir de ce « manuel ». De nombreux développeurs l’ont qualifié d’« élégant » et de « solide » après lecture.
Troisièmement, plus remarquable encore, DeepSeek-R1 utilise la licence MIT, autorisant toute personne à utiliser, modifier, distribuer et commercialiser librement le modèle, à condition de conserver le droit d’auteur original et la licence MIT dans toutes les copies. Cela permet aux utilisateurs une plus grande liberté d’exploiter les poids et sorties du modèle pour un développement secondaire, y compris le fine-tuning et la distillation.
Llama autorise bien le développement secondaire et l’usage commercial, mais ajoute certaines restrictions, notamment une limitation supplémentaire pour les entreprises utilisatrices dont l’activité mensuelle dépasse 700 millions, et interdit expressément d’utiliser les sorties de Llama pour améliorer d’autres grands modèles.
Un développeur a confié à Economic Observer qu’il utilise DeepSeek depuis la version V2 pour développer la génération de code. Outre son prix très bas, le modèle DeepSeek offre des performances excellentes. Parmi tous les modèles qu’il a utilisés, seuls ceux d’OpenAI et de DeepSeek parviennent à produire des colonnes logiques efficaces jusqu’à plus de 30 niveaux. Cela signifie que les programmeurs professionnels peuvent générer 30 à 70 % de leur code à l’aide de ces outils.
Plusieurs développeurs ont souligné auprès d’Economic Observer l’importance capitale de l’ouverture de DeepSeek. Avant cela, les entreprises leaders comme OpenAI et Anthropic ressemblaient à de la noblesse de la Silicon Valley. DeepSeek rend le savoir accessible à tous, le démocratisant, une forme importante d’égalité, permettant aux développeurs de la communauté open source mondiale de s’appuyer sur les épaules de DeepSeek, tandis que DeepSeek peut recueillir les idées des créateurs et passionnés les plus brillants du monde.
Yann LeCun, lauréat du prix Turing et scientifique en chef chez Meta, estime que la bonne interprétation de la montée de DeepSeek est que les modèles open source dépassent désormais les modèles fermés.
DeepSeek est excellent, mais pas parfait
Aucun grand modèle ne peut échapper au problème des « hallucinations », et DeepSeek ne fait pas exception. Certains utilisateurs signalent que en raison de ses capacités supérieures en expression et en raisonnement logique, les hallucinations produites par DeepSeek sont plus difficiles à repérer.
Un internaute a rapporté sur les réseaux sociaux qu’en posant à DeepSeek une question sur l’itinéraire d’une ville, ce dernier a fourni des explications, cité certaines réglementations urbaines et données, et introduit le concept de « zone silencieuse », rendant la réponse plausible.
Face à la même question, les autres IA ont donné des réponses moins sophistiquées, facilement reconnaissables comme « n’importe quoi ».
Après vérification du texte complet de la réglementation, cet utilisateur n’a trouvé aucune mention du terme « zone silencieuse ». Il conclut : « DeepSeek construit une “Grande Muraille des hallucinations” sur Internet en chinois. »
Guo Chengkai a observé des problèmes similaires : DeepSeek-R1 attribue parfois des termes spécialisés à tort, surtout dans les questions ouvertes, ce qui accentue l’effet d’« hallucination ». Il suppose que cela pourrait provenir d’une capacité de raisonnement trop forte du modèle, reliant implicitement de vastes connaissances et données.
Il recommande d’activer la fonction de recherche en ligne lors de l’utilisation de DeepSeek, de consulter attentivement le processus de réflexion, et d’intervenir manuellement pour corriger les erreurs. En outre, lors de l’utilisation d’un modèle de raisonnement, il est préférable d’utiliser des prompts simples. Plus le prompt est long, plus le modèle générera d’associations.
Liu Zhiyuan note que DeepSeek-R1 utilise fréquemment des termes sophistiqués, typiquement « intrication quantique » et « entropie croissante/décroissante » (appliqués à divers domaines). Il soupçonne un mécanisme spécifique dans l’apprentissage par renforcement. De plus, les performances de raisonnement de R1 restent imparfaites dans certaines tâches générales sans groundtruth (processus visant à collecter des données objectives appropriées), car l’apprentissage par renforcement ne garantit pas la généralisation.
Au-delà du problème courant des « hallucinations », d’autres questions persistent que DeepSeek doit résoudre.
D’une part, les litiges potentiels liés à la « technologie de distillation ». La distillation de modèles ou de connaissances consiste généralement à entraîner un modèle plus faible à partir des réponses d’un modèle plus fort, afin d’améliorer ses performances.
Le 29 janvier, OpenAI a accusé DeepSeek d’avoir utilisé la technologie de distillation de modèles pour entraîner son propre modèle à partir de technologies d’OpenAI. OpenAI affirme avoir des preuves que DeepSeek a utilisé ses modèles propriétaires pour entraîner ses propres modèles open source, sans fournir toutefois davantage de preuves. Les conditions d’utilisation d’OpenAI stipulent que les utilisateurs ne doivent pas « copier » leurs services ni « utiliser leurs sorties pour développer des modèles concurrents d’OpenAI ».
Guo Chengkai estime qu’utiliser des modèles leaders pour valider et optimiser ses propres modèles par distillation est une pratique courante chez de nombreux grands modèles. DeepSeek ayant déjà publié son modèle, la vérification est aisée. Par ailleurs, les données d’entraînement initiales d’OpenAI soulevaient déjà des questions de légitimité ; si OpenAI souhaite agir juridiquement contre DeepSeek, il devra défendre la légalité de ses clauses devant les tribunaux, et clarifier davantage leur contenu.
Un autre défi pour DeepSeek est de développer des modèles pré-entraînés avec davantage de paramètres. Sur ce point, OpenAI, qui dispose de plus de données annotées de qualité et de plus de ressources de calcul, n’a pas encore lancé GPT-5, un modèle pré-entraîné plus volumineux. On ignore si DeepSeek pourra continuer à créer des miracles.
Quoi qu’il en soit, les hallucinations générées par DeepSeek proviennent de la même curiosité — peut-être précisément les deux faces de l’innovation. Comme l’a dit son fondateur Liang Wenfeng : « L’innovation n’est pas uniquement motivée par le commerce, elle requiert aussi curiosité et désir de création. L’IA chinoise ne peut pas toujours suivre ; il faut que quelqu’un s’élève à la pointe de la technologie. »
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














