
Binance investit 11 millions de dollars en phase amorçage dans un étudiant chinois de troisième année, pour développer un agent éducatif
TechFlow SélectionTechFlow Sélection

Binance investit 11 millions de dollars en phase amorçage dans un étudiant chinois de troisième année, pour développer un agent éducatif
Les étudiants de la Silicon Valley relèvent progressivement les repères de la création d'entreprises IA, en lançant des produits d'intelligence artificielle qui battent sans cesse des records de financement.
Auteur : Founder Park
Étudiant chinois en troisième année, levée de 11 millions de dollars lors d’un tour de financement initial, le produit à la levée la plus élevée parmi les startups étudiantes de la Silicon Valley.
L'agent éducatif VideoTutor, permettant de générer en une seule phrase des vidéos pédagogiques personnalisées destinées aux élèves du primaire et du secondaire (K12), annonce aujourd'hui avoir levé 11 millions de dollars lors de son tour de financement initial. Ce tour est mené par YZi Labs, avec la participation de Baidu Ventures, Jinqiu Fund, Amino Capital, BridgeOne Capital ainsi que plusieurs investisseurs de renom.
C’est également la première entreprise de produits IA dans laquelle YZi Labs a investi.
Selon le fondateur Kai Zhao, VideoTutor a reçu l’approbation et le soutien de CZ Zhao et de l’équipe d’investissement de YZi Labs, qui a finalement conduit ce tour. Ils ont reçu plus d'une dizaine de lettres d'intention (TS) et ont choisi ces quelques investisseurs.
La première version du produit a été lancée le 14 mai (en exclusivité sur le marché des produits de Founder Park), recevant une reconnaissance du marché et validant le PMF (Product-Market Fit). En moins de cinq mois, ils ont bouclé cette levée de 11 millions de dollars.
Pour Kai, la raison fondamentale de ce succès réside dans le fait qu’une « équipe de jeunes talents » a résolu efficacement, via une approche visuelle, les points douloureux liés à la préparation aux examens américains dans le secteur K12, sur une trajectoire correcte.
« Ce domaine convient particulièrement aux jeunes. Avec de solides compétences techniques, un fondateur doté d’une excellente vision et d’une grande expérience, et une exécution extrêmement rapide. »
Pas seulement eux : Cursor, Mercor, Pika, GPTZero, etc., les étudiants de la Silicon Valley créent un produit IA après l'autre, battant des records de financement et redéfinissant notre perception de la création d’entreprise dans l’ère de l’IA.
Faire une startup à l’ère de l’IA est vraiment différent.
Nous avons discuté avec ces jeunes de VideoTutor pour comprendre pourquoi ils ont obtenu ce financement initial, quelles sont les transformations actuelles de l’écosystème entrepreneurial en Silicon Valley, et pourquoi ils souhaitent tant recruter des employés venant de grandes entreprises chinoises.
Invités : CEO Kai Zhao, CTO James Zhan.
Interview & édition | Wan Hu
Ce qui suit est le contenu de l’interview, édité et organisé par Founder Park.
01 Dans le secteur K12, l’apprentissage visuel est la bonne voie
Founder Park : De nombreuses institutions vous soutiennent. Quel est selon vous le point clé qui les a convaincus ?
Kai : Je pense d’abord que nous avons choisi la bonne direction. Le secteur de l’éducation par IA regorge de potentiel et de perspectives. Nous nous concentrons sur les examens américains SAT et AP. Notre public cible est constitué des lycéens K12. L’écart entre nous et cet utilisateur est très faible, presque aucun fossé générationnel. Ayant vécu tout le cycle de préparation aux examens, nous connaissons précisément les difficultés liées à l’étude et à l’examen, ce qui nous permet de créer un produit véritablement adapté à leurs besoins.
Deuxièmement, l’équipe est exceptionnelle. James vient de Gemini, où il était ingénieur principal spécialisé en IA et algorithmes chez Google. Pour ma part, j’ai déjà trois expériences dans la création d’entreprises éducatives. J’ai commencé à développer des logiciels éducatifs dès ma première année universitaire, puis ai co-fondé MathGPTPro en deuxième année, un projet sélectionné par MiraclePlus. J’ai donc déjà réussi à construire des produits éducatifs.
Troisièmement, dans le domaine de l’IA éducative que nous abordons, le moteur central est un moteur d’animation. En tant que développeurs principaux de VideoTutor, nous sommes l’équipe la mieux placée pour maîtriser cette technologie de base, capable de produire un rendu d’animation extrêmement précis.
Notre équipe possède également un excellent « gène marketing », sachant bien comment diffuser le produit.
VideoTutor correspond parfaitement à un consensus d’investissement courant auprès des VC américains : l’« équipe de jeunes talents ». Cela signifie qu’il s’agit d’un domaine idéal pour les jeunes, combiné à de fortes compétences techniques, à un fondateur doté d’une vision et d’une expérience remarquables, ainsi qu’à une exécution très rapide. Je pense que c’est une raison consensuelle que tous les investisseurs peuvent approuver.

VideoTutor monte au NYSE lors du Demo Day du programme EASY Residency de YZi Labs
Founder Park : Quel problème fondamental du secteur éducatif votre produit cherche-t-il à résoudre ?
Kai : Actuellement, les produits d’apprentissage disponibles sur le marché se divisent en deux catégories : les produits d’apprentissage actif et ceux d’apprentissage passif. Les produits passifs, comme Gauth de ByteDance, Chegg ou AnswersAi, couvrent ce que nous appelons le scénario « aide aux devoirs » (Homework Help). La chaîne d’apprentissage est très courte, principalement basée sur le paiement par les élèves pour obtenir des solutions à leurs devoirs.
VideoTutor, lui, couvre le scénario d’apprentissage actif. Nous n’avons pas besoin de considérer la motivation de l’élève, car ils doivent absolument étudier et passer des examens, comme les SAT ou AP américains. Dans ce contexte, il existe de nombreux besoins non satisfaits en matière de visualisation. 80 % du contenu des examens américains implique des fonctions, du calcul différentiel et intégral, nécessitant un rendu complexe d’images. Le moteur d’animation de VideoTutor résout parfaitement ce cas d’usage.

En outre, le prix moyen par client dans ce domaine est très élevé. Chaque année, environ 2,6 millions d’élèves aux États-Unis passent l’examen SAT, avec une forte demande de paiement. Les cours SAT en présentiel sont très coûteux, facturés à l’heure plutôt qu’en forfait, démarrant à 150 dollars de l’heure, avec une majorité à 230 dollars. Beaucoup d’élèves et de parents paient pour suivre ces cours. Mais VideoTutor peut parfaitement remplacer ou même surpasser l’enseignement d’un professeur, car les vidéos générées par l’IA sont aujourd’hui quasiment indiscernables du contenu enseigné par un humain. Ainsi, les élèves peuvent disposer à moindre coût de leur propre tuteur IA personnalisé.
Founder Park : Quel a été le déclencheur de ce projet ?
Kai : Avant nous, une équipe de Stanford avait tenté une approche similaire avec Gatekeep Ai, qui cherchait aussi à développer l’apprentissage visuel. À ce moment-là, j’avais déjà perçu l’importance de cette orientation. Lors de mes précédentes entreprises, les produits éducatifs reposaient principalement sur l’API de GPT, ressemblant à des « ChatGPT Wrapper ». Mais nous avons constaté que les produits basés uniquement sur les questions-réponses textuelles atteignaient un plafond. On observe que les activités de Chegg ou Gauth sont en baisse, car ChatGPT remplace une grande partie de ces usages : les élèves paient 20 dollars pour utiliser ChatGPT afin de résoudre leurs devoirs.
Les produits basés sur l’optimisation d’API ont atteint leurs limites.
Mais la génération multimodale visuelle présente un fort potentiel, notamment dans la préparation aux examens américains, riche en scénarios d’apprentissage visuel. Malheureusement, Gatekeep a eu un bon départ mais n’a pas poursuivi, car les modèles de base manquaient encore de maturité à l’époque, et GPT-4 n’était pas encore sorti. De plus, le moteur d’animation mathématique impliquant rendu et algorithmes n’a pas été maîtrisé. Notre équipe, elle, contrôle l’intégralité du développement du moteur d’animation, résolvant ce problème avec un rendu vidéo très précis.
02 PMF : une forte volonté de paiement des utilisateurs
Founder Park : Après le lancement, vous avez noué des partenariats avec plusieurs écoles. À quel moment ou grâce à quelle fonctionnalité avez-vous senti que « le produit était juste, le besoin identifié », et que vous aviez trouvé le PMF ?
Kai : On peut l’aborder sous trois angles.
Premièrement, du point de vue des indicateurs financiers, VideoTutor a déjà reçu 1 000 demandes API d’entreprises, incluant toutes les grandes institutions éducatives notoires aux États-Unis, voire certaines en Chine. De nombreuses écoles souhaitent aussi acheter le service. Du côté grand public, la demande est encore plus directe : un parent d’élève, aussi investisseur, après avoir testé le produit, l’a fait essayer à tous ses proches, tous prêts à payer. Ignorant comment me contacter, il a fini par trouver mon numéro et m’a envoyé un SMS pour proposer un investissement. La volonté de paiement du grand public est très forte.
Deuxièmement, du point de vue des besoins utilisateurs. Pourquoi les cours particuliers en présentiel sont-ils si populaires aux États-Unis ? Parce que les parents croient en l’efficacité de l’enseignement personnalisé et sont prêts à payer. Désormais, la technologie IA multimodale peut reproduire fidèlement cet effet d’enseignement individuel : on obtient exactement ce qu’on demande. Et les cours vidéo enregistrés par des tuteurs en ligne ne diffèrent plus de ceux générés par IA. C’est ce que j’appelle la « transition de la demande » : si les élèves payent cher pour des cours enregistrés identiques à ceux générés par IA, pourquoi ne pas opter pour l’IA, qui coûte moins cher et offre un meilleur résultat pédagogique ?
Nous avons reçu beaucoup de retours positifs d’élèves, et de nombreux enseignants sont disposés à partager le produit. Les taux de visionnage complet et la durée d’utilisation sont excellents. Nos 200 utilisateurs pilotes sélectionnés proviennent tous de cette phase initiale.
Troisièmement, il y a une question de goût et d’intuition produit. En progressant continuellement, en analysant l’évolution du secteur éducatif, les besoins fondamentaux des élèves et parents, ainsi que l’amélioration du produit, on constate une boucle logique cohérente. Ces trois dimensions confirment que le PMF est atteint. Le plus crucial reste la très forte volonté de paiement.

Partenariat conclu avec FIZZ
Founder Park : De nombreux utilisateurs veulent payer spontanément, et certains vous contactent même pour investir.
Kai : Oui. Dans le domaine des SAT et AP, la volonté de paiement est naturellement forte. Le prix moyen par client démarre à 100-200 dollars, pouvant atteindre 800 dollars en cours en présentiel. Avec 2,6 millions d’élèves passant le SAT aux États-Unis, dont 37 % paient volontairement, c’est un marché à forte demande. Notre produit permet une excellente transition de cette demande.
Founder Park : Dans le domaine du SAT, face à un examen, un élève fera-t-il confiance à une IA plutôt qu’à un professeur humain ?
Kai : À ce niveau, les réponses de l’IA aux questions SAT/AP sont pratiquement exemptes d’erreurs factuelles. Alors, pourquoi est-ce meilleur qu’un tuteur en présentiel ? D’abord, c’est moins cher. Ensuite, l’élève peut poser autant de questions qu’il veut sans craindre de paraître stupide ou de fatiguer le professeur, et peut apprendre 24 heures sur 24.
Et ce marché est transférable : après les États-Unis, nous pourrons étendre au Canada, aux examens A-Level au Royaume-Uni, etc., où la demande de paiement est également très forte.
Founder Park : Comment envisagez-vous actuellement la tarification ?
Kai : Nous proposons un abonnement mensuel, ou un paiement basé sur les résultats obtenus. Je pense que l’IA peut désormais garantir des résultats. Nous pourrions proposer un forfait : par exemple, payer 799 dollars, et nous garantissons que votre enfant obtiendra le score maximal en maths au SAT.
Founder Park : Mais payer selon les résultats, cela dépend aussi de la motivation personnelle de l’élève, non ?
Kai : Cela ne fonctionnerait pas pour le Gaokao chinois, car les sujets sont trop nombreux, des milliers. Mais le SAT américain n’a que 62 points clés, dont 50 sont standards, maîtrisés par la majorité. Les 12 restants sont généralement compris sauf si l’élève a un vrai problème de logique. Sinon, il n’y a presque jamais de cas d’échec total. L’efficacité de l’IA est très marquée.
En réalité, de nombreux tuteurs en ligne aux États-Unis offrent ce service : payer 1800 dollars, le tuteur accompagne l’élève, avec un taux de réussite quasi de 100 %, car les points du SAT sont fixes. Tant que l’élève a un QI normal, tout va bien. Mais le Gaokao chinois ne peut pas être amélioré rapidement. De plus, le Gaokao cherche à différencier les notes avec des questions difficiles, alors que le SAT américain n’a pas de questions absolument impossibles, car il évalue surtout la maîtrise des connaissances.
Le modèle de paiement selon les résultats existe déjà chez les tuteurs, donc la condition préalable est remplie.
Founder Park : Le coût du modèle est-il un frein dans votre tarification ? Représente-t-il une part importante ?
Kai : Le prix moyen par client dans ce domaine est très élevé, démarrant à 69 dollars par mois. Le coût du modèle est maintenant très bas, donc pas de problème. Contrairement au secteur du codage, où tout le monde se bat sur les prix car le codage nécessite un contexte long.
03 Un produit pour lycéens, le web est prioritaire
Founder Park : Vous aviez dit que le prototype de la première version avait pris environ deux mois. Comment avez-vous planifié le cycle de développement, les répartitions de tâches, et décidé quelles fonctionnalités intégrer ou non ?
Kai : La conviction de toute l’équipe était d’itérer vite, car seul un rythme rapide permet d’obtenir rapidement des retours des premiers utilisateurs.
Après avoir publié la première version sur Twitter, elle a suscité un grand engouement, attirant de nombreux utilisateurs. Mais parmi eux, beaucoup étaient des programmeurs, investisseurs ou amateurs de tech, que l’on peut qualifier de « premiers adopteurs techniques ». À ce stade, les retours étaient dispersés et peu utiles. Il fallait filtrer parmi ces nombreux utilisateurs pour identifier les véritables utilisateurs pilotes de qualité : des lycéens performants, puis recueillir leurs retours via des entretiens.
Le retour central était que la précision du rendu vidéo devait atteindre 100 %, priorité absolue à optimiser. Des fonctionnalités comme l’esthétique de l’interface ou le choix de différentes voix TTS ont été abandonnées. Nous revenons à l’essentiel du produit : nous traitons l’apprentissage des sciences, donc la précision du rendu graphique est cruciale.
Founder Park : Comment avez-vous géré la durée de génération à l’époque ?
Kai : La durée maximale atteinte était d’environ 6 minutes. À l’époque, nous considérions que l’explication d’un exercice ou d’un concept ne devrait pas dépasser 6 minutes. Mais selon les retours ultérieurs, certains élèves moins rapides souhaitaient des explications plus lentes et approfondies. Nous avons compris que la durée ne devait pas être limitée, mais adaptée au niveau de l’élève.
Founder Park : Quelle est la durée maximale actuelle ?
Kai : Moins d’une heure, pouvant aller jusqu’à une exploration continue. Génération en temps réel pendant l’interaction, fonction ajoutée récemment, absente dans la version initiale.
Founder Park : Y a-t-il des fonctionnalités que vous vouliez faire mais jugées moins importantes et reportées ?
Kai : Par exemple, l’application mobile. Nous avons pensé à développer rapidement une appli, mais nous avons réalisé que la majorité des élèves américains utilisent un ordinateur portable ou une tablette. La plupart des écoles K12 distribuent un Chromebook aux élèves, l’ordinateur étant omniprésent, et les devoirs effectués dessus. Presque chaque lycéen a un ordinateur. Le téléphone représente moins de 5 % des usages dans l’apprentissage.
Founder Park : Donc, pour un produit éducatif ou destiné aux élèves, le site web passe avant l’application, qui est moins prioritaire.
Kai : Oui, nous connaissions déjà ces données, ayant étudié aux États-Unis depuis longtemps. Ensuite, nous avons interrogé 100 élèves parmi nos premiers dizaines de milliers d’utilisateurs : plus de 90 avaient un ordinateur, ce qui a renforcé notre conviction.
Founder Park : Lors du lancement de la première version, visiez-vous déjà le public K12 ?
Kai : Oui, et ciblons toujours ce groupe. Nous ne sommes pas concurrents de Gauth, nous nous concentrons davantage sur la préparation aux examens. De nombreux lycéens américains choisissent déjà des cours en présentiel ou en ligne, et VideoTutor transpose efficacement cette demande.
Founder Park : K12 restera-t-il votre public cible principal au moins pendant un an ?
Kai : Plutôt deux ans.
04 Utiliser les grands modèles, mais pas uniquement s’y fier
Founder Park : Pouvez-vous présenter brièvement votre solution technique actuelle ? VideoTutor excelle vraiment dans la génération de cours et de graphiques, bien mieux que d’autres modèles de génération vidéo, et impressionne même quand d’autres peinent à générer correctement du texte.
James : Les vidéos générées contiennent du texte et des illustrations. Le processus général est le suivant : le grand modèle linguistique génère le texte et les instructions d’animation, puis ces dernières sont rendues par notre moteur d’animation, et finalement intégrées à la vidéo.
La partie texte est simple : le modèle génère le texte, puis nous le rendons directement. La partie animation, quant à elle, est générée par notre propre moteur de rendu d’animation mathématique. Son avantage réside dans une précision très élevée du rendu des axes, figures géométriques, etc., qui constitue notre technologie centrale.
Actuellement, les grands modèles linguistiques produisent uniquement du texte. Notre agent leur fournit une feuille et un stylo, leur permettant de dessiner les animations pédagogiques imaginées. Ce dessin est entièrement notre technologie.
Founder Park : Comment gérez-vous la synthèse finale de la vidéo, incluant audio et vidéo ?
James : L'utilisateur commence par entrer une requête, par exemple « Qu'est-ce que le théorème de Pythagore ? ». Premièrement, nous faisons raisonner le grand modèle sur tous les scénarios, généralement entre 3 et 5 selon la difficulté. Ensuite, le modèle génère un script approximatif pour chaque scène. Puis, selon ce script, une deuxième phase de raisonnement produit le texte de chaque scène, les illustrations associées et le texte de la voix parlée. Ce dernier est ensuite converti en parole via TTS.
Enfin, nous assemblons toutes les scènes pour former une vidéo complète.
Founder Park : Je comprends que c’était la méthode de la première version. Maintenant que l’interactivité en temps réel est ajoutée, le processus a-t-il changé ?
James : Oui, il a changé. Pour que l’utilisateur voie le contenu le plus rapidement possible, nous générons d’abord la première scène pour qu’il commence à regarder, tandis que les autres scènes sont rendues en arrière-plan. Lorsque l’utilisateur pose une question, nous convertissons sa voix en texte, puis transmettons ce texte avec tout le contenu précédent au grand modèle pour qu’il planifie les prochaines scènes pédagogiques. Le processus de rendu des scènes suivantes reste identique.
Founder Park : Si l’utilisateur pose une question après une minute d’écoute, il interrompt directement. Après réception de la question, celle-ci et le contenu précédent sont renvoyés au modèle. Pendant ce processus, l’animation continue-t-elle ou s’arrête-t-elle ?
James : Notre délai est passé de 20-30 secondes à moins de 5 secondes. Sur le plan de l’interaction, nous intégrons des transitions pour que l’utilisateur ne perçoive pas ces 5 secondes, assurant une fluidité globale. En 4-5 secondes, il voit un nouveau contenu généré selon sa question.
La conception actuelle prévoit que le professeur IA dise : « Hum, laisse-moi réfléchir », puis efface le tableau, imitant parfaitement un vrai professeur. Si vous trouvez que l’explication est mauvaise, je l’efface et recommence, ce qui semble naturel.
Et nous n’attendons pas passivement les questions : nous intégrons aussi des quiz. Selon les réponses aux quiz et aux questions des utilisateurs, nous faisons de nouveaux raisonnements. Et nous n’utilisons pas un micro libre, mais demandons à l’utilisateur d’activer manuellement le micro, avec une action explicite d’activation/désactivation.
Founder Park : Donc, selon ce mécanisme, environ une heure d’explication peut être générée.
James : Plus précisément, aucune limite. S’il continue à poser des questions, il peut continuer indéfiniment.
Kai : Oui, aucune limite prédéfinie. En réalité, VideoTutor suit l’évolution de l’IA multimodale. Nous ne créons pas la demande, mais répondons mieux à une demande existante. Observez l’enseignement en présentiel : pourquoi les parents américains paient-ils cher ? Car l’enseignement privé est principalement personnalisé, à partir de 100 dollars de l’heure. Parce que le professeur en présentiel pose des questions guidées, observe vos difficultés, puis continue. VideoTutor cherche à reproduire cet effet pédagogique authentique, permettant à chaque enfant un apprentissage interactif et en temps réel.
Founder Park : Faut-il que l’élève active sa caméra pendant le cours ?
Kai : Pas vraiment. L’activation de la caméra dépend principalement des lois américaines sur la vie privée. Le produit n’inclura pas de fonction obligatoire. Cela dépendra de la volonté de l’élève. L’interaction principale se fait par questions orales.
Founder Park : Techniquement, utilisez-vous une stratégie combinant petits modèles locaux et grands modèles cloud, ou autre chose ?
Kai : C’est une combinaison. Nous disposons d’un jeu de données interne, avec désormais plus de 100 000 vidéos. Les meilleures sont annotées manuellement, puis utilisées pour entraîner des modèles affinés. Par exemple, nous avons plus de 8 000 échantillons SAT. Ces petits modèles affinés travaillent conjointement avec des grands modèles commerciaux cloud comme Claude ou Gemini.
Founder Park : L'utilisation de Claude, Gemini ou GPT a-t-elle un impact sur les performances fondamentales du produit ?
Kai : Nous opérons principalement dans le domaine K12, où les grands modèles sont déjà suffisants. Mais pour garantir 100 % de justesse, nous faisons vérifier simultanément par deux modèles : si leurs réponses concordent, l’erreur est quasi inexistante. Pour la génération de code, nous privilégions Claude, dont les capacités sont supérieures.
Founder Park : Actuellement, où se situe le goulot d’étranglement technique du produit ? Dans les capacités du modèle ou la génération de code ?
Kai : Les capacités du modèle en font partie. Ensuite, le rendu, désormais ramené à moins de 5 secondes, pourrait aller plus vite avec davantage de GPU. Un autre point est la mémoire à long terme. Nous devons accumuler les données comportementales des élèves, savoir quels points ils ne maîtrisent pas, par exemple rappeler un concept oublié depuis un mois.
James : Nous avons beaucoup travaillé sur le temps de rendu, réalisant des percées techniques constantes, passant de 2 minutes à 1 minute, puis à moins de 10 secondes. Notre objectif final est un rendu quasi instantané, où le résultat apparaît immédiatement après la fin du raisonnement. C’est un défi actuel pour notre équipe, mais nous avons trouvé une nouvelle piste.
05 Ne pas mesurer par le taux de visionnage complet, mais par le score final à l’examen
Founder Park : Actuellement, comment mesurez-vous les indicateurs clés du produit ? Comment déterminez-vous qu’une vidéo est utile pour l’utilisateur ?
Kai : L’indicateur fondamental est l’examen. Dans la nouvelle version, à la fin de la vidéo, un quiz est proposé. Si l’élève réussit, il a compris ; sinon, l’explication était insuffisante.
L’efficacité pédagogique ne peut pas se mesurer uniquement par le taux de visionnage complet : certains élèves comprennent à mi-parcours. Si on les teste à mi-chemin et qu’ils réussissent, ils n’ont pas besoin de voir la suite. L’indicateur clé de notre produit est le nombre d’élèves ayant amélioré leur note.
Founder Park : Mais l’examen final a lieu ailleurs. Comment obtenez-vous le résultat de réussite ?
Kai : Cela touche à la culture produit américaine : après utilisation, si les résultats sont bons, les utilisateurs partagent spontanément. Beaucoup d’élèves, après avoir passé le SAT avec VideoTutor, viennent partager leur expérience et leurs résultats. Nous les nommons ambassadeurs scolaires pour une diffusion secondaire.
Nous avons 20 ambassadeurs lycéens. Regardez Mercor, dont le début fut un grand succès grâce au modèle typique de « récits de réussite utilisateur ». Au début, Mercor a aidé de nombreux programmeurs indiens à trouver un emploi aux États-Unis, puis a contacté ces utilisateurs pour réaliser des « user stories » expliquant comment ils ont trouvé leur emploi via Mercor. Cela a créé un excellent bouche-à-oreille. VideoTutor suit le même principe : nous voulons que de plus en plus d’élèves obtiennent d’excellents résultats grâce à notre produit, puis que leurs histoires soient partagées publiquement.
Founder Park : Sur quels canaux les élèves partagent-ils principalement ?
Kai : Principalement sur TikTok pour les élèves, et dans les groupes Facebook pour les parents.
Founder Park : Sur un horizon de six mois à un an, quelle est votre stratégie de croissance prévue ?
Kai : Fondamentalement, VideoTutor reste un produit orienté grand public, où le bouche-à-oreille est crucial. De nombreuses applications IA réussies ont commencé par le bouche-à-oreille des utilisateurs pilotes, par exemple des designers qui recommandent après usage. Pour nous, l’indicateur clé est le nombre d’élèves SAT ayant obtenu de hautes notes grâce à notre produit, puis ayant partagé l’expérience avec d’autres enfants et parents. Les parents utilisent Facebook et Instagram, les élèves TikTok : nous diffuserons là-bas. Quand ce consensus sera établi, les enseignants des écoles le percevront naturellement. Le fait que tant d’écoles nous connaissent déjà vient du fait que de nombreux professeurs l’ont essayé, apprécié, et recommandé aux responsables achats de leur école. L’essentiel reste donc le bouche-à-oreille grand public : le nombre d’enfants ayant amélioré leurs notes est l’indicateur clé.
Founder Park : Quel est l’état prévu de la nouvelle version et son calendrier de sortie ?
Kai : Nous espérons une sortie publique formelle dans moins de deux mois. À ce moment-là, les élèves pourront poser une question et obtenir une réponse quasi instantanée, avec un rendu graphique scientifique précis à 100 %. Bien sûr, nous ne couvrirons pas encore les scénarios de compétition ou des connaissances universitaires complexes comme l’algèbre linéaire, restant centrés sur le K12.
Founder Park : Quelles sont actuellement les barrières ou les avantages concurrentiels de VideoTutor ?
Kai : Je vois plusieurs points. Premier : la dynamique des données. Les vidéos sont générées à partir de code ; les données de vidéos de qualité produites par les utilisateurs, une fois annotées, peuvent être réutilisées pour entraîner et affiner les modèles. Plus il y a de données, meilleur est le produit. Deuxièmement, les données comportementales : en connaissant les points faibles de chaque élève, nous créons une dynamique de données où plus il y a d’utilisateurs, plus le produit comprend bien les élèves. Deuxième point : l’avantage technologique, comme les algorithmes du moteur d’animation. Bien que l’algorithme seul ne soit pas l’avantage principal, avec des itérations rapides et de plus en plus de données, cet avantage devient plus marqué.
Troisièmement, la marque : VideoTutor est déjà devenu une marque leader dans le domaine de l’éducation par IA auprès des parents nord-américains. La confiance des parents constitue une barrière invisible.
Founder Park : Dans trois à cinq ans, quel produit VideoTutor deviendra-t-il selon vous ?
Kai : Nous espérons que VideoTutor devienne le professeur IA personnel pour l’apprentissage des sciences pour chacun. Nous nous concentrons uniquement sur les sciences. Je pense qu’il dépassera Duolingo. Duolingo est un produit mondial d’apprentissage des langues, mais dans les domaines STEM, aucun produit mondial n’est encore apparu, car les sciences exigent beaucoup de rendu graphique. Maintenant, les technologies de base sont prêtes : le prochain « Duolingo » naîtra dans les sciences.
06 Recrutement, surtout de talents venant de grandes entreprises chinoises
Founder Park : Vous avez déjà eu plusieurs expériences entrepreneuriales. Pouvez-vous nous dire à quoi elles ressemblaient ?
Kai : Je suis act
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














