
趙長鵬が中国人大学生の3年生に1100万ドルのシード資金を出資。教育エージェントを開発。
TechFlow厳選深潮セレクト

趙長鵬が中国人大学生の3年生に1100万ドルのシード資金を出資。教育エージェントを開発。
シリコンバレーの大学生たちは、次々と資金調達額を更新するAI製品を通じて、AIスタートアップに対する人々の認識を刷新している。
著者:Founder Park
中国人大学生3年生、1100万ドルのシードラウンド。シリコンバレーの学生起業家による現時点での最高額の資金調達製品。
一言で個人専用の教育/解説動画を生成できる、K12向け教育エージェント製品VideoTutorは本日、シードラウンドで1100万ドルの資金調達を完了したことを発表した。今回の資金調達はYZi Labsが主導し、百度ベンチャーズ、錦秋基金、Amino Capital、BridgeOne Capitalおよび複数の著名な投資家が共同出資した。
これはYZi Labsが投資した初のAIプロダクト企業でもある。
創業者Kai Zhao(趙凱)氏によると、VideoTutorは趙長鵬氏およびYZi Labs投資チームの認知と支援を得て、最終的にYZi Labsがリード投資を行ったという。彼らは10件以上のTS(投資意向書)を受け取ったが、最終的にはこれら数社を選んだ。
5月14日に第1版の製品をリリース(Founder Parkプロダクトマーケットにて先行公開)。市場からの支持とPMF(製品市場適合)の検証を得た後、5ヶ月未満でこの1100万ドルのシード資金調達を実現した。
Kai氏の見解では、この資金調達を成功させた核心的理由は、「方向性が正しい」前提のもと、「小天才チーム」が可視化学習を通じて、K12分野におけるアメリカ大学進学試験の課題を解決した点にある。
「この分野は若者が取り組むのに適しており、さらに優れた工学的実行力を持ち、創業者自身も非常に鋭い洞察力と経験を持っており、実行力も非常に高い。」
彼らだけでなく、Cursor、Mercor、Pika、GPTZeroなども含め、シリコンバレーの大学生たちが次々と高額の資金調達を記録するAIプロダクトを生み出し、AI起業に対する認識を刷新している。
AI時代の起業は、確かに以前とは異なっている。
私たちはVideoTutorのこれらの若いメンバーに話を聞き、なぜ彼らがこのシードラウンドの資金調達に成功したのか、現在のシリコンバレーの起業環境にどのような変化が起きているのか、そしてなぜ彼らが中国の大手企業出身の人材を特に求めているのかを探った。
インタビュー対象:CEO Kai Zhao、CTO James Zhan
取材・編集|万户
以下はFounder Parkが編集・整理したインタビュー内容である。
01 K12分野において、可視化学習こそが真の方向性
Founder Park:多くの機関があなた方を高く評価しています。その核心となる魅力は何だと考えますか?
Kai:まず第一に、方向性が正しいことです。AI教育という分野には非常に大きな可能性と将来性があり、私たちが着目したのはSATやAPといったアメリカの大学進学試験です。ターゲットユーザーはK12の高校生であり、私たちとそのユーザー層とのギャップは極めて小さく、ほぼ世代間格差がありません。自分たちも受験勉強の一連のプロセスを経験しており、試験や受験準備における課題をよく理解しているため、本当にユーザーの痛点を解決できる製品を作れるのです。
第二に、チーム自体が非常に優秀です。JamesはGemini出身で、GoogleではAIエンジニアリングとアルゴリズムのコアエンジニアとして働いていました。私はこれまでに3回の教育系起業経験があり、大学1年生から教育ソフトの起業を始め、2年生の頃にはMathGPTProの立ち上げにも参加し、奇績創壇などのプログラムにも選ばれました。教育製品を成功裏に展開した実績があります。
第三に、私たちが注力するAI教育の核となるのはアニメーションエンジンですが、私たち自身がVideoTutorのコア開発者であり、最も核心技术を理解しているチームです。そのため、アニメーションエンジンを非常に正確にレンダリングできます。
また、チームには優れたマーケティングのDNAもあり、どのようにして広めるべきかを熟知しています。
VideoTutorはアメリカ主流VCが重視する「小天才チーム」という投資コンセンサスに非常に合致しています。すなわち、この分野は若者が取り組むのに適しており、卓越した工学的実行力を持ち、創業者自身が優れた洞察力と経験を持ち、実行スピードも非常に速いということです。これはすべての投資家が共通して高く評価する点だと思います。

VideoTutor、YZi Labs EASY Residency Demo Dayにてニューヨーク証券取引所に上場
Founder Park:あなたの製品は、教育業界のどの核心的な問題を解決しようとしていますか?
Kai:現在市販されている学習製品は大別して二種類あります。能動的学習製品と受動的学習製品です。受動的学習製品とは、ByteDanceのGauth、Chegg、AnswersAiなど、いわゆる「宿題解答」(Homework Help)のシーンに対応したもので、学習の流れが非常に短く、主に学生が有料で宿題の答えを得ることに使われます。
一方、VideoTutorは能動的学習のシーンをカバーしており、学生の学習モチベーションを考慮する必要がありません。なぜなら、彼らは必ず学び、試験を受けなければならないからです。例えばアメリカの大学進学試験SATやAPなどが該当します。このようなシーンでは、大量の可視化に関するニーズがあります。アメリカの大学進学試験の内容の80%は関数や微積分など、複雑な画像レンダリングが必要な知識を含んでいます。こうした課題を、VideoTutorのアニメーションエンジンがうまく解決できるのです。

さらに、この分野の顧客単価は非常に高いです。アメリカでは毎年約260万人の学生がSAT試験を受けており、支払い意欲も非常に大きいです。オフラインのSATコースは高額で、パッケージ制ではなく時間単価で設定されており、平均1時間あたり最低150ドル、多くは230ドル程度かかります。多くの学生と保護者が支払いを行いますが、VideoTutorは教師の指導をうまく代替または上回ることができます。なぜなら、現在のAIが生成する動画と教師の指導内容はほとんど差がなくなっているからです。これにより、学生は最低限のコストで自分専用のAIパーソナライズド受験指導教師を持つことが可能になります。
Founder Park:当初、この製品を作るきっかけは何でしたか?
Kai:実は私たちより前に、スタンフォードのチームがGatekeep Aiというプロジェクトを立ち上げていました。彼らも可視化学習を目指していました。当時すでに、この方向性の影響力を感じ取っていました。過去の起業では、ほとんどの教育製品がGPTのAPIを接続する形で、いわゆるChatGPTラッパーのようなものでした。しかし、文字ベースのQ&Aだけでは、こうした製品には限界があることに気づきました。CheggやGauthのビジネスが下降傾向にあることからも明らかです。多くのシーンではChatGPTに置き換えられており、学生は20ドル払えば多くの宿題問題を解決できてしまうからです。
APIをラップして最適化を行うような製品はすでに頭打ち状態です。
しかし、マルチモーダルなビジュアル生成には非常に大きな将来性があります。なぜなら、アメリカの大学進学試験には多くの可視化学習のシーンがあるからです。残念ながらGatekeepは良いスタートを切りましたが、継続できませんでした。理由は時期が早すぎたことで、当時の基盤モデルのプログラミング能力がまだ成熟しておらず、GPT-4もリリースされていませんでした。さらに数学アニメーションエンジンはレンダリングとアルゴリズムを必要とし、彼らはそれを克服できなかったのです。しかし、私たちのチームはアニメーションエンジンのすべてのコア開発を掌握しており、正確なビデオレンダリングを実現しました。
02 PMF:ユーザーの支払い意思が非常に強い
Founder Park:製品リリース後、いくつかの学校とも提携しましたね。あなた方は、いつまたはどの機能によって『この製品は正しかった、痛点を捉えた』と感じ、PMF(製品市場適合)を確信しましたか?
Kai:3つの観点から説明できます。
まず、収益指標の観点です。現時点でVideoTutorは1,000社以上の企業からAPI利用の問い合わせを受けており、アメリカの主要な教育機関だけでなく、中国の機関も含まれています。さらに多くの学校がサービス購入を希望しています。C向けユーザーの反応はより直接的で、ある学生の保護者であり投資家でもある方が製品を体験した後、親戚や友人に全員に試用させ、全員が支払いをしたいと言いました。彼はどこかで私の電話番号を入手し、投資したいとメッセージを送ってきました。C向けユーザーの支払い意思は非常に強いです。
第二に、ユーザーのニーズの観点です。なぜアメリカのオフライン個別指導がこれほど剛性的なのか?それは保護者が個別指導の効果を信じており、支払いを惜しまないからです。現在、マルチモーダルなAI技術は人間のように個別指導の効果を再現できるようになっており、「質問した内容=回答」が実現されています。また、アメリカのオンライン個別指導教師が録画した講義動画と、AIが生成した動画との違いはもうありません。これが私が言う「ニーズの移転」です。学生が高額を払って購入する録画講義と、私のAIが生成した動画に違いがないなら、なぜAIを使わないのですか?コストは低く、教育効果はより高いのです。
多くの学生から非常にポジティブなフィードバックをもらい、多くの教師もこの製品を広めたいと願っています。初期の視聴完遂率と使用時間も非常に良好でした。現在、厳選した200人のシードユーザーは、すべて早期に蓄積されたものです。
第三に、製品に対するtaste(感覚)とsense(直感)です。継続的に製品を開発していく中で、教育業界全体の進歩、学生・保護者の支払いニーズ、製品自体の進化などを逆算すると、論理的に整合性が取れていると感じます。この3つの観点から見て、PMFは十分達成されていると感じます。最も重要なのは、支払い意思が非常に強いことです。

FIZZと提携
Founder Park:多くのユーザーが自発的に支払いを希望し、投資を申し出る人もいるのですね。
Kai:はい。SATやAPの分野では、そもそも支払い意思が非常に強いです。この分野の顧客単価は100〜200ドル以上が当たり前で、オフライン授業はさらに高く、800ドルになることもあります。アメリカでは260万人の学生がSATを受験し、そのうち37%が自発的に支払いを行います。支払い意思と需要が非常に強い市場です。私たちの製品は、このニーズの移転を非常にうまく実現しています。
Founder Park: SATという分野では、受験生にとって人間の先生とAI、どちらを信用しますか?
Kai:現在のAIはSATやAPレベルの問題に対して事実誤認をほとんど起こさなくなりました。このような状況下で、なぜオフラインチューターよりも優れているのでしょうか?第一に価格が安いこと、第二に学生がどんな質問でも繰り返しできる点です。馬鹿げた質問をして先生に嫌な顔をされる心配もなく、24時間いつでも学習できます。
また、この市場は拡張可能です。アメリカ市場を終えたら、カナダやイギリスのA-Level試験などにも展開でき、支払い需要は非常に大きいです。
Founder Park:支払い面については、現在どのように考えていますか?
Kai:月額定額制と、学習成果に基づく支払いの2つがあります。現在のAIなら成果報酬型の支払いも可能だと考えています。例えば、799ドル支払えば、お子さんのSAT数学が満点になると保証するようなプランを提供するかもしれません。
Founder Park:ただし、試験結果に基づく支払いの場合、学生本人の主体性も関係しませんか?
Kai:これは中国の高考では難しいでしょう。なぜなら、考核ポイントが非常に多く、千以上あるからです。しかし、アメリカの大学進学試験SATには62の考点しかなく、そのうち50は通常の考点で、大多数の学生には問題ありません。残りの12も基本的に習得可能です。学生の論理的思考能力に根本的な問題がない限り、基本的には理解できないということはありません。また、AIによる学習効率向上効果は非常に顕著です。
実際、多くのアメリカのオンラインチューターも同様のサービスを提供しています。1800ドル支払えば、教師が指導し、成功率はほぼ100%です。なぜならSATの考点は固定されているからです。学生の知能レベルが正常であれば、基本的に問題ありません。しかし、中国の高考は短期間で成績を上げるのは不可能です。また、中国の高考では得点差をつけるために難問が出題されますが、アメリカの大学進学試験には絶対的な難問は存在せず、知識の習得度を測ることが目的だからです。
成果報酬型は、従来の塾講師が既に使っているモデルであり、前提条件は整っています。
Founder Park:それでは、あなたの価格設定において、モデルのコストは課題になりますか?割合は高いですか?
Kai:この分野の顧客単価は非常に高く、月額69ドルから始まります。一方、モデルコストは非常に安価なので、問題になりません。教育業界はコーディング分野のように価格競争が激しくありません。なぜなら、コーディングでは長いコンテキストサポートが必要だからです。
03 高校生向けの製品において、Webページが最重要
Founder Park:以前おっしゃっていたように、最初のプロトタイプの開発には約2ヶ月半ほどかかりましたね。その開発サイクル全体、例えば役割分担や、どの機能を実装し、どの機能を省略するかについて、どのように判断しましたか?
Kai:チーム全員の共通認識は、早期ユーザーからのフィードバックを迅速に得るために、とにかく高速にイテレーションすることです。
最初のバージョンをTwitterで公開したところ、大きな話題となり、多数のユーザーが訪れました。しかし、そのユーザーの多くはプログラマーや投資家、テック愛好家であり、いわゆる「技術の先駆者」でした。その段階では、彼らからのフィードバックはバラバラで、価値が限定的でした。そのため、多数のユーザーの中から真正のコアシードユーザー、つまり高品質な高校生を選び出し、相談形式で有用なフィードバックを得ることにしました。
得られた最も重要なフィードバックは、「ビデオレンダリングの正確性は100%でなければならない」という点でした。これが最優先の改善項目です。UIの美しさや、異なるTTS音声の選択機能などは、すべて削除しました。製品の本質に戻るのです。私たちは理系の知識学習を目的としているため、図形レンダリングの正確性こそが最も重要なのです。
Founder Park:生成時間については、当時どのように判断しましたか?
Kai:当時の最大ピーク時間は約6分間でした。当初の主な考慮点は、普通の問題や知識点の解説は6分を超えないようにすべきだということでした。しかし、その後のフィードバックで、学習能力がやや低い学生が、内容をゆっくり、深く説明してほしいという要望があることがわかりました。時間制限を設けるべきではないと気づき、ユーザーの学習能力に応じて柔軟に対応すべきだと考えました。
Founder Park:現在の最長時間はどれくらいですか?
Kai:最長でも1時間以内です。疑問があれば徹底的に追求できます。会話しながらリアルタイムに生成される仕組みですが、この機能は最近追加されたもので、最初のバージョンにはありませんでした。
Founder Park:実装を考えたが、重要性が低いため一旦見送った機能はありますか?
Kai:例えばAppです。当初はAppを迅速に開発すべきかと考えましたが、後にアメリカの学生のほとんどがLaptopまたはiPadで学習していることに気づきました。アメリカのK12学校の多くはChromebookを学生に配布しており、パソコンの普及率は非常に高く、宿題もすべてパソコンで行います。高校生はほぼ全員がパソコンを持っていますが、スマートフォンの学習シーンでの使用比率は5%未満と非常に低いです。
Founder Park:つまり、教育または学生層をターゲットにする製品では、まずWeb版を優先すべきであり、Appはそれほど重要ではないということですね。
Kai:はい。実はアメリカで長年学んでいたので、このデータは当初から知っていました。その後、初期の数万名のユーザーの中から100人の学生に調査を行ったところ、そのうち90人以上がパソコンを持っており、この認識をさらに確信しました。
Founder Park:最初のバージョンをリリースしたときも、K12層を意識していたのですか?
Kai:はい、その後もこの層をターゲットにしています。Gauthとは競合ではなく、むしろ試験対策のシーンを補完しています。アメリカの多くの高校生はもともとオフラインまたはオンラインの学習プラットフォームを利用しており、VideoTutorはこのニーズをうまく引き継いでいます。
Founder Park:K12層は少なくとも今後1年間のコアユーザー層になりますか?
Kai:おそらく今後2年間のコア指標となるでしょう。
04 大規模モデルを使うが、それに依存しない
Founder Park:現在の技術実装方法を簡単に紹介してください。VideoTutorは、他の動画生成モデルに比べて、コースやグラフの生成が非常に優れており、多くのモデルが文字すら正確に生成できない中、その技術には驚かされます。
James:私たちが生成する動画には文字と図形が含まれます。おおまかな制作プロセスは次の通りです。まず大規模言語モデルに、テキストと対応するアニメーション命令を生成させ、その後、その命令を私たちのアニメーションエンジンでレンダリングし、最終的に動画として表示します。
テキスト部分は比較的簡単で、大規模言語モデルにテキストを生成させ、そのままレンダリングします。しかし、アニメーション部分は、私たち独自の数学アニメーションレンダリングエンジンによって生成されます。座標軸や幾何学的図形のレンダリング精度が非常に高く、ここが私たちのコア技術です。
現在の大規模言語モデルが出力するのはテキストだけですが、私たちが開発したエージェントは、まるで大規模言語モデルに紙とペンを与えて、自分が想像する理想的な教学アニメーションを描かせるようなものです。描かれた部分が、すべて私たちの技術なのです。
Founder Park:最終的な音声と映像の合成処理はどう行っていますか?
James:ユーザーはまずpromptを入力します。例えば「ピタゴラスの定理とは?」という具合です。まず、大規模言語モデルにすべてのシーンを推論させ、通常は3~5つのシーンを設定しますが、これは問題の難易度によります。次に、各シーンごとに概要のスクリプトを生成します。その後、各シーンのスクリプトに基づいて2回目の推論を行い、シーン内のテキスト、対応する図形、音声のテキストを生成します。音声のテキストはTTSで合成されます。
最後に、すべてのシーンをつなぎ合わせ、完成した動画を作成します。
Founder Park:最初のバージョンはそのような仕組みだったと思います。インタラクティブ機能を追加した現在、生成プロセスにも変化がありますか?
James:確かに変化があります。ユーザーが可能な限り早くコンテンツを見られるようにするために、まず最初のシーンを生成して表示し、それ以降のシーンはバックグラウンドでレンダリングを続けます。ユーザーが質問した場合、音声をテキストに変換し、そのテキストとそれまでのすべてのシーンの内容を大規模言語モデルに渡して、次の教学シーンを計画させます。その後のシーンのレンダリングプロセスは以前と同じです。
Founder Park:例えば、1分間視聴中にユーザーが質問した場合、その場で直接質問できますよね。その質問を受け取ったら、ユーザーの質問とこれまでの内容をモデルに渡して処理します。この際、ユーザーの質問後、アニメーションは再生を続けるのですか、それとも停止しますか?
James:現在の遅延は当初の20〜30秒から5秒以内まで短縮されています。インタラクションでは、ユーザーがこの5秒間にあまり注目しないような過渡的な演出を入れており、全体のつながりが滑らかになっています。4〜5秒で、ユーザーの質問に応じた全新コンテンツが表示されます。
現在の設計では、AI教師が「うーん、ちょっと考えてみます」と言い、黒板を消す動作をします。まるで現実の教師が「説明に問題があるなら、消して書き直す」という自然な流れです。
また、ユーザーの質問を待つだけでなく、途中でQuizも行います。Quizのフィードバックやユーザーの質問に基づいて推論を行います。完全な自由発言ではなく、ユーザーがマイクをオンにするアクションが必要で、オン/オフの操作があります。
Founder Park:このようなメカニズムにより、最大約1時間の解説が生成可能になるのですね。
James:正確に言えば制限はありません。もし質問が続く限り、ずっと続きます。
Kai:はい、予め制限は設けていません。実際、VideoTutorがこの方向を進んでいるのは、マルチモーダルAIの進化に伴い、新たな需要を創造しているわけではなく、既存の需要をより良く満たしているからです。オフラインの実際の教育を見てください。なぜアメリカの保護者は高額を支払うのでしょうか?アメリカの塾業界では個別指導が多く、1時間100ドル以上かかるからです。現実の教師は誘導的な質問ができ、どこが理解できていないかを観察し、それに応じて質問できます。VideoTutorもこのリアルな教師の教学効果をできる限り再現し、すべての子どもがリアルタイムでインタラクションし、リアルタイムで学べるようにしています。
Founder Park:学生が授業中にカメラをオンにする必要がありますか?
Kai:あまりありません。学生がカメラをオンにするかどうかは、アメリカのプライバシー法規に大きく依存します。製品側で強制的にオンにする機能を設けることはほとんどなく、オンにするかどうかは学生の意思に委ねられます。主なインタラクションは質問と音声フィードバックです。
Founder Park:技術的には、小規模モデルとクラウド上の大型モデルを併用する戦略を取っていますか?
Kai:併用しています。内部にはすでに10万件以上の動画データを持つデータセットがあります。その中でも優れたデータは人工的に二次アノテーションされ、微調整モデルのトレーニングに使われます。例えば、現在8,000件以上のSATサンプルデータでトレーニングしています。こうした微調整済みの小規模モデルは、ClaudeやGeminiといったクラウド上の汎用商用モデルと連携して動作します。
Founder Park:Claude、Gemini、GPTのいずれを使うかは、製品のコア性能に影響を与えますか?
Kai:私たちの対象はK12分野であり、基礎モデルの性能はすでに十分です。ただし、100%正確を確保するため、2つのモデルを同時に呼び出して相互チェックを行い、両者の回答が一致すれば、ほぼ間違いないと判断します。コード生成に関しては、主にClaudeを使用しており、そのコード能力が優れているからです。
Founder Park:現在の製品における技術的課題は何ですか?モデル能力ですか、それともコード生成ですか?
Kai:モデル能力もその一環です。他にはレンダリング速度があり、現在は5秒以内に抑えられていますが、GPUのさらなる配置によりさらに高速化が可能です。もう一つは長期記憶能力です。学生の長期的な学習行動データを蓄積し、この学生がどの知識ポイントを理解していないかを把握する必要があります。例えば、1ヶ月前に学んだ内容を忘れた場合、再度リマインドできます。
James:レンダリング時間には多くの努力を注いでおり、技術的突破を重ね、当初の2分から1分、現在は10秒以内まで短縮しました。最終目標は、ユーザーが質問し、推論が終わると同時に結果が即時に表示される、ほぼゼロ遅延のレンダリングです。これは現在チームが取り組んでいる難題ですが、すでに新しい方向性を見つけました。
05 視聴完遂率ではなく、最終的な試験得点を見る
Founder Park:現時点での製品のコア指標はどう評価していますか?ユーザーにとって動画が役立ったかどうかをどう判断しますか?
Kai:最も重要な指標は試験です。新バージョンでは、動画視聴後にQuizがあり、正解すれば理解できたとみなされ、不正解なら説明不足とみなされます。
学習効果は視聴完遂率だけで判断できません。一部の学生は半分見た時点で理解してしまうからです。その時点でテストを行い、合格すれば、残りは見る必要がありません。私たちの製品のコア指標は、何人の学生が得点を上げたかです。
Founder Park:しかし、最終的な試験は別の環境で行われます。どうやって合格したかどうかの結果を得るのですか?
Kai:ここでアメリカの製品文化の話になります。ユーザーが製品を使って良い結果を得ると、自発的に共有する傾向があります。多くの学生がVideoTutorを使ってSATを受験した後、自発的に使用体験と成績を共有してくれます。さらに、彼らをキャンパスアンバサダーとして起用し、二次的な広告活動を行います。
20人の高校生からなるキャンパスアンバサダーがいます。実際、Mercorも初期に非常に成功したのは、「ユーザー成功ストーリー」の典型的なモデルを使ったからです。Mercorは初期に多くのインド人プログラマーがアメリカの仕事を得るのを助け、その後、これらのユーザーに連絡を取り、user storyを撮影し、「Mercorを使って仕事を見つけた方法」を伝えました。これにより、非常に良い口コミが生まれました。VideoTutorも同じ原理です。もっと多くの学生が製品を使って非常に良い成果を上げ、その経験をuser storyとして共有することが目標です。
Founder Park:学生が主に共有するチャンネルはどこですか?
Kai:学生は主にTikTokで、保護者はFacebookのグループで共有します。
Founder Park:半年または1年の時間軸で見た場合、製品の成長戦略はどのように計画していますか?
Kai:本質的に、VideoTutorはC向けユーザー製品であり、口コミが非常に重要です。多くの成功したAIアプリも初期はシードユーザーの口コミに依存していました。例えば、デザイナーが使って良かったら、それが広がっていきます。私たちにとっても、何人のSAT受験者がこの製品を使って高得点を取ったか、そしてそれを他の子どもや保護者に伝えるかがコア指標です。保護者は主にFacebookとInstagramを使い、学生はTikTokを使うため、これらのプラットフォームで広告します。このような共通認識が形成されれば、学校の教師も自然と気づきます。私たちが初期に多くの学校に知られたのも、多くの教師が使ってみて良かったため、学校の調達担当者に推薦したからです。したがって、最も重要なのはC向けユーザーの口コミであり、何人の子どもが得点を上げたかが鍵となる指標です。
Founder Park:新バージョンの状態とリリース予定は?
Kai:2ヶ月以内に正式にpublic releaseを予定しています。その際、学生は非常に低い遅延で「質問=回答」を実現でき、理系の図形レンダリングも100%正確になります。ただし、競技シーンや線形代数のような高度な大学知識は当面カバーしません。主にK12領域に集中します。
Founder Park:VideoTutorの現在の壁または護城河は何ですか?
Kai:いくつかあります。第一にデータフライホイールです。動画の背後にはすべてコードがあり、ユーザーが生成した良質な動画データは二次アノテーション後、再び微調整モデルのトレーニングに使われます。データが増えれば増えるほど、動画の品質も向上します。また、学習行動データも蓄積され、どの学生がどの知識ポイントを苦手としているかを把握でき、データフライホイールが構築されます。ユーザーが増えれば増えるほど、製品は学生をより深く理解できるようになります。第二に、技術的リードの優位性、特にアニメーションエンジンのアルゴリズムです。アルゴリズム自体が最も重要な優位性ではありませんが、急速なイテレーションとデータの蓄積により、その優位性はさらに際立ってきます。
第三にブランドです。VideoTutorはすでに北米の保護者層の中でAI教育分野のトップブランドとなっており、保護者の信頼も無形の壁となっています。
Founder Park:3〜5年後、VideoTutorは最終的にどのような製品になると予想していますか?
Kai:将来、VideoTutorが誰もが理系知識を学ぶためのAI教師になることを願っています。私たちが扱うのは理系のみです。将来的にはDuolingoを超えると考えています。Duolingoは世界的な言語学習製品ですが、STEM(理系)分野では、これまで世界的な製品が登場しなかった。なぜなら、理系には多くの図形レンダリングが必要だったからです。しかし、現在の基盤モデルの技術はすでに成熟しており、理系分野に次の「Duolingo」が誕生すると考えます。
06 採用強化、特に中国の大手企業出身者を求めています
Founder Park:過去に何度か起業経験がありますが、主にどのような内容でしたか?
Kai:現在大学3年生です。大学1年生のとき、Jamesと一緒に教育製品の起業を始め、20万ドルのエンジェル投資を受けました。その時は失敗しましたが、貴重な教訓を得ました。「同質化した競争に陥ってはいけない」ということです。当時私たちが作ったAppは、市場に類似製品が多く、初期から広告費競争に巻き込まれ、有料化が困難でした。
第二次の起業では、MathGPTProというチームに共同創業者として参加し、数ヶ月在籍しました。この期間に、製品指標の見方、製品の作り方、ユーザー拡大の方法を学びました。このときに結論づけたのが、「テキストベースの解答型教育製品はすでに限界に達している」という点です。それは「ChatGPTとほとんど変わらない」上に、過去に作業邦が多大なコストをかけて構築した構造化された知識問題データベースも、大規模モデルの編集能力によって置き換えられてしまったからです。そのため、第三次の起業では、可視化が必然のトレンドであると確信しました。

趙凱、ハーバード大学にてSam Altmanとピッチした際の記念写真
Founder Park:過去の2回の経験は、テキスト型製品の限界を認識した以外に、チームや他の面で、現在のVideoTutorの運営にどのように役立っていますか?
Kai:非常に大きな助けになっています。
第一に、方向性と製品の将来性をより正確に判断できるようになりました。競合のウェブサイトトラフィックや収益を見て、製品の進化方向を判断できるようになりました。
第二に、製品開発において、開発のペース、製品設計、フロントエンドとバックエンドの連携、注目すべき指標などをより正確に判断できるようになりました。
第三に、チームマネジメントと組織文化の構築能力です。より完全な管理体制を構築し、各メンバーの役割分担、報酬、ストックオプションの配布を明確にしました。また、資金調達の方法も学びました。今回の1000万ドルの資金調達は、20日以内で完了しました。
Founder Park:現在のチーム人数は?
Kai:6人で、全員一緒に暮らしています。
Founder Park:当初のチームはどのように構築されましたか?
Kai:Jamesとはすでに2回の起業を経験しています。同じ大学の出身で、大学1年生のときから一緒にAppを開発しました。大学2年生のとき、他の2人と起業し、お互いに知り合いました。この技術が非常に大きな製品ビジョンをもたらすことに気づいたとき、すぐに連絡を取り、チームを組んでこの製品を作ることにしました。元々全員が同窓生であり、チームのもう一人のパートナーNickも私の大学時代のルームメイトです。
Founder Park:現在、採用拡大を進めていますが、どのような人材を求めていますか?
Kai:バックエンド、フロントエンド、大規模言語モデル、UI/UXの分野を中心に採用します。経験のある人材を希望しています。すでに試行錯誤の段階を終え、製品を急速に構築するフェーズに入っているため、経験豊富な人材に成長を支援してもらいたいのです。
Founder Park:経験豊富なエンジニア、プロダクトマネージャー、成長担当者を求めており、製品を1から10、あるいは10から100へと育てていきたいのですね。
Kai:はい、まさにそのフェーズです。チームを9〜10人に拡大する予定で、依然としてエンジニアの採用を最優先します。
今回の採用は中国国内も対象とするため、出勤とリモートのハイブリッド方式となります。
Founder Park:どのような人物像を求めていますか?
Kai:大手企業(例:字節跳動、美团)での経験がある方を歓迎します。なぜなら、字節跳動は高速かつ競争の激しい組織文化を持ち、若者を重視しているからです。字節跳動で訓練された人材は、優れた方法論と能力を持っており、私たちのチームに加入することで、成功経験を持ち込み、融合・学習できるからです。
中国の大手企業で実戦経験があり、急速なイテレーション経験を持つ人材を求めています。学生起業の段階はすでに終えているため、初心者を採用する必要はなく、むしろ経験豊富だが完全な「業界のベテラン」ではない人材が適しています。なぜなら、業界のベテランは家庭の事情を考慮しなければならず、そこまで必死になれないからです。中間層で、若くて努力できる人が理想です。
優秀な人材には豊富なストックオプションを提供します。1100万ドルを調達しましたが、なぜアメリカでエンジニアを採用しなかったのか?それは、中国のプロダクト力と工学能力が本当に優れていると感じているからです。この波の中で、華人主導のチームが国際的に偉大な製品を生み出すことは100%確実です。現在の多くのAIアプリケーションは華人によって開発されており、中国の工学能力は本当に素晴らしい。これが私たちの強みであり、米中双方の利点を活かすつもりです。
VideoTutorの詳細な採用情報: https://videotutor.io/
07 シリコンバレーの大学生たち、全員がAI起業中
Founder Park:特にシリコンバレーでは、大学生の起業が非常に顕著なトレンドになっています。あなたが見ている状況はどのようなものですか?
Kai:一つの事実を見てください。今回の100億ドル評価の企業群です。AI採用に特化するMercorはすでに3億ドル以上の新規資金調達を完了し、評価額は100億ドルに達しています。また、Cursorもすでに100億ドル評価が確定しています。これに加えてGPTZero、Pikaなどがあります。これらすべてが大学生による起業プロジェクトであり、特にCursorとMercorの創業者は大学3年生で中退しています。
この世代の若者の起業には共通の特徴があります。それは「極めて差別化された競争」です。彼らは汎用的な製品ではなく、非常に狭い領域に集中して取り組んでいます。例えば、MercorのAI採用は当初からインド人プログラマーの採用に特化していました。
第二に、環境です。シリコンバレーの資本環境と基盤的なイノベーション、例えばスタンフォード、YC、Peter Thielのファンドなどは、初期段階から大学生の起業を支援しており、アイデアが成熟していなくても支援を惜しみません。また、強力な人的ネットワークも提供します。
第三に、これらの大学生たちの資質です。私たちもそうですが、シリコンバレーの大学生たちは非常に勇敢な冒険精神と極めて強い学習能力を持っています。このような大胆な挑戦精神は、中国の多くの学生にはあまり見られないかもしれません。なぜなら、シリコンバレーでは身近に同年代の成功事例があり、それが励みになり、資本環境も若者を信じてくれるからです。
私自身、当時コストとリターンを比較しました。大学を卒業して就職したとしても、留学費用を返済できる保証もなければ、大きなリターンも期待できません。しかし、起業を選べば、最も若い時期に猛烈に学ぶことができ、人生に無限の可能性が生まれます。私は小さい頃から偉大な会社を創りたいと思っていたのです。
Founder Park:なぜ今この世代の大学生が100億ドル企業を創れるようになったのですか?昔は1〜2千万ドルで売却しても大成功でした。ここにはAIブームやバブルの要素はありますか?
Kai:完全にバブルとは言えません。Cursorは4.5億ドルの実収益を上げており、これは非常に信頼できる数字です。その背景には、この世代の若者チームの方法論と認知インサイトが非常に重要です。これらのチームは背景が優れており、学習能力も非常に高いです。
Cursorは初期に周囲の大学生プログラマーに依存しており、彼らはAIを受け入れやすく、非常に強いフィードバックを提供しました。創業者自身も小天才的なエンジニアであり、ユーザーを深く理解し、工学的なイテレーション能力も高く、初期は4人で製品を立ち上げました。製品をうまくイテレーションした後、ユーザーの口コミが生まれ、収益が上がり、投資家も次のMark Zuckerbergを逃したくないと考え、資本が後押ししました。
最も根本的な条件は、AIの多くの技術が新しく、若者は学習が速く、現実的で信頼でき、思い切って行動できるため、極めてユーザーを理解し、超高速なイテレーションで従来の製品を打ち負かせることです。例えば、Cursor以前にもGitHub Copilotは優れた製品でしたが、なぜそれを上回れたのか?それはユーザーエクスペリエンスと実行速度の差です。
Founder Park:AIは新しい技術であるため、多くの製品認知も新しい視点で見るべきだと言えますか?
Kai:はい。若い世代の創業者は、前の世代よりも深い認知的洞察を持ち、ユーザーにより近い位置にいます。現在の主流のAIユーザーは00後であり、彼らの学習とフィードバックのイテレーション速度、受け入れ姿勢は、前の世代の創業者よりもはるかに速いです。
したがって、認知のイテレーション速度が核心です。モバイルインターネット時代は、技術のイテレーションが年単位または四半期単位でしたが、AI時代では、それが1日単位になる可能性があります。創業者として、急速に学ぶ必要があります。若者は夜更かしができ、闘志も旺盛です。
Founder Park:以前メディアが、シリコンバレーの多くの創業者が996を始めたと報じていましたが、どう思いますか?
Kai:私の周りの白人起業家たちも、多くの資金を調達した後も996を続けています。私たちと同じように、大きな家を借りて、全員が生活と仕事が一体化しています。996は環境に迫られたものだと思います。現在のシリコンバレーはゴールドラッシュのようで、誰も後れをとりたくないので、製品のイテレーション速度を競わざるを得ず、夜更かしして急速にイテレーションしなければなりません。これは環境が人を追い込む形で、必然的にこうなるのです。
Founder Park:シリコンバレーの大学生起業家たちの選ぶ分野に、何かトレンドはありますか?
Kai:私たちが教育を選ぶのと同じように、他の人たちも共通のトレンドを持っています。それは「自分の居心地の良い分野(comfort zone)で起業する」ことです。居心地の良い分野とは、その分野とユーザーを十分に理解していることを意味します。Cursorの創業者はコーディングを深く理解しており、私たちが教育を選ぶのも、このユーザー層を深く理解しているからです。今の若者たちは、自分で理解していない分野に無謀に飛び込むことはせず、自分の認知の居心地の良い範囲内で起業します。そうすることで、ユーザーからのフィードバックが速く、正確なものになります。
また、認知の累積もあります。私は3回連続で教育を選んでおり、私の認知は積み重なっています。この世代の大学生たちは、過去にやったことのないことを無謀にやろうとはせず、いかにそれをより良くできるかを考えます。彼らは新しい世代の思考方式を持ち、自分の認知圏内で絶えずイテレーションし、積極的に機会を創出します。
もう一つは、勇敢に挑戦する精神です。他人の否定に左右されず、「I don't care what you think about me」という態度を持ち、非常に自信があります。その背景には「高速実験」の文化があります。製品がまだ完成していなくても気にせず、迅速にリリースし、迅速にイテレーションし、迅速にフィードバックを得るのです。
Founder Park:この潮流は、いつ頃から始まったのですか?
Kai:一種の共通認識としての成功だと思います。GPTZeroのようなプロジェクトが寮から始まり、繰り返しイテレーションを重ね、資本の支援とユーザーの認知を得るという、迅速な試行錯誤と爆発的成功の事例が増えるにつれ、共通認識が形成されたのです。
一言で言えば、「完璧より完成」。完成することが完璧よりも重要です。また、競争をあまり気にしません。シリコンバレーの多くの創業者は、自分の製品理念をオープンに語り、コピーされることを恐れず、自分だけが迅速にイテレーションできればいいと考えます。この世代の若者たちは、非常に優れたストーリーテリング能力を持っています。このストーリーテリングは空虚なものではなく、現実的で真実に基づき、未来への展望を加えたものです。
Founder Park:まずは自分自身をマーケティングするのですね。
Kai:はい。根底にあるのは冒険精神と極度の自信です。この動機によって、彼らは果敢に試行錯誤し、間違ったことを言っても恐れません。大胆に製品理念を語り、大胆に実行し、間違えても修正すればいいのです。この「試行錯誤を恐れない」文化が、この世代の大学生起業のブームと成功を促進しています。
アメリカのVCも大学生のプロジェクトに注目しており、YCは毎期一定数の大学生プロジェクトに投資しています。
08 資金調達は、VideoTutorが今最も心配する必要のないこと
Founder Park:VideoTutorを始めたばかりの頃に戻れるとしたら、自分に何をアドバイスしますか?より良くできた点はありますか?
Kai:もう少しペースを速めたほうがよかったと思います。また、チーム編成についてもです。VideoTutorのチームは複数回の調整を経て完成しました。もし最初からわかっていたら、製品に必要なスキルセットに基づいて、より早くチームを構築していたでしょう。起業は最終的に組織力が
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News














