
저우창펑이 중국계 대학생에게 시드 라운드로 1100만 달러를 투자해 교육 에이전트를 개발
저자: Founder Park
중국계 미국인 대학 3학년생이 설립한 스타트업이 시드 라운드에서 1100만 달러를 조달하며 실리콘밸리 학생 창업 기업 중 사상 최고 금액의 펀딩을 달성했다.
한 문장만으로 개인 맞춤형 교육/설명 영상을 생성하는, K12 대상 교육 에이전트 제품 VideoTutor가 오늘 1100만 달러 규모의 시드 펀딩 완료를 발표했다. 이번 펀딩은 YZi Labs가 리드했으며, Baidu Ventures, Jinqiu Fund, Amino Capital, BridgeOne Capital 및 다수의 유명 투자자들이 공동 참여했다.
이는 또한 YZi Labs가 투자한 첫 번째 AI 제품 회사이기도 하다.
창업자 Kai Zhao(조개)는 VideoTutor가 자오창펑과 YZi Labs 투자팀의 인정과 지지를 받았으며, 결국 YZi Labs가 주도하여 이번 펀딩을 이끌었다고 밝혔다. 그들은 10건 이상의 TS(투자의향서)를 받았지만, 최종적으로 몇 곳만 선택했다.
5월 14일에 첫 번째 버전의 제품을 출시했으며(Founder Park 제품 마켓플레이스에서 처음 공개), 시장의 인정과 PMF(Product-Market Fit) 검증을 받았다. 출시 후 5개월도 채 안 되어 1100만 달러의 시드 펀딩을 성공적으로 완료했다.
Kai에 따르면, 이 펀딩을 성사시킨 핵심 요인은 올바른 방향성을 전제로, '소재능팀'이 시각화 학습 방식을 통해 K12 분야의 미국 대입 시험 학습 문제를 해결했다는 점이다.
"이 분야는 젊은 사람들이 도전하기 적합하며, 탁월한 엔지니어링 능력과 함께 창업자가 뛰어난 통찰력과 경험을 갖추고 있고 실행력이 매우 빠릅니다."
그들뿐만 아니라 Cursor, Mercor, Pika, GPTZero 등 다양한 사례에서 볼 수 있듯, 실리콘밸리의 대학생들은 하나둘씩 새로운 고액 펀딩 기록을 세우며 AI 창업에 대한 인식을 재정의하고 있다.
AI 시대의 창업은 진정으로 예전과 다르다.
우리는 VideoTutor의 젊은 팀과 대화를 나누며, 왜 그들이 이 시드 펀딩을 유치할 수 있었는지, 현재 실리콘밸리의 창업 환경에서 어떤 변화가 일어나고 있는지, 그리고 왜 국내 대기업 직원들을 특히 채용하고 싶어 하는지 알아보았다.
인터뷰 게스트: CEO Kai Zhao, CTO James Zhan
인터뷰 & 편집|만호
다음은 Founder Park에서 편집 정리한 인터뷰 내용이다.
01 K12 분야, 시각화 학습이 진짜 방향이다
Founder Park: 많은 기관들이 여러분을 주목하고 있는데, 가장 핵심적으로 그들을 설득한 포인트는 무엇이라고 생각하십니까?
Kai: 우선 방향성이 올바르다는 점이 가장 중요합니다. AI 교육 분야는 잠재력과 전망이 매우 크며, 저희가 집중하는 교육 분야는 미국 대입시험 SAT와 AP입니다. 타겟 사용자는 K12 고등학생이며, 저희와 이 사용자 간 격차가 매우 작아 사실상 세대 차이가 없습니다. 저희 스스로도 시험 준비 과정을 거쳤기 때문에 시험과 준비의 어려움을 잘 알고 있으며, 실제 문제를 해결할 수 있는 제품을 만들 수 있습니다.
두 번째로, 팀 자체가 매우 우수합니다. James는 Gemini 출신으로 구글에서 AI 엔지니어링과 알고리즘 개발의 핵심 엔지니어였습니다. 저는 교육 분야에서 세 차례 창업 경험이 있으며, 대학 1학년부터 교육 소프트웨어 창업을 시작했고, 2학년 때 MathGPTPro 공동 설립에 참여해 프로젝트가 Merit Circle에 선정되기도 했습니다. 성공적인 교육 제품 개발 경험을 보유하고 있습니다.
세 번째로, 저희가 개척하는 AI 교육 분야의 핵심은 애니메이션 엔진인데, VideoTutor의 핵심 개발자로서 가장 핵심 기술을 이해하고 있으며, 애니메이션 엔진을 극도로 정밀하게 렌더링할 수 있습니다.
또한 팀 자체가 뛰어난 마케팅 유전자를 가지고 있어 어떻게 확산시켜야 할지 잘 알고 있습니다.
VideoTutor는 미국 주류 VC들이 추구하는 '소재능팀(Small Genius Team)'이라는 투자 컨센서스에 부합합니다. 즉, 해당 분야가 젊은이들에게 적합하며, 탁월한 엔지니어링 실무 능력을 갖추고 있고, 창업자 본인이 뛰어난 통찰력과 경험을 바탕으로 매우 빠른 실행력을 발휘한다는 의미입니다. 이러한 점이 모든 투자자들이 공감하는 핵심 이유라고 생각합니다.

VideoTutor, YZi Labs EASY Residency Demo Day에서 뉴욕 증권거래소 무대에 오르다
Founder Park: 귀사 제품이 교육 산업 내 어떤 핵심 문제를 해결하고자 합니까?
Kai: 현재 시장의 학습 제품은 두 가지로 나눌 수 있습니다. 능동적 학습 제품과 수동적 학습 제품입니다. 수동적 학습 제품은 바이트댄스의 Gauth, Chegg, AnswersAi 등이 있으며, '숙제 해결(Homework Help)' 시나리오를 중심으로 서비스를 제공합니다. 학습 여정이 매우 짧고, 주로 학생들이 유료로 숙제를 해결하는 데 초점을 맞춥니다.
반면 VideoTutor는 능동적 학습 시나리오를 다룹니다. 학생들의 학습 동기를 고려하지 않아도 됩니다. 왜냐하면 그들은 반드시 학습해야 하고 시험을 봐야 하기 때문입니다. 예를 들어 미국 대입시험 SAT, AP 같은 경우입니다. 이 시나리오에는 시각화가 필요한 요구사항이 많습니다. 미국 대입시험의 80%는 함수, 미적분 등 복잡한 이미지 렌더링이 필요한 지식을 포함합니다. VideoTutor의 애니메이션 엔진은 바로 이런 시나리오에 탁월한 해답을 제시합니다.

또한 이 분야의 고객 단가(Unit Price)가 매우 높습니다. 미국에서는 매년 평균 260만 명의 학생이 SAT 시험을 치르며, 유료 수요가 큽니다. 오프라인 SAT 강의는 비용이 매우 비싸며, 패키지가 아닌 시간당 과금 방식입니다. 평균적으로 시간당 150달러에서 시작하며 대부분의 강사는 시간당 230달러를 받습니다. 많은 학생과 학부모들이 유료 학습을 선택합니다. 그러나 VideoTutor는 AI가 생성하는 영상이 현직 강사의 강의 내용과 거의 차이가 없기 때문에, 강사 교육을 효과적으로 대체하거나 오히려 더 나은 수준까지 제공할 수 있습니다. 이렇게 되면 학생들은 최소한의 비용으로 자신만의 AI 맞춤형 시험 준비 튜터를 가질 수 있게 됩니다.
Founder Park: 당시 이 제품을 만들기로 결정한 계기는 무엇이었습니까?
Kai: 실제로 저희보다 먼저 스탠포드 팀이 Gatekeep Ai라는 이름으로 유사한 시도를 했습니다. 당시에도 시각화 학습을 목표로 했었습니다. 저는 이미 이 방향성이 큰 영향을 줄 것임을 인식하고 있었습니다. 이전 창업 경험에서는 모두 GPT API를 연결한 교육 제품을 만들었는데, 일종의 ChatGPT Wrapper 형태였습니다. 하지만 우리는 단순히 텍스트 기반 Q&A로는 한계가 있다는 것을 깨달았습니다. 실제로 Chegg, Gauth 등의 사업은 하락세이며, 많은 시나리오가 ChatGPT에 의해 대체되고 있습니다. 학생들이 20달러를 내고 ChatGPT를 사용하면 많은 과제 문제를 해결할 수 있기 때문입니다.
API를 활용한 최적화 제품은 이미 한계점에 도달했습니다.
다만 멀티모달 시각 생성에는 매우 밝은 전망이 있습니다. 미국 대입시험 분야에는 시각화 학습 시나리오가 매우 많기 때문입니다. 아쉽게도 Gatekeep은 좋은 시작을 했지만 계속 진행하지 못했습니다. 너무 일찍 출시되었고, 당시 기초 모델의 프로그래밍 능력이 아직 성숙하지 않았으며, GPT-4도 출시되지 않았습니다. 게다가 수학 애니메이션 엔진은 렌더링과 알고리즘 문제를 해결해야 했으나, 그들은 이를 극복하지 못했습니다. 반면 저희 팀은 애니메이션 엔진의 모든 핵심 개발을 장악하고 있으며, 이를 통해 정확한 비디오 렌더링을 실현했습니다.
02 PMF: 사용자의 유료 결제 의사가 매우 강함
Founder Park: 제품 출시 후 여러 학교들과 협력 관계를 맺었는데요, 언제 혹은 어떤 기능을 통해 '제품이 맞는 방향으로 가고 있다', '핵심 문제를 정확히 파악했다'고 느끼셨으며, PMF를 찾았다고 판단하셨습니까?
Kai: 세 가지 차원에서 설명할 수 있습니다.
첫째, 수익 지표 측면에서 지금까지 VideoTutor는 1000개 이상의 기업으로부터 API 요청을 받았으며, 이는 미국 내 유명한 대형 교육기관뿐 아니라 국내 기관까지 포함됩니다. 또한 많은 학교들이 서비스 구매를 원하고 있습니다. C단 사용자들의 의지는 더욱 직접적입니다. 한 학생의 부모님이자 투자자인 분이 제품을 체험하신 후, 친지 모두에게 사용해보라고 권유했고, 모두가 유료 결제를 원했습니다. 이후 그분은 어쩌다 제 전화번호를 알아내 문자를 보내 투자를 제안하셨습니다. C단 사용자들의 유료 결제 의사가 매우 강하다는 점을 확인할 수 있습니다.
두 번째는 사용자 수요 차원입니다. 왜 미국에서 오프라인 1:1 튜터링 수요가 그렇게 강할까요? 부모들이 1:1 교육 효과가 좋다고 생각하고 그 비용을 지불할 의사가 있기 때문입니다. 현재 멀티모달 AI 기술은 인간처럼 1:1 교육 효과를 구현할 수 있으며, 질문에 바로 답하는 형식입니다. 또한 미국의 온라인 1:1 튜터들이 녹화한 강의 영상과 AI가 생성한 영상 사이에는 사실상 차이가 없습니다. 이것이 제가 말하는 '수요 이전(Demand Shift)'입니다. 학생들이 고가에 구입한 녹화 강의와 AI 생성 영상이 차이가 없다면, 왜 AI를 사용하지 않겠습니까? 비용은 더 낮고, 교육 효과는 더 좋기 때문입니다.
많은 학생들로부터 매우 긍정적인 피드백을 받았으며, 많은 교사들도 이 제품을 널리 알리고 싶어 합니다. 초기 완결 시청률과 사용 시간도 매우 좋았습니다. 현재 우리가 선별한 200명의 시드 사용자들은 모두 초기에 축적된 사용자들입니다.
세 번째는 일종의 제품 감각(taste)과 직관(sense)입니다. 지속적으로 제품을 개발하면서 교육 산업의 진보, 학생과 학부모의 핵심 수요, 제품 자체의 진화 등을 역으로 추론하면 전체 로직이 순환 구조를 이룹니다. 따라서 위 세 가지 차원을 종합하면 PMF가 충분히 달성되었다고 판단할 수 있습니다. 가장 핵심은 유료 결제 의사가 매우 강하다는 점입니다.

FIZZ와 협력 관계 체결
Founder Park: 많은 사용자들이 적극적으로 유료 결제를 원했고, 일부는 직접 연락해서 투자를 제안하기도 했다고요?
Kai: 그렇습니다. SAT, AP 분야는 기본적으로 유료 결제 의사가 매우 강합니다. 이 분야의 고객 단가는 100~200달러에서 시작하며, 오프라인 수업은 더 비싸서 800달러까지도 가능합니다. 미국에는 260만 명의 SAT 응시생이 있으며, 이 중 37%는 자발적으로 유료 서비스를 이용합니다. 이는 유료 결제 의사와 수요가 매우 강한 시장입니다. 우리 제품은 이 수요를 효과적으로 이전시킬 수 있습니다.
Founder Park: SAT 분야에서 수험생 입장에서真人 튜터와 AI 중 어느 쪽을 더 신뢰할 수 있을까요?
Kai: 현재 AI는 미국 대입시험 SAT, AP 수준의 질문에 답변할 때 사실상 오류가 거의 발생하지 않습니다. 이런 상황에서 AI가 오프라인 튜터보다 더 나은 점은 무엇일까요? 첫째는 저렴함이고, 둘째는 학생이 어떤 질문이라도 끊임없이 할 수 있다는 점입니다. '어리석은 질문'을 했을 때 튜터가 불쾌해하거나 인내심을 잃을까 걱정할 필요가 없으며, 24시간 언제든지 학습할 수 있습니다.
또한 이 시장은 확장 가능합니다. 미국 시장을 마친 후에는 캐나다, 영국의 A-Level 시험 등으로도 확장할 수 있으며, 유료 수요가 매우 큽니다.
Founder Park: 유료 결제 방식은 현재 어떻게 고려하고 계십니까?
Kai: 월간 구독제를 기본으로 하며, 학습 결과에 따라 결제하는 방식도 도입할 예정입니다. 현재 AI 기술은 이미 결과 기반 결제가 가능한 수준에 도달했다고 생각합니다. 예를 들어, 799달러를 지불하면 자녀의 SAT 수학 만점을 보장하는 패키지를 출시할 수도 있습니다.
Founder Park: 하지만 시험 결과에 따른 유료 결제는 결국 학생 본인의 노력 여하에 달린 부분이 크지 않습니까?
Kai: 중국의 고등학교 입시에서는 어렵겠지만, 미국 SAT 시험은 그렇지 않습니다. 중국 고등학교 입시는 평가 항목이 매우 많아 수천 개에 달합니다. 그러나 미국 SAT 시험은 62개의 평가 항목만 있으며, 이 중 50개는 일반적인 항목으로 대부분의 학생들이 문제없이 해결할 수 있고, 나머지 12개도 대부분 이해할 수 있습니다. 학생의 논리 능력에 문제가 없는 한 학습이 불가능한 상황은 거의 없습니다. 게다가 AI의 학습 효율 향상 효과는 매우 뚜렷합니다.
실제로 많은 미국 온라인 튜터들도 유사한 서비스를 제공합니다. 학생에게 1800달러를 지불하면 튜터가 지도해주며, 성공률은 거의 100%입니다. 왜냐하면 SAT 평가 항목이 고정되어 있기 때문입니다. 학생의 지능 수준이 정상이라면 대부분 문제없습니다. 그러나 중국 고등학교 입시는 그렇지 않습니다. 단기간에 성적을 끌어올리기 어렵고, 점수 차이를 만들어내기 위해 어려운 문제가 출제됩니다. 반면 미국 대입시험에는 절대적으로 어려운 문제란 존재하지 않으며, 주로 개념 이해 여부를 평가합니다.
결과 기반 유료 결제는 기존 학습 보조 튜터들이 이미 사용하는 모델이므로, 전제 조건이 마련되어 있습니다.
Founder Park: 가격 책정에서 모델 비용이 부담이 되지는 않습니까? 비중이 얼마나 됩니까?
Kai: 이 분야의 고객 단가는 매우 높아, 월간 구독료가 69달러에서 시작합니다. 현재 모델 비용은 매우 저렴하므로 문제되지 않습니다. 교육 분야는 코딩 분야처럼 가격 경쟁을 벌이지 않습니다. 코딩은 긴 상황 맥락(Context) 지원이 필요하기 때문입니다.
03 고등학생을 위한 제품, 웹사이트가 가장 중요하다
Founder Park: 지난번 말씀하시길, 첫 번째 프로토타입 개발에 약 두 달 정도밖에 걸리지 않았다고 하셨는데요, 당시 전체 개발 주기, 분업, 어떤 기능을 개발하고 어떤 기능은 생략할지에 대한 결정은 어떻게 하셨습니까?
Kai: 팀원 모두의 공통된 의견은 빠른 반복이었습니다. 빨라야 초기 사용자들의 피드백을 빠르게 얻을 수 있기 때문입니다.
첫 번째 버전을 트위터에 공개하자 큰 반향을 일으켰고, 많은 사용자가 몰렸습니다. 그러나 이 사용자들 중 다수는 프로그래머, 투자자 또는 기술 애호가들로, 일괄적으로 '기술 체험자(Technology Early Adopters)'라 부를 수 있습니다. 이 단계에서 그들로부터 받은 피드백은 산발적이며 가치가 크지 않았습니다. 따라서 광범위한 사용자들 중에서 진정한 핵심 시드 사용자, 즉 고품질의 고등학생들을 선별한 후, 컨설팅 방식으로 유용한 피드백을 수집해야 했습니다.
핵심 피드백은 비디오 렌더링의 정확성이 100%에 도달해야 한다는 것이었으며, 이것이 최우선적으로 개선해야 할 핵심이었습니다. UI 디자인이 예쁜지, 다양한 TTS 음성 선택 기능을 제공할지 등은 모두 생략했습니다. 제품의 핵심으로 돌아가자면, 우리는 이과 과목의 지식 학습을 다루고 있으므로, 그래픽 렌더링의 정확성이 핵심입니다.
Founder Park: 생성되는 영상의 길이를 어떻게 결정하셨습니까?
Kai: 당시 최대 길이는 약 6분 정도였습니다. 주된 고려 사항은 일반적인 문제 설명과 개념 설명은 6분을 넘기지 않아야 한다는 것이었습니다. 그러나 이후 피드백을 통해 학습 능력이 다소 떨어지는 학생들은 내용을 더 천천히, 더 깊이 있게 설명해 주기를 원한다는 것을 알게 되었습니다. 따라서 영상 길이를 제한하지 말아야 하며, 주로 사용자의 학습 능력에 따라 달라져야 한다는 것을 인식하게 되었습니다.
Founder Park: 현재 최대 길이는 얼마나 됩니까?
Kai: 최대 1시간 이내가 될 수 있으며, 궁금한 점이 있으면 계속해서 질문할 수 있습니다. 실시간으로 소통하며 생성되는데, 이 기능은 최근에 추가된 것이며, 초기 버전에는 없었습니다.
Founder Park: 당초 개발하려 했지만, 나중에 중요하지 않다고 판단되어 보류한 기능이 있었습니까?
Kai: 예를 들어 앱(App)입니다. 초기에는 앱을 빠르게 개발해야 할지 고민했지만, 이후 미국 대부분의 학생들이 노트북이나 아이패드로 학습한다는 것을 알게 되었습니다. 미국 대부분의 K12 학교는 학생들에게 Chromebook을 지급하며, 컴퓨터 보급률이 매우 높고, 과제도 모두 컴퓨터로 수행합니다. 고등학생들은 거의 모두 컴퓨터를 소지하고 있으며, 학습 시나리오에서 스마트폰의 비중은 5% 미만으로 매우 낮습니다.
Founder Park: 따라서 교육 또는 학생층을 타겟으로 하는 제품이라면, 앱보다는 웹사이트가 우선되어야 한다는 말씀이시군요.
Kai: 네, 사실 당시 이미 이 데이터를 알고 있었습니다. 미국에서 오랫동안 공부했기 때문입니다. 이후 초기 수만 명의 사용자 중 100명을 선별해 조사를 진행했는데, 이 100명 중 90명 이상이 컴퓨터를 소지하고 있어 이 사실을 더욱 확신하게 되었습니다.
Founder Park: 첫 번째 버전을 출시할 때도 K12 사용자를 타겟으로 했습니까?
Kai: 네, 그 이후에도 계속 이 타겟을 유지했습니다. 우리는 Gauth과는 경쟁 제품이 아니며, 주로 시험 준비 시나리오를 다룹니다. 미국의 많은 고등학생들이 오프라인 교육이나 온라인 학습 플랫폼을 선택하는데, VideoTutor는 이러한 수요를 효과적으로 이전시킵니다.
Founder Park: K12은 최소한 1년간의 핵심 사용자층이 될 예정입니까?
Kai: 아마 2년 이내의 핵심 지표가 될 것입니다.
04 대규모 모델을 사용하지만, 그것에만 의존하지 않는다
Founder Park: 현재 기술 구현 방식을 간단히 소개해주실 수 있습니까? VideoTutor는 다른 비디오 생성 모델보다 과정 및 차트 생성에서 훨씬 뛰어난 성능을 보이며, 많은 모델이 텍스트 생성조차 정확하지 못할 때, 귀사의 기술은 매우 인상적입니다.
James: 생성되는 비디오는 텍스트와 도형을 모두 포함합니다. 대략적인 생산 프로세스는 다음과 같습니다. 먼저 대규모 언어 모델(LLM)이 텍스트와 해당 애니메이션 명령어를 생성한 후, 애니메이션 명령어는 저희의 애니메이션 엔진에서 렌더링되어 최종적으로 비디오에 표시됩니다.
텍스트 부분은 비교적 간단합니다. LLM이 텍스트를 생성하면 이를 직접 렌더링합니다. 그러나 애니메이션 부분은 저희가 자체 개발한 수학 애니메이션 렌더링 엔진으로 생성됩니다. 좌표축, 기하학적 도형 등을 렌더링할 때 정확도가 매우 높은 것이 특징이며, 바로 이것이 저희의 핵심 기술입니다.
현재 대규모 언어 모델은 텍스트만 출력합니다. 저희가 개발한 에이전트는 마치 대규모 언어 모델에게 종이와 펜을 주어, 모델이 상상하는 적절한 교육용 애니메이션을 그릴 수 있도록 합니다. 그려진 부분은 전적으로 저희 기술의 결과물입니다.
Founder Park: 최종적으로 영상의 음성 및 영상 합성은 어떻게 처리됩니까?
James: 먼저 사용자가 "피타고라스 정리란 무엇인가?" 같은 프롬프트를 입력합니다. 첫 번째 단계로, LLM이 모든 시나리오를 추론하며, 일반적으로 3~5개의 시나리오를 설정하는데, 이는 문제의 난이도에 따라 다릅니다. 이후 각 시나리오에 대해 대략적인 스크립트를 생성합니다. 다음으로, 각 시나리오의 스크립트를 기반으로 두 번째 추론을 수행하여 시나리오 내 텍스트, 해당 도형, 음성 텍스트를 생성합니다. 음성 텍스트는 이후 TTS로 음성합성됩니다.
마지막으로 모든 시나리오를 연결하여 완전한 비디오를 구성합니다.
Founder Park: 첫 번째 버전은 이러한 방식이었다고 이해합니다. 이후 실시간 상호작용 기능이 추가되면서 생성 프로세스도 변화했습니까?
James: 확실히 변화했습니다. 사용자가 가장 빠르게 콘텐츠를 볼 수 있도록, 먼저 첫 번째 시나리오를 생성하여 사용자가 시청하도록 하고, 이후 시나리오들은 백그라운드에서 계속 렌더링합니다. 사용자가 질문을 할 경우, 음성을 텍스트로 변환한 후, 이 텍스트와 이전 시나리오의 모든 내용을 함께 LLM에 전달하여 다음 교육 시나리오를 계획하도록 합니다. 이후 시나리오의 렌더링 프로세스는 이전과 동일합니다.
Founder Park: 사용자가 1분을 듣던 중 질문이 생기면 바로 질문할 수 있는데요, 질문을 받은 후 사용자의 질문과 이전 내용을 모델에 다시 전달합니다. 이 과정에서 사용자가 질문을 마친 후 애니메이션은 계속 재생되나요, 아니면 멈추나요?
James: 현재 지연 시간은 초기 20~30초에서 5초 이내로 단축되었습니다. 상호작용 측면에서, 우리는 전환 효과를 적용하여 사용자가 5초를 크게 의식하지 않도록 하며, 전체 과정이 자연스럽게 연결되도록 합니다. 4~5초 이내에 사용자의 질문에 맞춰 새로 생성된 콘텐츠를 볼 수 있습니다.
현재 설계는 AI 튜터가 "음, 잠시 생각해볼게요"라고 말한 후 칠판을 지우는 것입니다. 마치 실제 교사가 문제를 다시 설명하듯이 말이죠. 당신이 설명이 잘못됐다고 느끼면, 지우고 다시 써주는 흐름이 자연스럽게 느껴집니다.
또한 우리는 사용자의 질문을 수동적으로 기다리는 것에 그치지 않고, 중간에 퀴즈도 제공합니다. 퀴즈 피드백과 사용자 질문을 기반으로 추론을 수행합니다. 또한 자유롭게 마이크를 열 수 있는 것이 아니라, 사용자가 마이크를 수동으로 켜고 끄는 동작이 필요합니다.
Founder Park: 이러한 메커니즘을 기반으로 최대 약 1시간 분량의 설명을 생성할 수 있겠군요.
James: 정확히 말하면 제한이 없습니다. 계속 질문이 있다면 계속 진행할 수 있습니다.
Kai: 네, 사전에 제한을 두지 않습니다. 사실 VideoTutor가 이 방향을 선택한 것은 멀티모달 AI의 발전에 따른 것이며, 우리는 수요를 창출하는 것이 아니라 기존 수요를 더 잘 충족시키고자 합니다. 오프라인 교육을 보십시오. 왜 미국 부모들이 비싼 돈을 지불할까요? 미국 교육 시장은 주로 1:1 수업이며, 시간당 100달러 이상이기 때문입니다. 오프라인 튜터는 유도형 질문을 통해 학생이 어디를 모르는지 파악하고 다음 질문을 던질 수 있기 때문입니다. VideoTutor 역시 이러한 실제 튜터의 교육 효과를 최대한 구현하여 모든 아이가 실시간 상호작용과 실시간 교육을 경험할 수 있도록 합니다.
Founder Park: 수업 중 학생이 카메라를 켜야 합니까?
Kai: 거의 없습니다. 학생이 카메라를 켜는지 여부는 주로 미국의 개인정보 보호법에 따라 결정됩니다. 제품 내 강제로 카메라를 켜는 기능을 설계하지 않으며, 켜는지 여부는 학생의 의지에 달려 있습니다. 주된 상호작용은 질문과 음성 피드백을 통해 이루어집니다.
Founder Park: 기술적으로는 소규모 모델과 클라우드 기반 대규모 모델을 혼합하는 전략을 사용합니까?
Kai: 혼합 전략을 사용합니다. 내부에 현재 10만 건 이상의 비디오 데이터를 포함하는 데이터셋이 있습니다. 이 데이터 중 우수한 샘플은 인공적으로 2차 주석을 달아 미세 조정용 모델 학습에 사용합니다. 예를 들어, 현재 8000건 이상의 SAT 샘플 데이터로 모델을 학습하고 있습니다. 이러한 미세 조정된 소규모 모델은 Claude, Gemini 등의 클라우드 기반 범용 상용 모델과 협력합니다.
Founder Park: Claude, Gemini, GPT를 사용하는 것이 제품의 핵심 성능에 영향을 미칩니까?
Kai: 주로 K12 분야를 다루기 때문에 기초 모델의 수준은 이미 충분합니다. 그러나 100% 정확성을 보장하기 위해 두 개의 모델을 동시에 호출하여 교차 검증합니다. 두 모델의 답변이 일치하면 거의 오류가 없습니다. 코드 생성 측면에서는 주로 Claude를 사용하며, 이는 코드 작성 능력이 뛰어나기 때문입니다.
Founder Park: 현재 제품의 기술적 병목은 어디에 있습니까? 모델 능력이나 코드 생성에 있습니까?
Kai: 모델 능력도 한 가지 요인입니다. 또 다른 것은 렌더링이며, 현재는 5초 이내로 단축했지만, GPU 배포가 더 많아지면 더욱 빨라질 수 있습니다. 또 하나는 장기 기억 능력입니다. 학생의 장기적인 학습 행동 데이터를 축적하여, 이 학생이 어떤 개념을 이해하지 못하는지 파악하고, 예를 들어 한 달 전에 배운 내용을 잊었을 경우 다시 상기시켜줄 수 있어야 합니다.
James: 우리는 렌더링 시간에 많은 노력을 기울였으며, 기술적 돌파를 지속적으로 이루어냈습니다. 초기 2분에서 1분, 현재는 10초 이내로 단축했습니다. 궁극적인 목표는 지연 없이 렌더링하는 것으로, 사용자가 질문하고 추론이 끝나는 즉시 결과가 나와야 합니다. 이는 현재 팀이 해결하려는 난제이지만, 이미 새로운 방향을 찾았습니다.
05 완결 시청률이 아니라 최종 시험 점수만 본다
Founder Park: 현재 단계에서 제품의 핵심 지표는 어떻게 측정합니까? 어떤 영상이 사용자에게 유용한지 어떻게 판단합니까?
Kai: 가장 핵심적인 지표는 시험입니다. 새 버전에서는 영상을 시청한 후 마지막에 퀴즈를 제공하며, 정답을 맞히면 이해했다는 의미이고, 틀리면 설명이 부족했다는 의미입니다.
학습 효과는 완결 시청률만으로 판단할 수 없습니다. 일부 학생은 절반만 봐도 이해할 수 있습니다. 절반을 본 후 테스트를 통해 통과하면 나머지는 볼 필요가 없습니다. 우리 제품의 핵심 지표는 얼마나 많은 학생이 점수를 향상시키는지입니다.
Founder Park: 하지만 최종 시험은 다른 장소에서 치르므로, 학생이 통과했는지 여부를 어떻게 알 수 있습니까?
Kai: 여기서 미국의 제품 문화를 언급해야 합니다. 사용자가 제품을 사용한 후 좋은 결과를 얻으면 자발적으로 공유하는 경향이 있습니다. 많은 학생들이 VideoTutor를 사용한 후 SAT 시험을 치르고, 자신의 경험과 성적을 적극적으로 공유합니다. 우리는 이들을 캠퍼스 앰배서더로 임명하여 2차 확산을 유도합니다.
우리는 20명의 고등학생으로 구성된 캠퍼스 앰배서더 팀이 있습니다. 실제로 Mercor 초기 성공도 전형적인 '사용자 성공 스토리(User Success Story)' 모델을 사용했습니다. Mercor는 초기에 많은 인도 프로그래머들이 미국에서 일자리를 찾도록 도왔고, 이후 이 사용자들에게 연락하여 'user story'를 제작해 그들이 어떻게 Mercor를 통해 일자리를 찾았는지 소개했습니다. 이는 훌륭한 입소문을 만들어냈습니다. VideoTutor도 마찬가지로, 더 많은 학생들이 제품을 사용한 후 훌륭한 성과를 거두고, 그들의 경험을 user story로 만들어 공유하는 것이 핵심입니다.
Founder Park: 학생들이 주로 어떤 채널을 통해 공유합니까?
Kai: 학생들은 주로 TikTok을, 부모님들은 Facebook 그룹을 사용합니다.
Founder Park: 시간을 6개월 또는 1년 단위로 놓고 볼 때, 귀사의 제품 성장 전략은 어떻게 계획하고 있습니까?
Kai: 본질적으로 VideoTutor는 여전히 C단 사용자를 위한 제품이며, 입소문이 매우 중요합니다. 많은 성공적인 AI 앱들도 초기에 시드 사용자들의 입소문에 의존했습니다. 예를 들어 디자이너가 사용해보고 좋다고 느끼면 자연스럽게 퍼졌습니다. 우리에게도 핵심 지표는 얼마나 많은 SAT 응시생이 이 제품을 사용해 고득점을 받고, 다른 아이들과 부모들에게 이를 전파하는지입니다. 부모님들은 주로 Facebook과 Instagram을 사용하며, 학생들은 TikTok을 사용하므로, 우리는 이러한 플랫폼에서 확산을 유도할 것입니다. 이러한 공감대가 형성되면, 학교 선생님들도 자연스럽게 인식하게 됩니다. 우리가 초기에 많은 학교에 알려진 것도, 많은 선생님들이 사용해보고 좋다고 느껴 학교 구매 담당자에게 추천했기 때문입니다. 따라서 가장 핵심은 C단 사용자들의 입소문이며, 얼마나 많은 아이들이 사용 후 점수를 향상시켰는지가 핵심 지표입니다.
Founder Park: 새 버전의 개발 상태와 출시 일정은 어떻게 되나요?
Kai: 가능하면 2개월 이내에 정식 public release를 희망합니다. 이때 학생들은 매우 낮은 지연 시간으로 실시간 질의응답을 할 수 있으며, 이과 분야의 그래픽 렌더링은 100% 정확하게 이루어질 것입니다. 다만 당분간은 경시대회 시나리오나 선형대수와 같은 복잡한 대학 수준의 지식은 다루지 않을 것이며, 주로 K12 분야에 집중할 것입니다.
Founder
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














