
Tập đoàn Zhao Changpeng đầu tư vào một sinh viên năm ba người Hoa với vòng hạt giống 11 triệu USD để phát triển Agent giáo dục
Tuyển chọn TechFlowTuyển chọn TechFlow

Tập đoàn Zhao Changpeng đầu tư vào một sinh viên năm ba người Hoa với vòng hạt giống 11 triệu USD để phát triển Agent giáo dục
Các sinh viên đại học ở Thung lũng Silicon đang từng bước thay đổi nhận thức của mọi người về khởi nghiệp AI bằng những sản phẩm AI liên tục lập kỷ lục mới về vốn huy động.
Tác giả: Founder Park
Sinh viên người Hoa năm ba đại học, vòng hạt giống 11 triệu USD, sản phẩm khởi nghiệp của sinh viên Thung lũng Silicon có mức gây quỹ cao nhất hiện nay.
VideoTutor - sản phẩm giáo dục Agent dành cho đối tượng K12, có thể tạo video giảng dạy cá nhân hóa chỉ bằng một câu nói, hôm nay chính thức thông báo đã huy động thành công 11 triệu USD trong vòng hạt giống. Vòng gây quỹ này do YZi Labs dẫn đầu, với sự tham gia cùng đầu tư từ Quỹ đầu tư mạo hiểm Baidu, Quỹ Jinqiu, Amino Capital, BridgeOne Capital và nhiều nhà đầu tư nổi tiếng khác.
Đây cũng là công ty sản phẩm AI đầu tiên nhận được đầu tư từ YZi Labs.
Theo chia sẻ của người sáng lập Kai Zhao, VideoTutor đã nhận được sự công nhận và hỗ trợ từ Zhao Changpeng cùng đội ngũ đầu tư của YZi Labs, cuối cùng YZi Labs đã dẫn dắt vòng gọi vốn này. Họ đã nhận được hơn 10 TS (thư bày tỏ ý định đầu tư), nhưng cuối cùng chỉ chọn những đơn vị trên.
Phiên bản đầu tiên ra mắt ngày 14 tháng 5 (ra mắt lần đầu tiên tại chợ sản phẩm Founder Park), nhận được sự công nhận từ thị trường và xác nhận PMF, trong chưa đầy 5 tháng đã hoàn tất khoản gây quỹ 11 triệu USD.
Theo Kai, lý do cốt lõi giúp họ nhận được khoản đầu tư này là: trên cơ sở định hướng đúng đắn, "đội ngũ thần đồng trẻ" đã giải quyết điểm đau trong lĩnh vực luyện thi đại học Mỹ cho đối tượng K12 bằng phương pháp học trực quan.
"Lĩnh vực này khá phù hợp để người trẻ thực hiện, lại thêm khả năng kỹ thuật thực hành rất tốt, cùng với founder có tầm nhìn sâu sắc và kinh nghiệm phong phú, tốc độ triển khai cực kỳ nhanh."
Không chỉ riêng họ, Cursor, Mercor, Pika, GPTZero,... các sinh viên ở Thung lũng Silicon đang từng bước làm thay đổi nhận thức về khởi nghiệp AI bằng những sản phẩm AI liên tục thiết lập kỷ lục mới về gây quỹ.
Khởi nghiệp thời đại AI thực sự đã có những thay đổi nhất định.
Chúng tôi đã trò chuyện cùng những bạn trẻ của VideoTutor, tìm hiểu lý do vì sao họ có thể nhận được khoản đầu tư hạt giống này, xu hướng thay đổi nào đang diễn ra trong khởi nghiệp tại Thung lũng Silicon hiện nay, và vì sao họ lại muốn tuyển dụng nhân sự từ các công ty lớn tại Trung Quốc đến vậy.
Khách mời phỏng vấn: CEO Kai Zhao, CTO James Zhan.
Phỏng vấn & biên tập | Wan Hu
Dưới đây là nội dung cuộc phỏng vấn, đã được Founder Park biên tập và tổng hợp.
01 Lĩnh vực K12, học trực quan mới là định hướng đúng đắn
Founder Park: Có rất nhiều tổ chức đánh giá cao nhóm bạn, theo bạn thì yếu tố cốt lõi nào đã thuyết phục họ?
Kai: Tôi nghĩ trước hết là định hướng đúng đắn. Lĩnh vực giáo dục AI tiềm năng và triển vọng rất lớn, chúng tôi tập trung vào lĩnh vực luyện thi đại học Mỹ SAT, AP. Đối tượng người dùng mục tiêu là học sinh trung học phổ thông K12, khoảng cách giữa chúng tôi và nhóm người dùng này rất nhỏ, gần như không có khoảng cách thế hệ. Chúng tôi từng trải qua toàn bộ chu kỳ ôn thi, hiểu rõ điểm đau trong việc học và thi cử, nên có thể xây dựng sản phẩm thật sự giải quyết được nhu cầu của nhóm người dùng này.
Thứ hai, đội ngũ rất xuất sắc. James đến từ Gemini, từng là kỹ sư cốt lõi về AI và thuật toán tại Google. Bản thân tôi đã có ba lần khởi nghiệp trong lĩnh vực giáo dục, bắt đầu từ năm nhất đã khởi nghiệp phát triển phần mềm giáo dục, năm hai tham gia sáng lập MathGPTPro, dự án được chọn vào chương trình Miracle Works. Tôi có kinh nghiệm thành công trong việc xây dựng sản phẩm giáo dục.
Thứ ba, trong lĩnh vực giáo dục AI mà chúng tôi đang làm, then chốt là động cơ hoạt hình, còn chúng tôi là các nhà phát triển cốt lõi của VideoTutor, hiểu rõ nhất công nghệ cốt lõi, có thể thực hiện quá trình render động cơ hoạt hình một cách vô cùng chính xác.
Đội ngũ còn mang gen marketing mạnh mẽ, biết cách lan truyền thông tin.
VideoTutor rất phù hợp với quan điểm đầu tư phổ biến của các VC chủ lưu Mỹ, đó là "đội ngũ thần đồng trẻ", ám chỉ lĩnh vực này phù hợp để người trẻ thực hiện, kèm theo khả năng kỹ thuật thực hành tốt, founder có tầm nhìn sâu sắc và kinh nghiệm phong phú, tốc độ triển khai cực nhanh. Tôi cho rằng đây là lý do được đa số nhà đầu tư nhìn nhận tích cực.

VideoTutor lên sàn NYSE tại Ngày Triển thị EASY Residency của YZi Labs
Founder Park: Sản phẩm của các bạn muốn giải quyết vấn đề cốt lõi nào trong ngành giáo dục?
Kai: Hiện nay các sản phẩm học tập trên thị trường có thể chia thành hai loại: sản phẩm học tập chủ động và sản phẩm học tập thụ động. Các sản phẩm học tập thụ động như Gauth của ByteDance, Chegg, AnswersAi,... bao phủ cảnh huống mà chúng tôi gọi là "giải đáp bài tập về nhà" (Homework Help), chuỗi học tập rất ngắn, chủ yếu là học sinh trả tiền để được giải đáp bài tập.
Còn VideoTutor bao phủ cảnh huống học tập chủ động, chúng tôi không cần lo lắng về động lực học tập của học sinh vì họ buộc phải học và thi, ví dụ như kỳ thi đại học Mỹ SAT, AP. Trong bối cảnh này, tồn tại nhu cầu lớn về trực quan hóa, 80% nội dung thi đại học Mỹ liên quan đến hàm số, vi tích phân và các kiến thức đòi hỏi render hình ảnh phức tạp. Động cơ hoạt hình của VideoTutor có thể giải quyết tốt cảnh huống này.

Hơn nữa, giá trị đơn hàng trong lĩnh vực này rất cao. Mỗi năm tại Mỹ có khoảng 2,6 triệu học sinh tham gia kỳ thi SAT, nhu cầu chi trả rất lớn. Khóa học SAT ngoại tuyến rất đắt, không tính theo gói mà tính theo giờ, trung bình giá khởi điểm 150 USD/giờ, phần lớn dao động quanh mức 230 USD. Nhiều học sinh và phụ huynh sẵn sàng trả tiền để học. Nhưng VideoTutor có thể thay thế hoặc thậm chí vượt trội so với việc đào tạo của giáo viên, bởi vì video do AI tạo ra hiện nay gần như không khác biệt so với nội dung đào tạo của giáo viên. Như vậy, học sinh có thể sở hữu một gia sư AI cá nhân với chi phí thấp nhất.
Founder Park: Cơ duyên nào khiến các bạn quyết định làm sản phẩm này?
Kai: Thực tế trước đó, một nhóm từ Stanford đã từng làm, tên là Gatekeep Ai. Họ cũng muốn làm học trực quan. Lúc đó tôi đã nhận ra sức ảnh hưởng của định hướng này. Trong những lần khởi nghiệp trước, sản phẩm giáo dục mọi người làm chủ yếu là kết nối API GPT, tương tự như sản phẩm ChatGPT Wrapper. Nhưng chúng tôi nhận thấy, chỉ dựa vào hỏi đáp văn bản, các sản phẩm dạng này đã chạm trần. Có thể thấy, hoạt động kinh doanh của Chegg, Gauth đều đang suy giảm, phần lớn cảnh huống đã bị ChatGPT thay thế, vì học sinh chỉ cần trả 20 USD để dùng ChatGPT là đã giải quyết được nhiều bài tập.
Các sản phẩm tối ưu hóa dựa trên API đã đạt tới giới hạn.
Nhưng đa phương tiện trực quan có tiềm năng rất lớn, bởi vì trong lĩnh vực thi đại học Mỹ có rất nhiều cảnh huống học trực quan. Tiếc là Gatekeep dù khởi đầu tốt nhưng không tiếp tục, vì họ ra mắt hơi sớm, lúc đó mô hình nền tảng về khả năng lập trình chưa trưởng thành, GPT-4 cũng chưa ra mắt. Hơn nữa, động cơ hoạt hình toán học liên quan đến render và thuật toán, họ chưa khắc phục được. Nhưng đội ngũ chúng tôi nắm giữ toàn bộ phát triển cốt lõi của động cơ hoạt hình, giải quyết được vấn đề này, giúp render video cực kỳ chính xác.
02 PMF: Ý chí chi trả của người dùng rất mạnh
Founder Park: Sau khi sản phẩm ra mắt, các bạn cũng đã hợp tác với vài trường học. Theo các bạn, thời điểm hay tính năng nào khiến các bạn cảm thấy “sản phẩm này đúng rồi, đã tìm đúng điểm đau”, tức là cảm giác đã tìm được PMF?
Kai: Có thể nói theo ba chiều.
Thứ nhất, về mặt chỉ số doanh thu, đến nay VideoTutor đã nhận được 1.000 yêu cầu API từ doanh nghiệp, bao gồm tất cả các tổ chức giáo dục lớn nổi tiếng tại Mỹ, thậm chí cả tổ chức trong nước. Ngoài ra, còn nhiều trường học muốn mua dịch vụ. Người dùng C-end còn trực tiếp hơn, có một phụ huynh học sinh kiêm nhà đầu tư, sau khi trải nghiệm sản phẩm, đã đưa sản phẩm cho tất cả người thân và bạn bè dùng thử, tất cả đều sẵn sàng trả tiền. Sau đó anh ấy không biết lấy được số điện thoại của tôi từ đâu, nhắn tin muốn đầu tư vào chúng tôi. Người dùng C-end có ý chí chi trả cực kỳ mạnh mẽ.
Thứ hai, về mặt nhu cầu người dùng. Tại sao giáo viên dạy kèm một-một ngoại tuyến tại Mỹ lại cứng nhắc đến vậy? Bởi vì phụ huynh cảm thấy hiệu quả học tập một-một tốt, sẵn sàng trả tiền. Hiện nay công nghệ AI đa phương tiện đã có thể mô phỏng hiệu quả giảng dạy một-một như người thật, hỏi gì đáp nấy. Hơn nữa, video khóa học do giáo viên dạy kèm một-một ghi hình tại Mỹ thực chất cũng không khác gì video do AI tạo ra. Đây chính là điều tôi gọi là "di chuyển nhu cầu": học sinh bỏ tiền lớn mua khóa học ghi hình, trong khi sản phẩm do AI của tôi tạo ra không khác gì, vậy tại sao không dùng AI? Chi phí thấp hơn, hiệu quả giảng dạy tốt hơn.
Chúng tôi nhận được rất nhiều phản hồi tích cực từ học sinh, nhiều giáo viên cũng sẵn sàng lan truyền sản phẩm, tỷ lệ xem trọn vẹn và thời gian sử dụng ban đầu đều rất tốt. 200 người dùng hạt giống hiện tại của chúng tôi đều được tích lũy từ giai đoạn đầu.
Thứ ba, là cảm giác và trực giác về sản phẩm. Khi bạn liên tục làm, suy ngược lại từ tiến bộ của toàn ngành giáo dục, đến nhu cầu chi trả cốt lõi của học sinh và phụ huynh, đến sự phát triển của bản thân sản phẩm, logic tổng thể trở nên khép kín. Vì vậy xét theo ba chiều này, bạn sẽ cảm thấy PMF đã đủ. Cốt lõi nhất là ý chí chi trả cực kỳ mạnh mẽ.

Hợp tác với FIZZ
Founder Park: Rất nhiều người dùng chủ động muốn trả tiền, cũng có người chủ động liên hệ muốn đầu tư.
Kai: Đúng vậy. Trong lĩnh vực SAT, AP này, ý chí chi trả vốn đã rất mạnh. Giá trị đơn hàng trong lĩnh vực này thường từ 100-200 USD trở lên, học ngoại tuyến còn đắt hơn, có thể lên tới 800 USD. Mỹ có 2,6 triệu học sinh thi SAT, trong đó 37% học sinh sẵn sàng trả tiền, đây là thị trường có nhu cầu và ý chí chi trả rất mạnh. Sản phẩm của chúng tôi có thể thực hiện di chuyển nhu cầu rất tốt.
Founder Park: Trong lĩnh vực SAT, đối với thí sinh, liệu họ có tin tưởng AI hơn một giáo viên thật không?
Kai: Hiện nay AI trả lời các câu hỏi trình độ thi đại học Mỹ SAT, AP hầu như không xảy ra sai sót thực tế. Trong trường hợp này, tại sao nó lại tốt hơn gia sư ngoại tuyến? Một là rẻ hơn, hai là học sinh có thể đặt câu hỏi bất cứ lúc nào, không lo ngại việc hỏi câu ngốc sẽ bị thầy cô đánh giá hay mất kiên nhẫn, có thể học mọi lúc mọi nơi 24/7.
Hơn nữa, thị trường này có thể mở rộng, sau khi làm xong thị trường Mỹ, chúng tôi có thể mở rộng sang Canada, kỳ thi A-Level tại Anh,... nhu cầu chi trả rất lớn.
Founder Park: Về chi trả hiện tại các bạn đang cân nhắc như thế nào?
Kai: Chúng tôi theo mô hình đăng ký theo tháng, hoặc thanh toán theo kết quả học tập. Tôi nghĩ hiện nay AI đã có thể thực hiện thanh toán theo kết quả. Chúng tôi có thể ra mắt một gói, ví dụ bạn trả 799 USD, chúng tôi đảm bảo con bạn đạt điểm tuyệt đối môn Toán SAT.
Founder Park: Nhưng thanh toán theo kết quả thi, chẳng phải vẫn phụ thuộc vào tính chủ động của học sinh sao?
Kai: Điều này khó thực hiện trong kỳ thi đại học Trung Quốc, vì kỳ thi đại học có quá nhiều điểm kiểm tra, lên tới hàng ngàn. Nhưng kỳ thi đại học Mỹ SAT chỉ có 62 điểm kiểm tra, trong đó 50 điểm là thông thường, phần lớn học sinh không gặp vấn đề, 12 điểm còn lại cơ bản cũng nắm vững. Trừ khi trình độ tư duy của học sinh thực sự có vấn đề, nếu không hầu như không tồn tại tình trạng không thể học được. Hơn nữa hiệu quả nâng cao của AI rất rõ rệt.
Thực tế nhiều gia sư trực tuyến tại Mỹ cũng có dịch vụ này, bạn trả 1800 USD cho giáo viên, giáo viên hướng dẫn con bạn, tỷ lệ thành công gần như 100%, vì điểm kiểm tra SAT là cố định. Miễn là chỉ số thông minh học sinh bình thường, cơ bản đều ổn. Nhưng kỳ thi đại học Trung Quốc thì không, không thể cải thiện trong thời gian ngắn. Hơn nữa kỳ thi đại học Trung Quốc cần tạo khoảng cách điểm số, nên có câu hỏi khó, còn kỳ thi đại học Mỹ không có câu hỏi khó tuyệt đối, vì nó chủ yếu kiểm tra bạn có nắm vững kiến thức hay không.
Thanh toán theo kết quả cũng là mô hình giáo viên gia sư đã dùng trước đây, có điều kiện tiên quyết này.
Founder Park: Trong định giá của các bạn, chi phí mô hình có phải là vấn đề không? Tỷ trọng cao không?
Kai: Giá trị đơn hàng trong lĩnh vực này rất cao, khởi điểm 69 USD/tháng, chi phí mô hình hiện nay rất rẻ, không thành vấn đề. Ngành giáo dục không giống lĩnh vực lập trình, mọi người không cạnh tranh về giá, vì lập trình cần hỗ trợ ngữ cảnh dài.
03 Sản phẩm hướng đến học sinh trung học, web là quan trọng nhất
Founder Park: Nhớ lúc trước bạn nói phiên bản nguyên mẫu đầu tiên chỉ mất khoảng hơn hai tháng. Toàn bộ chu kỳ phát triển lúc đó, như phân công, quyết định làm tính năng nào, không làm tính năng nào, được cân nhắc như thế nào?
Kai: Tư tưởng thống nhất của toàn đội là phải nhanh chóng cập nhật, vì nhanh mới nhanh chóng nhận được phản hồi từ người dùng sơ kỳ.
Sau khi phát hành trên Twitter, phiên bản đầu tiên gây chấn động lớn, thu hút lượng lớn người dùng. Nhưng trong số người dùng này, nhiều người là lập trình viên, nhà đầu tư hoặc người yêu công nghệ, có thể gọi chung là "người đi đầu công nghệ". Giai đoạn đó, phản hồi từ họ khá phân tán, giá trị không cao. Vẫn cần lọc ra từ lượng người dùng rộng rãi này những người dùng hạt giống thực sự cốt lõi, tức là học sinh trung học chất lượng cao, sau đó thông qua tư vấn để thu thập phản hồi hữu ích.
Phản hồi cốt lõi chúng tôi nhận được là độ chính xác render video phải đạt 100%, đây là trọng tâm cần tối ưu hóa. Những tính năng như giao diện đẹp hay hỗ trợ lựa chọn giọng đọc TTS khác nhau đều bị cắt bỏ. Quay lại cốt lõi sản phẩm: chúng tôi làm học kiến thức trong cảnh huống khoa học tự nhiên, vậy độ chính xác render đồ họa là cốt lõi.
Founder Park: Thời lượng tạo video lúc đó được cân nhắc như thế nào?
Kai: Thời lượng đỉnh điểm cao nhất lúc đó khoảng 6 phút. Xét chủ yếu là giảng giải bài tập thông thường và kiến thức không nên vượt quá 6 phút. Nhưng trong phản hồi sau này, chúng tôi phát hiện một số học sinh năng lực học không tốt lắm, mong muốn nội dung giảng chậm hơn, sâu hơn. Chúng tôi nhận ra thời lượng không nên bị giới hạn, mà phụ thuộc nhiều hơn vào năng lực học của người dùng.
Founder Park: Hiện nay thời lượng tối đa có thể đạt bao lâu?
Kai: Tối đa nên dưới một giờ, có thể hỏi đến cùng tận đáy. Vừa trao đổi vừa tạo ra theo thời gian thực, tuy nhiên tính năng này mới ra mắt gần đây, phiên bản ban đầu chưa có.
Founder Park: Có tính năng nào lúc đầu muốn làm nhưng sau phát hiện không quan trọng nên tạm hoãn không?
Kai: Ví dụ như App. Lúc đầu nghĩ có nên nhanh chóng phát triển App không, nhưng sau phát hiện phần lớn học sinh Mỹ chủ yếu dùng Laptop hoặc iPad để học, hầu hết trường K12 tại Mỹ đều cấp cho học sinh một máy Chromebook, máy tính cực kỳ phổ biến, bài tập của họ cũng hoàn thành trên máy tính. Học sinh trung học phổ thông ai cũng có máy tính, điện thoại chiếm tỷ lệ dưới 5% trong cảnh huống học tập, rất thấp.
Founder Park: Vậy nếu là sản phẩm giáo dục hoặc hướng đến học sinh, web nên làm trước, App ngược lại không quan trọng bằng.
Kai: Đúng vậy, lúc đó thực ra đã biết dữ liệu này rồi, vì bản thân đã học ở Mỹ nhiều năm. Sau này chúng tôi khảo sát 100 học sinh từ vài vạn người dùng sơ kỳ, trong 100 học sinh này hơn 90 em có máy tính, càng khẳng định chắc chắn điều này.
Founder Park: Khi ra mắt phiên bản đầu tiên, các bạn đã tập trung vào đối tượng K12 chưa?
Kai: Đúng vậy, sau này cũng tập trung vào nhóm này. Chúng tôi không coi Gauth là đối thủ, chúng tôi chủ yếu làm cảnh huống đào tạo thi. Phần lớn học sinh trung học phổ thông Mỹ vốn đã chọn học ngoại tuyến hoặc nền tảng học trực tuyến, VideoTutor đã chuyển đổi tốt nhu cầu này.
Founder Park: K12 sẽ là nhóm người dùng cốt lõi ít nhất một năm tới của các bạn chứ?
Kai: Nên là chỉ số cốt lõi trong vòng hai năm tới.
04 Dùng mô hình lớn, nhưng không chỉ dựa vào mô hình lớn
Founder Park: Xin giới thiệu sơ lược phương án thực hiện công nghệ hiện tại của các bạn? VideoTutor thực sự làm tốt hơn nhiều so với các mô hình tạo video khác trong việc tạo khóa học, biểu đồ, thậm chí khi nhiều mô hình còn không thể tạo chữ chính xác, công nghệ các bạn thật sự gây ấn tượng.
James: Video chúng tôi tạo ra bao gồm cả chữ và hình ảnh. Quy trình sản xuất đại khái như sau: để mô hình ngôn ngữ lớn tạo văn bản và lệnh hoạt hình tương ứng, sau đó lệnh hoạt hình được render qua động cơ hoạt hình của chúng tôi, cuối cùng hiển thị trên video.
Phần chữ tương đối đơn giản, chúng tôi để mô hình ngôn ngữ lớn tạo văn bản, sau đó render trực tiếp lên. Nhưng phần hoạt hình do động cơ render hoạt hình toán học tự phát triển của chúng tôi tạo ra. Ưu điểm nằm ở độ chính xác render cực cao đối với hệ tọa độ, hình học,... đây chính là công nghệ cốt lõi của chúng tôi.
Mô hình ngôn ngữ lớn hiện nay chỉ xuất ra văn bản, agent mà chúng tôi xây dựng giống như đưa cho mô hình ngôn ngữ lớn một tờ giấy và một cây bút, để nó vẽ ra hình ảnh giảng dạy phù hợp với trí tưởng tượng. Phần được vẽ ra hoàn toàn là công nghệ của chúng tôi.
Founder Park: Toàn bộ quá trình tổng hợp cuối cùng của video, bao gồm âm thanh và hình ảnh, được xử lý như thế nào?
James: Ban đầu người dùng nhập prompt, ví dụ "Định lý Pythagore là gì?". Bước đầu, chúng tôi để mô hình ngôn ngữ lớn suy luận tất cả cảnh huống, thường quy định 3-5 cảnh, tùy theo độ khó của câu hỏi. Sau đó, mô hình sẽ tạo kịch bản sơ bộ cho mỗi cảnh. Tiếp theo, dựa trên kịch bản mỗi cảnh để suy luận lần hai, tạo văn bản chữ, hình ảnh tương ứng và văn bản giọng nói. Văn bản giọng nói sau đó được tổng hợp bằng TTS.
Cuối cùng, chúng tôi ghép tất cả các cảnh lại với nhau, tạo thành một video hoàn chỉnh.
Founder Park: Tôi hiểu phiên bản đầu tiên theo phương án này. Sau khi thêm quá trình tương tác theo thời gian thực, quy trình tạo có thay đổi không?
James: Thực sự có thay đổi. Hiện nay để người dùng nhanh chóng nhìn thấy nội dung, chúng tôi sẽ tạo cảnh đầu tiên trước để người dùng xem, các cảnh sau tiếp tục render ở nền. Khi người dùng đặt câu hỏi, chúng tôi sẽ chuyển giọng nói thành văn bản, sau đó gửi văn bản này cùng toàn bộ nội dung các cảnh trước cho mô hình ngôn ngữ lớn suy luận, để nó lập kế hoạch cảnh giảng dạy tiếp theo. Quy trình render cảnh sau tương tự như trước.
Founder Park: Nếu người dùng có câu hỏi sau một phút nghe, họ sẽ đặt câu hỏi trực tiếp. Sau khi nhận được câu hỏi, các bạn sẽ gửi câu hỏi người dùng và nội dung đã giảng cùng nhau cho mô hình xử lý. Trong quá trình này, sau khi người dùng đặt câu hỏi xong, hoạt hình tiếp tục chạy hay dừng lại?
James: Độ trễ của chúng tôi hiện nay đã giảm từ ban đầu 20-30 giây xuống dưới 5 giây. Về mặt tương tác, chúng tôi sẽ làm một số chuyển tiếp để người dùng không quá chú ý đến 5 giây này, quá trình kết nối rất mượt mà. Trong vòng 4-5 giây, người dùng đã có thể thấy nội dung hoàn toàn mới theo câu hỏi của mình.
Thiết kế hiện tại là, giáo viên AI sẽ nói: "Ừm, để tôi suy nghĩ một chút", sau đó lau bảng đen, mô phỏng giống giáo viên thật. Bạn cảm thấy giảng không đúng, vậy tôi lau đi viết lại cho bạn, quy trình này cảm giác rất tự nhiên.
Hơn nữa chúng tôi không chỉ bị động chờ người dùng đặt câu hỏi, giữa chừng cũng sẽ làm Quiz. Chúng tôi sẽ suy luận dựa trên phản hồi Quiz và câu hỏi người dùng. Và chúng tôi không dùng micro tự do hoàn toàn, mà cần người dùng chủ động bật micro, có thao tác bật và tắt.
Founder Park: Vậy dựa trên cơ chế này, thời lượng giảng tối đa có thể tạo khoảng một giờ.
James: Chính xác hơn là không giới hạn, nếu anh luôn có câu hỏi, có thể hỏi mãi.
Kai: Đúng vậy, không có giới hạn mặc định. Thực ra VideoTutor làm theo định hướng này cũng là theo sự tiến bộ của AI đa phương tiện, chúng tôi không tạo nhu cầu, mà đang thỏa mãn tốt hơn nhu cầu đã có. Bạn xem giáo dục người thật ngoại tuyến, tại sao phụ huynh Mỹ sẵn sàng trả tiền đắt? Vì ngành giáo dục Mỹ chủ yếu là dạy một-một, giá khởi điểm 100 USD/giờ. Là vì giáo viên ngoại tuyến có thể đặt câu hỏi định hướng, tôi quan sát được chỗ nào bạn không hiểu, sau đó tiếp tục hỏi bạn. VideoTutor cũng cố gắng đạt được hiệu quả giảng dạy như giáo viên thật, để mỗi đứa trẻ đều có thể tương tác thực thời, giảng dạy thực thời.
Founder Park: Khi học sinh học, có yêu cầu bật camera không?
Kai: Không nhiều. Việc học sinh có bật camera hay không chủ yếu phụ thuộc vào luật bảo vệ quyền riêng tư tại Mỹ. Sản phẩm không thiết kế chức năng bắt buộc bật, việc bật hay không phụ thuộc vào ý chí học sinh. Tương tác chủ yếu vẫn qua đặt câu hỏi và phản hồi giọng nói.
Founder Park: Về mặt công nghệ, các bạn áp dụng chiến lược phối hợp mô hình nhỏ và mô hình lớn đám mây, hay như thế nào?
Kai: Là phối hợp. Chúng tôi có một bộ dữ liệu nội bộ, hiện đã có hơn 100.000 dữ liệu video. Những dữ liệu tốt trong này sẽ được gắn thẻ lại bằng tay, sau đó dùng để huấn luyện mô hình tinh chỉnh. Ví dụ chúng tôi hiện có hơn 8.000 mẫu dữ liệu SAT để huấn luyện. Những mô hình nhỏ đã tinh chỉnh này sẽ phối hợp với các mô hình thương mại phổ thông đám mây như Claude, Gemini.
Founder Park: Dùng Claude, Gemini hay GPT có ảnh hưởng đến hiệu suất cốt lõi sản phẩm không?
Kai: Chúng tôi chủ yếu liên quan lĩnh vực K12, trình độ mô hình nền tảng đã đủ. Nhưng để đảm bảo 100% chính xác, chúng tôi sẽ gọi hai mô hình cùng đối chiếu, nếu hai mô hình trả lời giống nhau, cơ bản sẽ không sai. Trong lĩnh vực tạo mã, chủ yếu dùng Claude, khả năng mã hóa của nó tốt hơn.
Founder Park: Hiện nay điểm nghẽn kỹ thuật của sản phẩm nằm ở đâu? Là năng lực mô hình hay tạo mã?
Kai: Năng lực mô hình là một khâu. Còn có render, hiện đã khắc phục xuống dưới 5 giây, với việc triển khai GPU nhiều hơn có thể nhanh hơn nữa. Một điểm nữa là khả năng ghi nhớ dài hạn. Chúng tôi cần tích lũy dữ liệu hành vi học tập dài hạn của học sinh, biết học sinh này điểm kiến thức nào chưa hiểu, ví dụ kiến thức học cách đây một tháng quên rồi, có thể nhắc lại.
James: Chúng tôi thực sự nỗ lực rất nhiều về thời gian render, liên tục đột phá kỹ thuật, từ ban đầu 2 phút xuống 1 phút, đến hiện nay dưới 10 giây. Mục tiêu cuối cùng là hy vọng đạt được render gần như không trễ, người dùng hỏi, suy luận xong là kết quả ra ngay. Đây là khó khăn hiện tại đội ngũ chúng tôi đang giải quyết, nhưng đã tìm được hướng mới.
05 Không xem tỷ lệ xem trọn vẹn, chỉ xem điểm thi cuối cùng
Founder Park: Hiện nay đo lường chỉ số cốt lõi sản phẩm như thế nào? Làm sao xác định một video có hữu ích với người dùng hay không?
Kai: Chỉ số cốt lõi nhất là kỳ thi. Trong phiên bản mới, sau khi xem video, cuối video sẽ có một bài Quiz, làm đúng chứng tỏ bạn hiểu, làm sai chứng tỏ chưa giảng rõ.
Hiệu quả học tập không thể chỉ xem tỷ lệ xem trọn vẹn, có học sinh có thể hiểu sau khi xem nửa chừng. Khi xem nửa chừng, cho làm bài kiểm tra, nếu qua thì phần còn lại không cần xem nữa. Chỉ số cốt lõi sản phẩm của chúng tôi là có bao nhiêu học sinh tăng điểm tại đây.
Founder Park: Nhưng kỳ thi cuối cùng của họ diễn ra ở cảnh huống khác, làm sao các bạn biết được kết quả họ có qua hay không?
Kai: Đây chính là văn hóa sản phẩm tại Mỹ, người dùng sau khi dùng sản phẩm, đạt được kết quả tốt, sẽ tự nguyện chia sẻ. Nhiều học sinh sau khi dùng VideoTutor thi SAT xong, chủ động đến chia sẻ trải nghiệm dùng và điểm số. Chúng tôi còn để họ trở thành đại sứ trường học, lan truyền lần hai.
Chúng tôi có 20 đại sứ trường học là học sinh trung học. Thực tế Mercor thành công rất lớn từ đầu, dùng chính là mô hình "câu chuyện thành công người dùng" điển hình. Mercor ban đầu giúp nhiều lập trình viên Ấn Độ tìm được việc tại Mỹ, sau đó liên hệ những người dùng này, quay một user story kể về cách dùng Mercor tìm việc. Điều này tạo ra truyền miệng tốt. VideoTutor cũng vậy, chúng tôi cần nhiều học sinh dùng sản phẩm đạt hiệu quả rất tốt, sau đó làm câu chuyện của những học sinh này thành user story chia sẻ ra ngoài.
Founder Park: Kênh chia sẻ chính của học sinh là ở đâu?
Kai: Học sinh chủ yếu dùng TikTok, phụ huynh dùng nhóm Facebook.
Founder Park: Nếu đặt trong khung thời gian nửa năm hoặc một năm, cách thức tăng trưởng sản phẩm các bạn dự kiến là gì?
Kai: Tôi nghĩ bản chất, VideoTutor vẫn là sản phẩm người dùng C-end, truyền miệng rất quan trọng. Nhiều ứng dụng AI thành công ban đầu đều dựa vào truyền miệng người dùng hạt giống, ví dụ nhà thiết kế dùng thấy tốt, lan truyền ra. Với chúng tôi, chỉ số cốt lõi là có bao nhiêu thí sinh SAT dùng sản phẩm này đạt điểm cao, sau đó truyền cho trẻ khác và phụ huynh. Phụ huynh chủ yếu dùng Facebook và Instagram, học sinh dùng TikTok, chúng tôi sẽ lan truyền trên các nền tảng này. Khi tạo được tiếng vang như vậy, giáo viên trường học tự nhiên sẽ nhận ra. Chúng tôi được nhiều trường biết đến từ đầu là vì nhiều giáo viên dùng thấy tốt, giới thiệu cho người phụ trách mua sắm của trường. Vì vậy, cốt lõi nhất vẫn là truyền miệng người dùng C-end, có bao nhiêu trẻ dùng và tăng điểm là chỉ số then chốt.
Founder Park: Trạng thái và kế hoạch ra mắt phiên bản mới đại khái như thế nào?
Kai: Chúng tôi hy vọng có thể chính thức public release trong vòng hai tháng tới. Khi đó học sinh có thể đạt được hỏi gì đáp nấy với độ trễ rất thấp, đồng thời render đồ họa trong cảnh huống khoa học tự nhiên đạt độ chính xác 100%. Tất nhiên, tạm thời chúng tôi sẽ không bao phủ cảnh huống thi đấu hoặc kiến thức đại học phức tạp như đại số tuyến tính, chủ yếu vẫn là lĩnh vực K12.
Founder Park: Rào cản hoặc hào moat hiện tại của VideoTutor là gì?
Kai: Tôi nghĩ có vài điểm. Thứ nhất là vòng lặp dữ liệu. Phía sau video đều là mã nguồn, dữ liệu video tốt do người dùng tạo ra, sau khi gắn thẻ lại lần hai, có thể dùng để huấn luyện và tinh chỉnh lại mô hình. Dữ liệu càng nhiều, hiệu quả video càng tốt. Ngoài ra là dữ liệu hành vi học tập, chúng tôi biết điểm kiến thức nào của từng học sinh yếu, từ đó xây dựng vòng lặp dữ liệu, càng nhiều người dùng, sản phẩm càng hiểu học sinh. Thứ hai là lợi thế công nghệ dẫn đầu, ví dụ thuật toán động cơ hoạt hình. Mặc dù bản thân thuật toán không phải lợi thế cốt lõi nhất, nhưng với việc chúng tôi cập nhật nhanh, dữ liệu ngày càng nhiều, lợi thế sẽ càng rõ rệt.
Thứ ba là thương hiệu, VideoTutor đã trở thành thương hiệu hàng đầu trong lĩnh vực giáo dục AI trong cộng đồng phụ huynh Bắc Mỹ, sự tin tưởng của phụ huynh cũng là rào cản vô hình.
Founder Park: Ba đến năm năm nữa, bạn kỳ vọng VideoTutor sẽ phát triển thành sản phẩm như thế nào?
Kai: Chúng tôi hy vọng tương lai VideoTutor có thể trở thành giáo viên AI học kiến thức khoa học tự nhiên cho mỗi người. Chúng tôi chỉ làm khoa học tự nhiên. Tôi nghĩ tương lai nó sẽ vượt qua Duolingo. Duolingo là sản phẩm học ngôn ngữ cấp độ thế giới, nhưng trong cảnh huống STEM khoa học tự nhiên, trước đây chưa từng xuất hiện sản phẩm cấp độ thế giới, vì khoa học tự nhiên cần quá nhiều render đồ họa. Hiện nay công nghệ mô hình nền tảng đã sẵn sàng, nên tôi nghĩ cảnh huống khoa học tự nhiên sẽ诞生 sản phẩm "Duolingo" tiếp theo.
06 Tuyển dụng, đặc biệt muốn người từ các công ty lớn trong nước
Founder Park: Trước đây bạn có vài lần khởi nghiệp, đại khái làm gì?
Kai: Tôi hiện đang năm ba. Năm nhất đã cùng James khởi nghiệp làm sản phẩm giáo dục, nhận được đầu tư hạt giống 200.000 USD. Dù lần đó thất bại, nhưng học được kinh nghiệm quý báu: bạn không thể rơi vào cạnh tranh đồng nhất. Lúc đó sản phẩm App chúng tôi làm, trên thị trường có rất nhiều sản phẩm tương tự, từ đầu đã phải rơi vào cạnh tranh quảng cáo, rất khó thu phí.
Lần khởi nghiệp thứ hai, tôi tham gia đội khác với vai trò đồng sáng lập MathGPTPro, làm vài tháng. Giai đoạn đó, tôi học được cách xem chỉ số sản phẩm, làm sản phẩm, mở rộng người dùng. Cũng lúc đó, tôi rút ra kết luận: sản phẩm giáo dục giải đáp dạng văn bản đã đến giới hạn. Vì nó không khác gì ChatGPT, và hơn nữa cơ sở câu hỏi kiến thức cấu trúc hóa mà các bên như Zuoyebang đầu tư rất lớn để xây dựng trước đây, nay đã bị khả năng biên tập của mô hình lớn thay thế. Vì vậy lần khởi nghiệp thứ ba, tôi biết rõ xu hướng tất yếu là trực quan hóa.

Ảnh chụp chung của Zhao Kai với Sam Altman khi pitch tại Đại học Harvard
Founder Park: Hai trải nghiệm trước đây, ngoài việc giúp bạn nhận ra giới hạn của sản phẩm dạng văn bản, còn giúp gì cho việc làm VideoTutor hiện nay về đội ngũ hay khía cạnh khác?
Kai: Rất nhiều giúp đỡ.
Điểm đầu tiên, đánh giá tốt hơn định hướng và sản phẩm có tương lai hay không. Tôi sẽ đánh giá hướng phát triển sản phẩm bằng cách xem lưu lượng website, doanh thu đối thủ.
Điểm thứ hai, về xây dựng sản phẩm, có thể đánh giá tốt hơn nhịp độ phát triển sản phẩm, bao gồm thiết kế sản phẩm, kết nối frontend-backend, cần xem chỉ số nào.
Điểm thứ ba, năng lực quản lý đội ngũ và văn hóa tổ chức. Tôi xây dựng hệ thống quản lý hoàn chỉnh hơn, bao gồm phân công mỗi thành viên, thưởng và phát hành quyền chọn. Đồng thời học được cách gây quỹ. Vòng gây quỹ 10 triệu USD lần này, chúng tôi hoàn tất trong vòng chưa đầy 20 ngày.
Founder Park: Hiện nay đội ngũ các bạn có bao nhiêu người?
Kai: 6 người, mọi người sống chung với nhau.
Founder Park: Đội ngũ ban đầu được xây dựng như thế nào?
Kai: Tôi và James đã khởi nghiệp hai lần rồi. Chúng tôi đều tốt nghiệp cùng trường, năm nhất đã cùng làm một App. Năm hai, tôi cùng hai người khác khởi nghiệp, mọi người đều quen biết nhau. Khi nhận ra công nghệ này có thể mang lại tầm nhìn sản phẩm rất lớn, chúng tôi liên hệ để lập đội làm sản phẩm này. Trước đó đều là cựu sinh viên, bao gồm cả đối tác Nick cũng là bạn cùng phòng đại học của tôi.
Founder Park: Hiện nay các bạn cũng chuẩn bị mở rộng, muốn tuyển người như thế nào?
Kai: Chủ yếu tuyển backend, frontend, mô hình ngôn ngữ lớn và UI/UX, mong muốn có kinh nghiệm. Vì chúng tôi đã vượt qua giai đoạn thử sai, bước vào giai đoạn nhanh chóng xây dựng sản phẩm, cần người có kinh nghiệm giúp chúng tôi phát triển.
Founder Park: Cần kỹ sư, quản lý sản phẩm và người phụ trách tăng trưởng có kinh nghiệm, để đưa sản phẩm từ 1 lên 10, thậm chí từ 10 lên 100.
Kai: Đúng vậy, chính là giai đoạn này. Chúng tôi dự kiến mở rộng đội ngũ lên 9-10 người, cốt lõi vẫn ưu tiên tuyển kỹ sư.
Lần tuyển dụng này có thể ở trong nước, nên là hình thức kết hợp làm tại chỗ và từ xa.
Founder Park: Mong muốn người đó có hình mẫu như thế nào?
Kai: Chúng tôi mong muốn người đó từng trải qua các công ty lớn, ví dụ ByteDance, Meituan. Vì ByteDance là tổ chức văn hóa nhanh, cạnh tranh cao, coi trọng người trẻ. Người từng rèn luyện ở ByteDance có phương pháp và năng lực tốt, sau khi gia nhập chúng tôi có thể mang kinh nghiệm thành công vào, hòa nhập và học hỏi.
Muốn người từng đánh trận thật ở công ty lớn trong nước, có kinh nghiệm cập nhật nhanh. Chúng tôi đã qua giai đoạn khởi nghiệp sinh viên, không cần tuyển người mới, cần nhiều người có kinh nghiệm, nhưng không phải kiểu "lão làng ngành". Vì lão làng ngành có thể lo gia đình, không thể cạnh tranh cao độ. Nên tầng lớp ở giữa, trẻ tuổi và chịu cạnh tranh là tốt hơn.
Chúng tôi sẵn sàng đưa quyền chọn phong phú cho nhân tài xuất sắc. Dù chúng tôi gây quỹ 11 triệu USD, nhưng tại sao không tuyển kỹ sư ở Mỹ? Vì chúng tôi cảm thấy năng lực sản phẩm và kỹ thuật trong nước thực sự rất tốt. Làn sóng này 100% sẽ có đội ngũ người Hoa tạo ra sản phẩm vĩ đại, vươn ra quốc tế. Hiện nay nhiều ứng dụng AI đều do người Hoa tạo ra, năng lực kỹ thuật trong nước thực sự rất mạnh. Đây cũng là lợi thế của chúng tôi, tận dụng ưu thế giữa hai nước Trung-Mỹ.
Yêu cầu tuyển dụng chi tiết hiện tại của VideoTutor: https://videotutor.io/
07 Sinh viên Thung lũng Silicon, đều đang khởi nghiệp AI
Founder Park: Hiện nay đặc biệt ở Thung lũng Silicon, xu hướng khởi nghiệp sinh viên rất rõ rệt, bạn thấy trạng thái như thế nào?
Kai: Xem một sự thật, nói về loạt công ty định giá trăm triệu USD: Mercor chuyên AI tuyển dụng, đã hoàn tất gây quỹ mới hơn 300 triệu USD, định giá đã đạt trăm triệu USD; còn Cursor đã chắc chắn định giá 1 tỷ USD. Tương ứng còn có GPTZero, Pika,... đều là dự án khởi nghiệp sinh viên, đặc biệt người sáng lập Cursor và Mercor đều là sinh viên năm ba bỏ học.
Làn sóng khởi nghiệp thanh niên này đều có đặc điểm chung, đó là cạnh tranh khác biệt cao độ. Họ tập trung vào những lĩnh vực cực kỳ hẹp, không làm sản phẩm phổ thông. Ví dụ Mercor làm tuyển dụng AI, ban đầu chỉ tập trung vào tuyển dụng lập trình viên Ấn Độ.
Điểm thứ hai là môi trường. Môi trường vốn và đổi mới nền tảng toàn Thung lũng Silicon, như Stanford, YC, quỹ Peter Thiel, đều ủng hộ khởi nghiệp sinh viên ở giai đoạn sớm nhất, dù bạn có ý tưởng chín muồi hay không, đều sẵn sàng hỗ trợ, đồng thời cung cấp mạng lưới quan hệ mạnh mẽ.
Điểm thứ ba, tôi nghĩ là phẩm chất của những sinh viên này. Dù là chúng tôi, hay những sinh viên từ Thung lũng Silicon, đều có tinh thần mạo hiểm rất dũng cảm và năng lực học tập cực mạnh. Tinh thần dám xông pha này, nhiều sinh viên trong nước có thể chưa có. Vì ở Thung lũng Silicon, xung quanh có rất nhiều ví dụ thành công đồng trang lứa khích lệ bạn, môi trường vốn cũng sẵn sàng tin tưởng người trẻ.
Với tôi, lúc đó cũng so sánh chi phí và lợi ích. Nếu chọn học xong đại học rồi đi làm, chưa chắc đã trả được chi phí du học gia đình, cũng chưa chắc có lợi ích lớn. Nhưng nếu chọn khởi nghiệp, tôi có thể học điên cuồng ở độ tuổi trẻ nhất, cuộc đời tôi sẽ có vô hạn khả năng. Từ nhỏ tôi đã muốn sáng lập một công ty vĩ đại.
Founder Park: Tại sao thế hệ sinh viên ngày nay khởi nghiệp có thể tạo ra công ty trăm triệu USD, trong khi trước đây bán được một hai chục triệu USD đã là rất giỏi rồi? Liệu có yếu tố bong bóng hay trào lưu AI không?
Kai: Tôi nghĩ không hoàn toàn là bong bóng. Cursor có doanh thu thật 450 triệu USD, rất đáng tin cậy. Phía sau đó, phương pháp luận và insight nhận thức của thế hệ đội ngũ trẻ này rất then chốt. Nhìn các đội này, nền tảng đều khá xuất sắc, họ có năng lực học tập rất tốt.
Cursor ban đầu dựa vào các lập trình viên sinh viên xung quanh, những người này tiếp nhận AI cao, phản hồi rất mạnh. Người sáng lập bản thân cũng là kỹ sư thần đồng nhỏ, có thể thấu hiểu sâu sắc người dùng, năng lực cập nhật kỹ thuật mạnh, ban đầu chỉ bốn người đã làm nên sản phẩm. Sau khi họ cập nhật sản phẩm tốt, tạo ra tiếng vang người dùng, có doanh thu, nhà đầu tư sợ bỏ lỡ Mark Zuckerberg tiếp theo, nên vốn lại hỗ trợ.
Điều kiện nền tảng là, làn sóng AI này có nhiều công nghệ mới, người trẻ học nhanh, lại thực tế, đáng tin cậy, dám làm, nên có sự thấu hiểu người dùng cực độ và tốc độ cập nhật siêu nhanh, để đánh bại sản phẩm truyền thống. Ví dụ trước Cursor, GitHub Copilot cũng làm khá tốt, nhưng tại sao không đánh bại được nó? Chính là vì trải nghiệm người dùng và tốc độ thực thi.
Founder Park: Có thể nói, vì AI là công nghệ mới, nên nhận thức sản phẩm cũng cần góc nhìn mới?
Kai: Đúng vậy, thế hệ trẻ này so với thế hệ founder trước có insight nhận thức sâu hơn, gần người dùng hơn. Người dùng AI chủ lưu hiện nay đều là thế hệ 00, tốc độ học tập và phản hồi, mức độ bao dung của họ đều nhanh hơn thế hệ founder trước.
Vì vậy, tốc độ cập nhật nhận thức là cốt lõi. Thời đại Internet di động, công nghệ cập nhật theo năm hoặc quý, nhưng thời đại AI, công nghệ cập nhật có thể theo ngày. Với tư cách founder, bạn phải học nhanh, người trẻ có thể thức khuya hơn, có tinh thần chiến đấu hơn.
Founder Park: Trước đây có truyền thông nói các founder Thung lũng Silicon cũng bắt đầu 996, các bạn nghĩ sao?
Kai: Một số bạn khởi nghiệp da trắng tôi quen, gây quỹ nhiều tiền, cũng 996. Họ cũng như chúng tôi, thuê một căn nhà lớn, mọi người sống và làm việc cùng nhau. Tôi nghĩ 996 phần lớn do hoàn cảnh ép buộc, hiện nay Thung lũng Silicon giống như thời kỳ sốt vàng, mọi người đều không muốn tụt hậu, chỉ có thể so tốc độ cập nhật sản phẩm, phải thức đêm cập nhật nhanh. Đây là môi trường tạo ra, thúc ép người ta phải làm như vậy.
Founder Park: Sinh viên khởi nghiệp Thung lũng Silicon, trong lựa chọn lĩnh vực có xu hướng gì?
Kai: Tôi nghĩ dù chúng tôi làm giáo dục hay người khác, đều có xu hướng chung là khởi nghiệp trong vùng thoải mái của bản thân. Vùng thoải mái nghĩa là bạn hiểu rõ lĩnh vực và người dùng này. Người sáng lập Cursor rất hiểu coding, chúng tôi làm giáo dục cũng vì hiểu rõ nhóm người này. Người trẻ hiện nay nhiều hơn khởi nghiệp trong vùng nhận thức thoải mái đã có, không còn liều lĩnh nhảy sang lĩnh vực không hiểu. Vì như vậy phản hồi người dùng mới đủ nhanh, đủ chính xác.
Còn có tích lũy nhận thức. Chúng tôi ba lần đều làm giáo dục, nhận thức của tôi liên tục tích lũy. Nhóm sinh viên này ít khi liều lĩnh làm việc chưa từng làm, đều nghĩ làm sao làm tốt hơn. Họ có tư duy thế hệ mới, liên tục cập nhật trong vùng nhận thức của mình, dám tạo cơ hội.
Một điểm nữa là tinh thần dám xông pha, không dễ dàng phủ định bản thân vì người khác phủ định, có thái độ "Tôi không quan tâm bạn nghĩ gì về tôi", cực kỳ tự tin. Phía sau là văn hóa "thử nghiệm nhanh", tôi biết sản phẩm chưa sẵn sàng, nhưng không quan tâm, nhanh chóng ra mắt, cập nhật nhanh, phản hồi nhanh.
Founder Park: Trào lưu này bắt đầu từ khi nào đại khái?
Kai: Tôi nghĩ là thành công mang tính đồng thuận. Khi mọi người thấy các dự án như GPTZero, từ ký túc xá phát triển, liên tục cập nhật, sau đó nhận được sự hỗ trợ vốn và công nhận người dùng, càng nhiều ví dụ thành công thử sai nhanh, bùng nổ nhanh, hình thành đồng thuận.
Một câu, "Làm tốt hơn là hoàn hảo", hoàn thành quan trọng hơn hoàn hảo. Hơn nữa mọi người cũng không quá lo cạnh tranh, nhiều founder Thung lũng Silicon sẵn sàng nói ra triết lý sản phẩm của mình, không sợ bạn sao chép, tôi chỉ cần cập nhật nhanh là được. Tôi nghĩ thế hệ trẻ này còn có khả năng kể chuyện rất tốt, kể chuyện ở đây không phải là nói suông, mà là trên cơ sở thực tế chân thật, thêm vào viễn cảnh tương lai của bản thân.
Founder Park: Trước tiên tự marketing bản thân.
Kai: Đúng vậy. Tôi nghĩ quan niệm nền tảng nằm ở tinh thần mạo hiểm và tự tin cực độ. Dưới động lực này, họ liên tục dám thử sai, không sợ nói sai. Táo bạo nói triết lý sản phẩm của mình, táo bạo thực thi, sai thì sửa lại. Văn hóa không sợ thử sai này thúc đẩy làn sóng khởi nghiệp và thành công của sinh viên đại học này.
Các VC bên Mỹ cũng đều xem dự án sinh viên, YC mỗi kỳ đều cố định đầu tư một số dự án sinh viên.
08 Gây quỹ là điều VideoTutor hiện nay không cần lo lắng nhất
Founder Park: Nếu quay lại lúc mới làm VideoTutor, bạn sẽ khuyên bản thân điều gì? Có điểm nào có thể làm tốt hơn?
Kai: Tôi nghĩ nên nhanh hơn một chút. Còn có thành phần đội ngũ. Đội ngũ VideoTutor là qua nhiều lần điều chỉnh. Nếu biết trước, tôi sẽ sớm hơn theo hình mẫu kỹ năng cần thiết của sản phẩm để xây dựng đội ngũ tốt hơn. Tôi nghĩ khởi nghiệp cuối cùng quay về, năng lực tổ chức rất then chốt. Tôi sẽ dành nhiều thời gian hơn cho năng lực tổ chức: chọn người, nhận biết người, dùng người tốt.
Đội ngũ hiện tại phù hợp với tăng trưởng từ 0 đến 1, nhưng để làm VideoTutor lớn hơn, vẫn cần người có kinh nghiệm làm việc gia nhập, mang kinh nghiệm và năng lực xuất sắc vào đội ngũ, giúp toàn đội ngũ cùng phát triển.
Founder Park: Trong nửa năm tới, bạn nghĩ VideoTutor có thể gặp khó khăn sản phẩm hay kỹ thuật nào?
Kai: Tôi nghĩ một là render, cần giảm xuống trễ thực sự bằng 0, vẫn cần đột phá kỹ thuật. Điểm thứ hai là tăng trưởng, tôi nghĩ là gu sản phẩm, phía sau bao gồm nhiều thứ, như UI, thiết kế tương tác có mượt mà hoàn hảo không, chức năng tương tác có lỗi không, bố cục thị giác có đẹp không,... đều là thử thách với chúng tôi.
James: Tôi nghĩ ban đầu chúng tôi định vị VideoTutor là trợ giảng trực quan hóa cho tất cả môn học, nhưng sau đó làm rất chuyên sâu, chỉ tập trung vào lĩnh vực toán học, vì đó là lĩnh vực chúng tôi giỏi nhất. Động cơ render toán học của chúng tôi là chuyên nghiệp nhất. Trọng tâm tiếp theo có thể là mở rộng ngang. Ví dụ, làm sao đưa lợi thế trực quan hóa vào cảnh huống môn xã hội? Ví dụ giải thích "Cày buổi trưa nắng, mồ hôi rơi xuống đất". Đây là điểm chúng tôi cần cân nhắc về kỹ thuật tiếp theo.
Founder Park: Liệu có khó khăn về mở rộng sau này do nền tảng người sáng lập không?
Kai: Không nhiều. Thực tế có nhiều VC lớn từng tìm chúng tôi, như a16z, những bên này không ra tay quá sớm, mà đợi đội ngũ có dấu hiệu thành công mới hỗ trợ, như vậy họ biết đầu tư sẽ không thất bại. Chúng tôi duy trì mối quan hệ rất tốt với nhiều VC lớn.
Gây quỹ là điều VideoTutor không cần lo lắng nhất, điều cần lo lắng nhất vẫn là xoay quanh hệ sinh thái người dùng và sản phẩm.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














