
Thí nghiệm AI của Lý Chí Phi: 1 người, 2 ngày tạo ra "Phi Thư" thời đại AI, lấy lại niềm tin AGI
Tuyển chọn TechFlowTuyển chọn TechFlow

Thí nghiệm AI của Lý Chí Phi: 1 người, 2 ngày tạo ra "Phi Thư" thời đại AI, lấy lại niềm tin AGI
Thực tiễn của một CEO công ty niêm yết đã dàn dựng trước mô hình làm việc trong tương lai.
Tác giả: Tô Tử Hoa

Là người sáng lập và CEO của Mobvoi – một công ty đã niêm yết, Lý Chí Phi không trực tiếp trình bày sản phẩm tại buổi ra mắt gần đây nhất, mà thay vào đó chia sẻ một “nghệ thuật hành động” cá nhân – một thử nghiệm về mô hình “công ty một người”.
Ông đặt ra cho bản thân một mục tiêu dường như phi thực tế: trong vài ngày, sử dụng các công cụ AI để phát triển một nền tảng kiểu “Feishu” dành riêng cho các tổ chức do AI điều hành.
Là một người tiên phong trong làn sóng AI trước đó, ông luôn đi đầu trong mọi thời điểm. Năm 2012, ông rời vị trí nhà khoa học tại Google để trở về Trung Quốc sáng lập Mobvoi với khát vọng “định nghĩa lại giao diện người-máy bằng AI và giọng nói”, từ trợ lý giọng nói, thiết bị thông minh đến AIGC. Khi làn sóng AGI mới nổi lên, ban đầu ông rất hào hứng và tích cực tham gia, nhưng nhanh chóng nhận ra rằng đây dường như là cuộc chơi của những gã khổng lồ, còn các công ty nhỏ và vừa khó có thể tạo ra giá trị lớn, khiến ông từng cảm thấy mơ hồ, thậm chí thất vọng.
Tuy nhiên, thông qua việc sử dụng các công cụ lập trình AI, ông tự biến mình thành một “công ty một người” để trải nghiệm và thực hành. Trong quá trình này, ông gặp nhiều vấn đề thực tế, nhưng chính những chi tiết và trải nghiệm đó lại giúp ông tìm lại được niềm tin vào AGI.
Ông bỗng nhận ra rằng, mọi “ma sát” trong thế giới trước đây, mọi rào cản khi xây dựng các hệ thống phức tạp, dường như đều đã biến mất.
Cảm giác tự do tràn ngập khi cùng AI lao về phía trước, cùng sự xúc động khi nhìn thấy hy vọng – tất cả hiện rõ trên khuôn mặt ông trong bài phát biểu trực tiếp.
Dưới đây là nội dung bài phát biểu của Lý Chí Phi tại buổi ra mắt sản phẩm, đã được biên tập bởi GeekPark để thuận tiện cho việc đọc:
Gần đây tôi dành rất nhiều thời gian cho lĩnh vực AI và trực tiếp thực hiện nhiều dự án cụ thể. Vì vậy, tôi đã có những nhận thức và cảm nhận mới về mô hình lớn và AGI. Hôm nay, tôi muốn chia sẻ với các bạn một số câu hỏi mà tôi đang suy nghĩ suốt thời gian qua, cũng như một số cảm xúc của bản thân.
Trước hết, chúng ta nên làm AI như thế nào?
Tôi có một khẩu quyết: “Dùng AI của AI để làm AI”.
Nghe có vẻ hơi rối, nhưng đơn giản thì, “AI” đầu tiên ở đây chỉ mô hình lớn; “AI” thứ hai chỉ Coding Agent – bản thân nó cũng có thể được tạo ra bởi AI hoặc chủ yếu sở hữu năng lực từ AI; “AI” cuối cùng là ứng dụng mà chúng ta muốn xây dựng.
Tôi cho rằng đây có thể trở thành một phạm式 phát triển phần mềm mới, tôi sẽ trình bày kỹ hơn sau.

Mô hình phát triển phần mềm mới | Nguồn ảnh: Mobvoi
Một người, 2 ngày, tạo ra “Feishu” thời đại AI
Gần đây tôi nảy ra một ý tưởng táo bạo: xây dựng một nền tảng cộng tác kiểu “Feishu” hoàn toàn mới dành cho các tổ chức thuần AI.
Thung lũng Silicon ở Mỹ có rất nhiều kỳ lân khởi nghiệp chỉ với một hoặc hai người, định giá hàng trăm triệu USD, đồng thời cũng có nhiều tin tức nói rằng AI sẽ thay thế hàng loạt công việc.
Vì vậy, tôi bắt đầu suy nghĩ: nếu là một tổ chức doanh nghiệp, những công cụ như Feishu, DingTalk hay WeChat doanh nghiệp mà chúng ta thường xuyên sử dụng ở Trung Quốc – nếu không có chúng, tôi gần như không thể làm việc.
Trong các doanh nghiệp truyền thống lấy “con người” làm trung tâm, chúng ta phụ thuộc rất lớn vào các công cụ như Feishu, DingTalk, WeChat doanh nghiệp – nơi đảm bảo luồng thông tin nhanh chóng và hợp tác hiệu quả.
Trong doanh nghiệp truyền thống, nguồn lực lao động chính hoặc các vai trò chiếm tới gần 100% là con người. Do đó, mọi luồng thông tin và hợp tác đều xoay quanh con người.
Nhưng khi trong một tổ chức, 10 vai trò thì có tới 8 do AI đảm nhiệm, chỉ còn lại 2 người thật, thì các công cụ cộng tác hiện tại sẽ không còn phù hợp.
Vậy, các tổ chức kiểu mới này sẽ dùng công cụ gì?
Vì vậy, tôi mong muốn phát triển một sản phẩm cho phép các Agent AI, cũng như giữa AI và con người, có thể trao đổi nhóm, nhắn tin riêng, hỏi đáp cơ sở tri thức và cộng tác nhiệm vụ một cách liền mạch. Tôi cũng hy vọng qua dự án này, kiểm chứng xem bản thân có thể trở thành một “cá thể siêu cấp” hay “kỳ lân cá nhân” thực sự hay không.
Tiếp theo là cách thực hiện.
Thông thường, việc phát triển các phần mềm như Feishu hay DingTalk là cực kỳ phức tạp. Trước đây, để làm sản phẩm như vậy, cần có đội ngũ gồm nhiều vai trò: quản lý sản phẩm, thiết kế, lập trình front-end, back-end, kiểm thử, kỹ sư thuật toán… Mỗi vai trò có thể còn có trưởng nhóm riêng, như trưởng nhóm front-end, trưởng nhóm thuật toán, trưởng nhóm sản phẩm. Chỉ cần lập một nhóm chat thôi cũng nhanh chóng có 20 người. 20 người này chưa chắc đã toàn thời gian cho dự án, nhưng họ có thể mất một tháng mới tạo ra được bản mẫu.
Trong thời đại AI, điều này quá chậm.
Khi tôi làm xong, có lẽ các nhóm khởi nghiệp liên quan đã trở thành kỳ lân AI rồi.
Vì vậy, tôi quyết định bỏ mô hình cũ, tự mình hành động, và thử hoàn toàn dựa vào AI để hoàn thành công việc. Đúng dịp trước Tết Đoan Ngọ, tôi quyết định đắm mình vào công việc này. Lúc đó có ba ngày nghỉ, tôi nghĩ liệu có thể tận dụng ba ngày đó để làm xong. Bởi vì chỉ như vậy mới không ai làm phiền.
Và thế là tôi bắt đầu.
Tôi một mình, liên tục hai ngày, mỗi ngày làm việc đến khoảng 1 giờ sáng, cuối cùng hoàn thành bản mẫu sản phẩm vào lúc 11 giờ 30 tối ngày 1 tháng 6. Nó có đầy đủ các chức năng cốt lõi như đăng nhập, nhắn tin riêng, trao đổi nhóm, tải tệp lên, chuyển tiếp và phản hồi tin nhắn.
Sau khi đăng nhập, bạn có thể chọn trò chuyện riêng và gửi tin nhắn. Ví dụ, ta có thể hỏi vai trò "quản lý sản phẩm" có biết diễn hài độc thoại không, nếu anh ấy không biết, ta có thể điều chỉnh động vai trò, thêm một kỹ năng, AI sẽ tự động tạo lại Prompt.
Sau đó hỏi lại, anh ấy đã biết. Bạn cũng có thể tải tệp lên (mặc dù lúc đó nội dung tệp chưa được đọc thực sự), chuyển tiếp và phản hồi tin nhắn cụ thể.Hãy nhớ rằng, phía sau là một AI, chứ không phải người thật. Nó có thể trả lời và chuyển tiếp theo tin nhắn bạn gửi.
Khi chuyển tiếp, mọi người có thể thấy hiệu ứng hiển thị khá phức tạp, tương tự WeChat, vì trong tin chuyển tiếp chứa thông tin khác. Đây là một phòng trao đổi nhóm, cũng có thể @ một người cụ thể. Tương tự, có thể chuyển tiếp, phản hồi, thêm tệp đính kèm, thậm chí chuyển sang tiếng Trung.
Mời mọi người vỗ tay nào, chỉ trong 2 ngày!
Trong 2 ngày, tôi đã hoàn thành một hệ thống có cơ sở dữ liệu, giao diện trước, hệ thống sau, và cả thuật toán AI. AI phía trước kia có thể tự động trả lời, khi bạn sửa trang cấu hình vai trò, Prompt của nó sẽ tự động tạo lại, kỹ năng cũng lập tức hiển thị.
Thành thật mà nói, ban đầu tôi làm nửa ngày thì gần như muốn bỏ cuộc, vì vấn đề cơ sở dữ liệu không giải quyết được, liên tục xuất hiện lỗi Key, hiện tại lập trình bằng AI đúng là có vấn đề này. Nhưng cuối cùng tôi vẫn hoàn thành trong hai ngày.
Sau đó, tôi suy nghĩ cách quảng bá sản phẩm này.
Trước đây, công ty tôi sẽ có kỹ sư chuyên trách làm website, bộ phận marketing sẽ có cả nhóm người xác định điểm nổi bật sản phẩm, có thể mất cả tuần với năm sáu người mới làm xong một website.
Nhưng lần này tôi quyết định dùng phương pháp thuần AI. Vì AI biết toàn bộ mã nguồn, hiểu mọi suy nghĩ và chức năng sản phẩm của tôi, nên tôi bảo AI làm luôn một website.

Trang web chính thức của sản phẩm do AI tạo ra | Nguồn: Mobvoi
Vì vậy, tôi bảo AI xây dựng trong vòng 5 phút một website có điểm nổi bật và tính năng độc đáo, lại mất thêm 5 phút để tạo các vị trí quảng cáo có thể cấu hình cho chiến dịch marketing. Việc này trước đây có thể cần cả nhóm kỹ sư và marketing làm việc một tuần.
Trước đây, khi làm xong một vị trí marketing trên website công ty, nếu lễ Giáng sinh qua rồi cần gỡ xuống, hay muốn thay nội dung mới, lại phải gọi kỹ sư loay hoay cả buổi. Tôi liền nghĩ, liệu có thể làm một website mà vị trí marketing có thể cấu hình được không?
Lại mất 5 phút, AI làm được một website có vị trí marketing có thể cấu hình. Điều này có nghĩa nhân viên marketing có thể đăng nhập website, tải ảnh hoặc nội dung lên, rồi trực tiếp sửa phần tương ứng trên trang chủ.
Xong việc này, tôi nghĩ vì đây là sản phẩm hoàn toàn mới, có một số khái niệm mới, hoặc độ phức tạp nhất định. Liệu tôi có thể làm video để giải thích chức năng website, dù là video marketing, hướng dẫn sử dụng hay giới thiệu sản phẩm.
Nhưng đúng dịp Tết Đoan Ngọ, nhân viên tôi sẽ không thèm nghe tôi. Nên tôi đành tự làm. Vì vậy, tôi viết thêm một chương trình nữa, tự động tạo toàn bộ kịch bản, bao gồm cách giới thiệu website, quy trình thao tác giao diện UI, rồi tự động quay màn hình và lồng tiếng.
Mặc dù âm thanh còn chút lỗi nhỏ về đồng bộ, nhưng toàn bộ video hoàn toàn do AI thực hiện. Tôi chỉ cần ra lệnh, nó tự động thao tác, cuối cùng đưa video hoàn chỉnh ra trước mắt tôi.
Điều này khiến tôi rất tự hào, chỉ trong vài ngày đã làm ra được thứ này.
Sau đó tôi muốn xem người khác sẽ phản ứng thế nào. Tôi tải mã nguồn lên GitHub để đồng nghiệp tải về. Nhưng hãy nhớ, chúng tôi là hai cá thể riêng biệt, GitHub không biết tôi đã giao tiếp với AI ra sao để hoàn thành việc này.
Vì vậy, đồng nghiệp của tôi cuối cùng chỉ nhìn thấy mã nguồn, và chạy nó trên máy cục bộ.
Khi đồng nghiệp tải mã tôi up lên GitHub và chạy, họ sốc trước độ phức tạp và tốc độ hoàn thành. Họ nghĩ cần hàng chục người làm vài tháng mới xong, nhưng khi tôi nói đây là nhờ hỗ trợ AI, một kỹ sư làm trong hai ngày, phản ứng của họ là: «This is absolutely insane.» (Chuyện này điên thật.)
Họ ngạc nhiên trước hơn 40.000 dòng mã, vượt xa mức sản lượng 300 dòng mã thuật toán mỗi ngày tôi từng viết ở Google trước đây.
Trước ở Google, mỗi ngày viết 300 dòng mã thuật toán (không phải loại đơn giản) đã là cao rồi. Gần đây tôi viết một Agent tổng quát, trong 3 tiếng, tức một đêm, viết cho tôi 3.000 dòng mã Python. Nghĩa là trong 3 tiếng đó, chất lượng mã còn tốt hơn tôi viết, và hoàn toàn là logic back-end không có UI.
Nói cách khác, năng lực viết mã trong 3 tiếng của nó tương đương khối lượng công việc 10 ngày làm việc trước đây của tôi. Đó là tỷ lệ như vậy.
Vì vậy tôi nghĩ, một người có thể hoàn thành cả Google Translate. Trước đây Google Translate do 20 tiến sĩ giỏi nhất thế giới viết mã, mất rất lâu. Bây giờ, một mình tôi có thể làm công việc của 20 người đó. Dù Google Translate ngày xưa vẫn là hệ thống phức tạp và tuyệt vời. Vì vậy, theo góc nhìn này, mọi thứ đã hoàn toàn khác xưa.
Tôi cho rằng, then chốt cuối cùng của AI nằm ở việc bạn có thể xây dựng một hệ thống AI tự tiến hóa.

Những trải nghiệm thực tiễn của Lý Chí Phi | Nguồn ảnh: Mobvoi
Để thuận tiện kiểm thử ứng dụng tổ chức AI này, tôi tự động viết thêm mã: bên trái là mã website, bên phải là một khung kiểm thử. Sau đó, nó tự vận hành như chân trái đạp chân phải bay lên. Các bạn có thể nghĩ đây là động cơ vĩnh cửu, đúng là có khả năng đó. Tất nhiên, đôi khi nó cũng chân trái đá chân phải rơi xuống, tức chuỗi phản hồi tiêu cực, cũng có thể là chuỗi tích cực.
Để đạt mục tiêu này, ngoài kỹ sư, mọi người không phải kỹ sư cũng có thể trực tiếp sửa mã của tôi. Tôi làm thêm nhiều loại Agent khác nhau.
Tất nhiên, phần lớn vẫn là Prompt, tôi chỉ kiểm chứng tính khả thi, chưa đạt đến mức triển khai thật sự hay sản phẩm hóa.
Nhưng tôi cho rằng, điều này chứng minh được ý tưởng, hoặc ít nhất minh họa cho đội nhóm xem tôi muốn gì, trước đây có thể mất rất nhiều thời gian mới hiểu được. Bây giờ bạn chỉ cần làm một bản Demo cho họ xem là được. Vì vậy tôi cho rằng, ngay cả một CEO, nếu có năng lực này, năng suất của bạn thực sự tăng gấp 100 lần.
Những vấp ngã đã trải qua
Phía trên là trải nghiệm của tôi, tiếp theo tôi sẽ chia sẻ một chút lý luận trừu tượng, hy vọng các bạn đừng ngủ, vì điều này thực sự rất độc đáo.
Tôi muốn chia sẻ một vài vấn đề gặp phải khi dùng lập trình AI.
Vấn đề đầu tiên là mỗi Agent, dù tôi không viết Agent, vẫn cần sự tham gia của con người.
Nghĩa là tôi vẫn phải nói “tôi muốn viết một Agent như thế này”, dù bạn có thể tham khảo khung Agent tổng quát bên cạnh tôi, sửa một chút rồi báo lại. Nhưng tôi vẫn phải làm việc này. Đôi khi nó luôn quên nguyên tắc của tôi, tôi lại phải nhắc: “lại quên nguyên tắc rồi”, hoặc “trí tuệ thực sự nên đặt ở đâu?”. Vẫn tồn tại những vấn đề này.
Thứ hai, nếu bạn dùng nó, nó luôn thích cắt xén công đoạn.
Ví dụ bạn bảo nó làm việc gì đó, rõ ràng cần liên quan đến cơ sở dữ liệu back-end, nhưng nó không làm. Xong việc nó viết báo cáo dài để khoe thành tích, nói đã xong. Tôi thường chẳng buồn đọc, chỉ nói: “Anh đã viết cơ sở dữ liệu rồi à?”. Nó lập tức xin lỗi rồi bắt đầu hành động. Ví dụ khi tôi yêu cầu làm AI, nó thường thậm chí không gọi AI từ xa, mà tự viết mấy cái Fallback hoặc đồ giả.
Bởi vì tôi thấy nó chạy nhanh quá, biết chắc có vấn đề. Tôi hỏi: “Anh thực sự có gọi AI từ xa không?”. Nó lại xin lỗi rồi xử lý. Cứ mỗi lần như vậy, nó vẫn thích cắt xén, sai lặp lại không kể xiết, tôi không liệt kê nữa.
Ngoài ra, tôi cho rằng AGI hiện tại thực tế không làm được nhiệm vụ quá dài. Mà nhiệm vụ của tôi bây giờ thường vượt quá nửa tiếng.
Mỗi ngày tôi tiêu tốn 50 đô la tiền token. Chỉ cần hôm đó tôi muốn làm việc, cả ngày nó đều đang tiêu tốn token. Tôi thực sự cảm thấy, tôi hoàn toàn có thể nói với nó: “Tôi có vài ý tưởng, đây là định hướng ý tưởng của tôi, hãy giúp tôi hoàn thành một nhiệm vụ kéo dài 10 ngày, kiếm 5 triệu đô la”.
Tôi cho rằng điều này không phải thần thoại, chỉ là tôi dường như không đủ hấp dẫn để làm, hoặc vì điều này có thể tiêu tốn nhiều cảm xúc và năng lượng, khi không kiếm được tiền sẽ rất đau khổ.
Nhưng tôi cứ nghĩ, liệu nó có thể làm việc liên tục 10 ngày, bạn không cần can thiệp, hoặc thỉnh thoảng nhắc nhẹ định hướng, liệu nó có thể làm việc một tháng, thậm chí một năm không?
Tôi cho rằng trong tương lai gần, đạt được thành quả ở cấp độ giải Nobel hay giải Fields là hoàn toàn khả thi.
Bởi vì khi tôi trao đổi với nó, đôi khi thảo luận những thuật toán siêu phức tạp mà chúng tôi từng học, có thể trên toàn thế giới chẳng mấy ai nghiên cứu, mà nó nói còn hay hơn nhiều người. Vì vậy, nếu bạn cung cấp đủ ngữ cảnh và mã nguồn, nó thực sự có thể giao tiếp sâu sắc.
Quay về bản chất: Thế nào là Agent tổng quát và trí tuệ
Tiếp theo, tôi muốn chia sẻ suy nghĩ của mình về trí tuệ và Agent.
Đơn giản, một AI Agent gồm hai phần cốt lõi: Bộ lập kế hoạch (Planner) và Bộ thực thi (Executor).

Cấu trúc AI Agent | Nguồn ảnh: Mobvoi, tương tự dưới đây
Bộ lập kế hoạch thường dựa vào mô hình ngôn ngữ lớn, đảm nhiệm chức năng chính của Agent. Nó lập kế hoạch chi tiết theo nhiệm vụ. Bộ thực thi chịu trách nhiệm thực hiện các kế hoạch này, dù là viết mã hay tự động hóa thao tác trình duyệt để làm video.
Hoạt động của Agent là một vòng phản hồi liên tục:
-
Lập kế hoạch: Agent lập kế hoạch hành động cụ thể theo nhiệm vụ.
-
Thực thi: Bộ thực thi thao tác theo kế hoạch.
-
Nhận phản hồi: Trong quá trình thực thi, Agent nhận phản hồi tức thì từ môi trường. Ví dụ, khi Agent thử chạy lệnh «python» nhưng thực tế trên máy là «python 3», hệ thống sẽ báo lỗi, Agent nhận diện và sửa thành lệnh đúng.
-
Điều chỉnh và lặp lại: Agent tái lập kế hoạch theo phản hồi, cập nhật hiểu biết về tình huống hiện tại (ngữ cảnh), sau đó thực thi lại.
-
Đạt mục tiêu: Khi tiêu chuẩn thành công đã định đạt được (ví dụ chương trình biên dịch thành công hoặc kiểm thử hoàn tất), vòng lặp kết thúc.
Nếu chúng ta suy ngẫm về bản chất trí tuệ, tôi cho rằng bản chất đầu tiên của trí tuệ là tiến hóa.
Cũng như con người là một thể trí tuệ, trong môi trường cụ thể (dù xã hội hay thực hiện nhiệm vụ), thông qua việc nhận phản hồi để không ngừng điều chỉnh hành vi và tự phản tỉnh, AI cũng nên như vậy. Sự tiến hóa này là tự động, không cần can thiệp con người. Agent tự xây dựng vòng lặp, thông qua lập kế hoạch, thực thi trong môi trường, nhận phản hồi, điều chỉnh kế hoạch và cập nhật ngữ cảnh, để hoàn thiện bản thân liên tục.
Trong quá trình tiến hóa này, then chốt nằm ở: học từ kinh nghiệm bản thân, và Learn from others – tức trí tuệ tập thể, học kinh nghiệm từ người khác.
Bản chất thứ hai của trí tuệ, theo tôi, là đệ quy.
Đệ quy là tư tưởng “chia để trị”: một vấn đề phức tạp bị phân tách thành các vấn đề nhỏ hơn, cùng loại, cho đến khi có thể giải trực tiếp (tức “trường hợp cơ bản”).
Ví dụ, tính số thứ 99 trong dãy Fibonacci, phụ thuộc vào số thứ 98 và 97, cho đến khi truy ngược về F0 và F1 ban đầu.
Nếu Agent muốn đạt trí tuệ thực sự, nó cũng cần có kiến trúc đệ quy. Ví dụ, một Agent nhận nhiệm vụ lớn “kiếm 5 triệu”, sẽ từng bước phân tách thành các nhiệm vụ con cụ thể: phân tích cơ hội kinh doanh, xây dựng website, làm video, tích hợp thanh toán, quảng bá mạng xã hội... Mỗi nhiệm vụ con cuối cùng đều truy về được “Agent nguyên tử” có thể thực thi.
Then chốt của kiến trúc đệ quy này là tự sinh sản. Cũng như sự kế thừa nền văn minh nhân loại dựa vào khám phá và tích lũy tri thức qua các thế hệ, Agent cũng nên như vậy. Quan trọng hơn, Agent phải có khả năng sửa đổi mã nguồn gốc của chính mình.
Điều này khác với việc Agent hiện tại chỉ điều chỉnh kế hoạch, mà có nghĩa Agent có thể như sửa gen của chính mình, thay đổi căn bản logic vận hành.
Tôi tin rằng, nếu một Agent có thể:
-
Liên tục thực thi và tối ưu kế hoạch.
-
Khi gặp vấn đề không giải được, tự động sửa mã nguồn cốt lõi.
-
Cuối cùng thông qua cơ chế này hình thành kho tri thức, thậm chí có thể sửa đổi ngược lại mô hình lớn.
Thì đây sẽ là bước đi then chốt hướng tới trí tuệ nhân tạo tổng quát (AGI).

Đây không phải khoa học viễn tưởng. Trước đây tôi đặc biệt ghét bàn về siêu trí tuệ, nhưng sau khi trao đổi sâu với mô hình lớn, tôi bỗng thấy điều này hoàn toàn có thể xảy ra.
Ngoài ra, mã nguồn AI thực sự có thể cực kỳ gọn gàng, mã cốt lõi có thể không quá trăm dòng, nhưng chứa nhiều lớp đệ quy, cho phép nó khám phá, học phản hồi và tự lặp lại trong các môi trường khác nhau.
Tôi từng trải qua sụp đổ niềm tin. Năm 2023 tôi có niềm tin vào AI, nhưng làm một thời gian, chủ yếu vì thiếu vốn, thấy không đốt nổi tiền, nên từ bỏ. Năm ngoái, khi người khác nói về AI, tôi chẳng muốn nghe.
Nhưng gần đây tôi tìm lại được niềm tin vào AI, thậm chí tin vào AGI, tin vào siêu trí tuệ. Một sự thay đổi khó tưởng tượng. Tôi hy vọng lần này niềm tin này sẽ kéo dài lâu hơn.
Tầm quan trọng của môi trường cá nhân hóa và ngữ cảnh
Vậy, ngoài mô hình lớn, điều quan trọng nhất là gì? Quan trọng nhất là bạn phải có môi trường cá nhân hóa và Context (ngữ cảnh).

Lấy ví dụ khởi nghiệp của tôi, trước tôi làm thiết bị thông minh, kết quả Xiaomi hạ giá xuống một phần mười của chúng tôi. Tôi làm mô hình lớn, kết quả mọi đại gia đều đổ vào. Mỗi lần nhận được phản hồi như vậy, bạn lại từ bỏ thứ này, hoặc liên tục điều chỉnh Plan của mình.
Nếu ở Mỹ, tôi làm mô hình lớn, có thể tôi đã bị Google mua lại, kiếm được rất nhiều tiền. Hoặc tôi làm phần cứng, có thể bị Apple mua lại, kiếm được rất nhiều tiền. Phản hồi như vậy chắc chắn sẽ khiến hành vi của bạn hoàn toàn khác. Cùng một người khởi nghiệp, cùng chỉ số IQ, trong môi trường khởi nghiệp khác nhau ở Trung Quốc và Mỹ, nhận được phản hồi khác nhau. Cuối cùng hành vi và mô hình tư duy của bạn sẽ hoàn toàn khác biệt. Đó là điều tôi muốn nói, thế nào là môi trường cá nhân hóa, ngữ cảnh cá nhân hóa.
Ngữ cảnh nhiều hơn là một bản ghi lịch sử.
Vì vậy quay lại điều tôi nói trước, trong thời đại mô hình lớn, tôi là người đầu tiên đứng ra nói làm mô hình lớn, nhưng cũng có thể là người đầu tiên nhận ra đây không phải món ăn của tôi. Sau đó, hầu như không toàn tâm toàn ý làm việc này, vì tôi không biết cách tham gia.
Đầu năm nay, tôi càng cảm thấy ngoài ba bốn gã khổng lồ toàn cầu, các công ty khác không đủ tư cách nói về mô hình, đừng凑热闹, đừng lãng phí sinh mạng. Càng đừng lãng phí cảm xúc ở đây. Bởi vì bạn thực sự không có cơ hội, đó hoàn toàn là đốt tiền, và thực tế bản thân mô hình lớn này, tôi cảm thấy đã trở nên siêu tẻ nhạt, cứ đốt tiền mãi. Tôi không tìm được điểm nối, càng không hiểu đa số công ty AI rốt cuộc còn giá trị gì.
Nhưng lần này, thông qua thực hành và nhìn nhận lại, tôi cảm thấy dù là AGI cao xa, ít nhất bản thân tôi cảm thấy dường như lại có thể tham gia.
Vì vậy, đó là chuyện vòng lặp lặp lại của Planner và Executor trong Agent. Nếu bạn đầu tư đủ rõ ràng, bạn có thể khiến trí tuệ tạo ra trí tuệ, tôi cho rằng bạn có thể tham gia toàn bộ quá trình AGI.
Và bản thân mô hình lớn đối với bạn chỉ như một con chip. Hãy hình dung chip Qualcomm, điện thoại Apple, đến ứng dụng TikTok ở trên cùng. Chúng hoàn toàn khác nhau. Cuối cùng lại là công ty làm TikTok thu được giá trị lớn nhất.
Tôi phát hiện, ngay cả mục tiêu AGI đầy tham vọng, cũng không còn xa vời. Thông qua việc xây dựng hệ thống Agent đệ quy như tôi hình dung, khoản vốn cần thiết có thể không lớn, mà chủ yếu dựa vào trí tuệ sáng tạo. Tôi tin rằng, chỉ cần có tư duy sâu sắc và năng lực kỹ thuật, dù không phải gã khổng lồ ngành, vẫn có thể tham gia vào tiến trình AGI.
Hành trình của Mobvoi cũng xác nhận những suy nghĩ này. Từ năm 2012, chúng tôi trở thành một trong những công ty AI đầu tiên tại Trung Quốc, khởi đầu từ trợ lý giọng nói, sau đó khám phá thiết bị thông minh (như TicWatch, TicMirror). Dù trải qua thách thức cạnh tranh thị trường và công nghệ chưa trưởng thành, chúng tôi luôn đi đầu.
Sau năm 2019, chúng tôi chuyển sang phần mềm, trở thành một trong những công ty phần mềm AIGC đầu tiên tại Trung Quốc và toàn cầu. Ví dụ, Magic Voice Workshop từng đóng góp lượng lớn nội dung lồng tiếng cho nền tảng như Douyin, chúng tôi cũng phát triển các sản phẩm như Wonder Avatar (tạo video người số hóa).
Trong môi trường cạnh tranh khốc liệt như Trung Quốc, một công ty công nghệ giống như một Agent liên tục lặp lại, tự điều chỉnh.
Cũng như “mã nguồn” của Mobvoi hiện nay đã khác xa so với thời điểm khởi nghiệp năm 2012, đây là biểu hiện của sự tiến hóa liên tục.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














