Quỹ đầu tư Sequoia: Trí tuệ nhân tạo tạo sinh, một thế giới sáng tạo mới
Tuyển chọn TechFlowTuyển chọn TechFlow
Quỹ đầu tư Sequoia: Trí tuệ nhân tạo tạo sinh, một thế giới sáng tạo mới
Con người giỏi trong việc phân tích sự vật, và máy móc thậm chí còn làm tốt hơn trong lĩnh vực này.

Tác giả: Sonya Huang và Pat Grady
Dịch: TechFlow
AIGC (Nội dung do AI tạo ra – AI-Generated Content) gần đây là một chủ đề nóng, cùng với sự xuất hiện ngày càng nhiều các ứng dụng thực tế, nội dung do AI tạo ra như hình ảnh, văn bản, âm thanh hay thậm chí video đang dần đi vào đời sống hàng ngày của chúng ta.
Chỉ vài giờ trước, trang web chính thức của Sequoia Mỹ đã đăng một bài viết mới mang tên "Generative AI: A Creative New World". Liệu điều này có đánh dấu sự khởi đầu của một đợt chuyển dịch mô hình (Paradigm shift) hoàn toàn mới?
Hãy cùng tìm hiểu bài viết này. Tác giả gốc là hai đối tác của Sequoia: Sonya Huang và Pat Grady. Điều thú vị là trong phần ghi danh sách tác giả, tên GPT-3 cũng được nêu rõ ràng, đồng thời các hình ảnh minh họa trong bài đều được tạo bởi Midjourney — chính bài viết này là một ví dụ điển hình về ứng dụng thực tiễn của AIGC. Dưới đây là bản dịch toàn văn, hy vọng sẽ mang đến cho bạn những suy ngẫm và khám phá mới.
Lời mở đầu
Con người giỏi phân tích, nhưng máy móc còn làm điều này tốt hơn. Máy móc có thể phân tích một tập dữ liệu lớn và tìm ra các mẫu (pattern) cho nhiều trường hợp sử dụng (use case), dù là phát hiện gian lận hay thư rác, dự đoán thời gian giao hàng hay chọn video TikTok phù hợp để hiển thị cho bạn — chúng ngày càng trở nên thông minh trong những nhiệm vụ này. Đây được gọi là "AI phân tích (Analytical AI)", hay còn gọi là AI truyền thống.
Tuy nhiên, con người không chỉ giỏi phân tích mà còn đặc biệt sáng tạo. Chúng ta viết thơ, thiết kế sản phẩm, làm game, viết mã. Cho đến gần đây, máy móc chưa từng có cơ hội cạnh tranh với con người trong các công việc sáng tạo — chúng bị giới hạn ở các nhiệm vụ nhận thức phân tích và mang tính cơ học. Nhưng gần đây, máy móc bắt đầu thử nghiệm tạo ra những thứ có ý nghĩa và đẹp đẽ. Loại hình mới này được gọi là "AI tạo sinh (Generative AI)", tức là máy móc đang tạo ra cái mới, thay vì chỉ phân tích những gì đã tồn tại.
AI tạo sinh đang trở nên không chỉ nhanh hơn, rẻ hơn, mà trong một số trường hợp còn vượt trội hơn cả sản phẩm do con người tạo ra. Từ mạng xã hội đến game, từ quảng cáo đến kiến trúc, từ lập trình đến thiết kế đồ họa, từ thiết kế sản phẩm đến luật pháp, từ marketing đến bán hàng — mọi lĩnh vực từng đòi hỏi sự sáng tạo của con người đều đang chờ đợi được tái định hình bởi máy móc. Một số chức năng có thể bị AI tạo sinh thay thế hoàn toàn, trong khi những chức năng khác sẽ phát triển mạnh mẽ hơn trong chu kỳ sáng tạo cộng tác chặt chẽ giữa con người và máy. Nhưng AI tạo sinh chắc chắn sẽ mở ra khả năng sáng tạo tốt hơn, nhanh hơn, rẻ hơn trên quy mô rộng lớn. Ước mơ được mong đợi nhất là: AI tạo sinh sẽ đưa chi phí biên của sáng tạo và công việc tri thức xuống bằng không, tạo ra năng suất lao động khổng lồ, giá trị kinh tế to lớn, và tương ứng là giá trị vốn hóa thị trường đáng kể.
AI tạo sinh có thể tác động đến cả công việc tri thức và công việc sáng tạo — hai lĩnh vực liên quan đến hàng tỷ lao động con người. AI tạo sinh có thể nâng cao hiệu suất và sức sáng tạo của lực lượng lao động này ít nhất 10%, khiến họ vừa nhanh hơn, hiệu quả hơn, lại càng có năng lực hơn trước. Vì vậy, AI tạo sinh có tiềm năng tạo ra hàng ngàn tỷ đô la giá trị kinh tế.
01. Vì sao là bây giờ?
AI tạo sinh cũng giống như lĩnh vực AI nói chung, đều có cùng câu hỏi "Vì sao là bây giờ?": mô hình tốt hơn, dữ liệu nhiều hơn, năng lực xử lý mạnh hơn. Tốc độ thay đổi của lĩnh vực này nhanh đến mức khó theo kịp, nhưng chúng ta vẫn cần nhìn lại bối cảnh lịch sử gần đây để hiểu rõ.
Sóng thứ nhất: Các mô hình nhỏ thống trị (trước năm 2015) — các mô hình nhỏ được coi là "tiên tiến nhất" trong việc hiểu ngôn ngữ. Những mô hình này rất giỏi các nhiệm vụ phân tích, có thể dùng để dự đoán thời gian giao hàng hoặc phân loại gian lận. Tuy nhiên, chúng không đủ khả năng biểu đạt để thực hiện các tác vụ tạo sinh tổng quát. Việc tạo ra văn bản hoặc mã code đạt trình độ con người vẫn chỉ là giấc mơ viển vông.
Sóng thứ hai: Cuộc đua về quy mô (2015 - nay) — một bài báo mang tính bước ngoặt từ Google Research (Attention is All You Need https://arxiv.org/abs/1706.03762) mô tả một kiến trúc mạng thần kinh mới dành cho xử lý ngôn ngữ tự nhiên, gọi là transformer, có thể tạo ra các mô hình ngôn ngữ chất lượng cao, song song hóa tốt hơn và cần ít thời gian huấn luyện hơn. Những mô hình này là những "học viên đơn giản", có thể dễ dàng tùy chỉnh cho các lĩnh vực cụ thể.

Quả thật, khi mô hình ngày càng lớn, chúng bắt đầu tạo ra kết quả ngang tầm con người, rồi vượt qua cả con người. Từ năm 2015 đến 2020, lượng tính toán dùng để huấn luyện các mô hình này tăng lên 6 bậc (6 orders of magnitude), giúp chúng vượt qua con người trong nhiều nhiệm vụ như viết lách, giọng nói, nhận diện hình ảnh, đọc hiểu và xử lý ngôn ngữ. GPT-3 của OpenAI đặc biệt nổi bật: hiệu năng của nó tiến bộ vượt bậc so với GPT-2, và chứng minh thành công qua các demo trên Twitter, từ tạo mã code đến viết truyện cười.
Mặc dù nghiên cứu nền tảng đã tiến bộ, nhưng các mô hình này vẫn chưa phổ biến. Chúng cồng kềnh và khó vận hành (cần cấu hình GPU đặc biệt), không dễ tiếp cận (không khả dụng hoặc chỉ thử nghiệm khép kín), và chi phí sử dụng dưới dạng dịch vụ đám mây khá cao. Dù có những hạn chế này, các ứng dụng AI tạo sinh đầu tiên đã bắt đầu tham gia cạnh tranh.
Sóng thứ ba: Tốt hơn, nhanh hơn và rẻ hơn (2022+) — năng lực tính toán rẻ hơn, các công nghệ mới như mô hình khuếch tán (diffusion models) giúp giảm chi phí huấn luyện và vận hành. Các nhà nghiên cứu tiếp tục phát triển thuật toán tốt hơn và mô hình lớn hơn. Quyền truy cập của các nhà phát triển mở rộng từ thử nghiệm khép kín sang thử nghiệm công khai, hoặc trong một số trường hợp, được mã nguồn mở.
Đối với các nhà phát triển khao khát tiếp cận LLM (Large Language Model - Mô hình Ngôn ngữ Lớn), cửa sổ khám phá và phát triển ứng dụng đã được mở ra, và các ứng dụng bắt đầu bùng nổ.

Sóng thứ tư: Xuất hiện các ứng dụng "killer" (hiện tại) — khi tầng nền tảng đã ổn định, các mô hình tiếp tục cải thiện, trở nên tốt hơn, nhanh hơn, rẻ hơn, việc tiếp cận mô hình dần miễn phí và mã nguồn mở, sự sáng tạo ở tầng ứng dụng đã chín muồi.
Giống như thiết bị di động đã giải phóng các loại ứng dụng mới nhờ các tính năng như GPS, camera và kết nối mạng, chúng tôi dự đoán rằng các mô hình lớn này sẽ khơi dậy một làn sóng ứng dụng AI tạo sinh mới. Cũng như cách một vài ứng dụng "killer" đã mở ra thị trường Internet di động cách đây mười năm, chúng tôi kỳ vọng các ứng dụng "killer" của AI tạo sinh cũng sẽ xuất hiện — cuộc đua đã bắt đầu.
02. Bức tranh thị trường
Dưới đây là sơ đồ minh họa tầng nền tảng thúc đẩy từng nhóm, cùng các loại ứng dụng tiềm năng sẽ được xây dựng trên đó.

Mô hình
Văn bản (Text) là lĩnh vực tiên tiến nhất, tuy nhiên ngôn ngữ tự nhiên rất khó sử dụng đúng và chất lượng đóng vai trò then chốt. Hiện nay, các mô hình này khá xuất sắc trong việc viết văn bản ngắn và trung bình (dù vậy, chúng thường được dùng để lặp lại hoặc làm bản nháp). Theo thời gian, mô hình sẽ ngày càng tốt hơn; chúng ta nên kỳ vọng thấy đầu ra chất lượng cao hơn, nội dung dài hơn và chuyên sâu hơn theo ngành dọc.
Tạo mã (Code generation) có thể tạo ra ảnh hưởng lớn đến năng suất của các lập trình viên trong ngắn hạn, như minh chứng từ GitHub Copilot. Ngoài ra, việc tạo mã còn giúp những người không phải lập trình viên dễ dàng sử dụng mã để sáng tạo.
Hình ảnh (Images) là hiện tượng mới nổi gần đây, nhưng đã lan truyền nhanh như virus. Việc chia sẻ hình ảnh do AI tạo ra trên Twitter thú vị hơn nhiều so với văn bản! Chúng ta đang chứng kiến sự xuất hiện của các mô hình hình ảnh với phong cách thẩm mỹ khác nhau, cùng các kỹ thuật khác nhau để chỉnh sửa và thay đổi hình ảnh được tạo ra.
Tổng hợp giọng nói (Speech synthesis) đã xuất hiện một thời gian, nhưng các ứng dụng dành cho người tiêu dùng và doanh nghiệp mới chỉ bắt đầu. Với các ứng dụng cao cấp như phim ảnh và podcast, giọng nói tự nhiên, không máy móc, đạt chất lượng con người là một ngưỡng cao. Nhưng giống như hình ảnh, các mô hình ngày nay cung cấp điểm khởi đầu để tối ưu hóa thêm hoặc đạt được đầu ra cuối cùng cho ứng dụng.
Video và mô hình 3D vẫn còn tụt hậu xa, nhưng mọi người rất hào hứng về tiềm năng của chúng vì có thể mở ra các thị trường sáng tạo lớn như phim ảnh, game, thực tế ảo, kiến trúc và thiết kế sản phẩm vật lý. Chúng ta nên kỳ vọng sẽ thấy các mô hình 3D và video cơ bản xuất hiện trong vòng 1-2 năm tới.
Còn rất nhiều lĩnh vực khác như âm thanh, nhạc, sinh học, hóa học... cũng đang phát triển các mô hình nền tảng. Biểu đồ dưới đây cho thấy tiến độ của các mô hình cơ bản và thời điểm các ứng dụng liên quan có thể trở thành hiện thực, trong đó phần từ 2025 trở đi chỉ là dự đoán.

Ứng dụng
Dưới đây là một số ứng dụng khiến chúng tôi cảm thấy hào hứng — chỉ là một phần nhỏ, thực tế còn nhiều hơn rất nhiều. Chúng tôi bị thu hút bởi trí tưởng tượng của các nhà sáng lập và nhà phát triển khi họ mơ về các ứng dụng sáng tạo.
Viết nội dung quảng cáo (Copywriting): ngày càng nhiều người cần nội dung cá nhân hóa cho trang web, email nhằm thúc đẩy chiến lược bán hàng, marketing và hỗ trợ khách hàng — đây là ứng dụng lý tưởng cho các mô hình ngôn ngữ. Những nội dung này thường có dạng đơn giản, khuôn mẫu cố định, lại chịu áp lực về thời gian và chi phí, nên nhu cầu về các giải pháp tự động hóa và tăng cường sẽ tăng mạnh.
Trợ lý viết lách theo ngành (Vertical-specific writing assistants): hiện nay phần lớn trợ lý viết lách đều mang tính tổng quát. Chúng tôi tin rằng có cơ hội lớn để xây dựng các ứng dụng tạo sinh tốt hơn cho từng thị trường cụ thể, ví dụ từ soạn thảo hợp đồng pháp lý đến viết kịch bản. Sự khác biệt sản phẩm nằm ở việc tinh chỉnh mô hình và trải nghiệm người dùng (UX) phù hợp với quy trình làm việc cụ thể.
Tạo mã (Code generation): các ứng dụng hiện tại thúc đẩy sự phát triển của lập trình viên, giúp họ tăng năng suất đáng kể. Trong các dự án đã cài Copilot, nó tạo ra gần 40% mã. Nhưng cơ hội lớn hơn có thể nằm ở việc trao quyền cho người dùng cuối (consumer) khả năng lập trình — học cách đặt lệnh (learning to prompt) có thể trở thành ngôn ngữ lập trình cấp cao cuối cùng.
Tạo nghệ thuật (Art generation): toàn bộ lịch sử nghệ thuật và văn hóa đại chúng giờ đây đã được mã hóa vào các mô hình lớn này, cho phép bất kỳ ai tự do khám phá những chủ đề và phong cách trước đây có thể mất cả đời người mới nắm vững.
Game: giấc mơ ở đây là dùng ngôn ngữ tự nhiên để tạo ra các cảnh phức tạp hoặc mô hình điều khiển được. Trạng thái cuối cùng này có thể còn xa, nhưng trong ngắn hạn có những lựa chọn trực tiếp hơn như tạo texture và nghệ thuật skybox.
Truyền thông/Quảng cáo (Media/Advertising): hãy tưởng tượng tiềm năng tự động hóa tác vụ đại lý, tối ưu hóa nội dung và hình ảnh quảng cáo theo thời gian thực cho người tiêu dùng. Cơ hội tuyệt vời cho tạo sinh đa phương thức là kết hợp thông điệp bán hàng với hình ảnh bổ trợ.
Thiết kế (Design): thiết kế nguyên mẫu sản phẩm kỹ thuật số và vật lý là một quá trình lặp đi lặp lại tốn nhiều công sức. Giờ đây, AI có thể tạo ra hình ảnh chất lượng cao từ phác thảo sơ bộ và gợi ý — điều này đã thành hiện thực. Khi có mô hình 3D, quy trình thiết kế sẽ mở rộng từ sản xuất đến sản phẩm vật lý — chiếc iPhone app hay đôi giày thể thao tiếp theo của bạn có thể do máy móc thiết kế.
Mạng xã hội và cộng đồng số (Social media and digital communities): liệu có những cách thức mới để tự biểu đạt bản thân bằng công cụ tạo sinh? Khi các ứng dụng mới như Midjourney học cách sáng tạo trên mạng xã hội như con người, chúng sẽ tạo ra những trải nghiệm xã hội mới.

03. Phân tích ứng dụng AI tạo sinh
Ứng dụng AI tạo sinh sẽ trông như thế nào? Dưới đây là một vài dự đoán:
Trí tuệ và tinh chỉnh mô hình
Ứng dụng AI tạo sinh được xây dựng trên các mô hình lớn như GPT-3 hoặc Stable Diffusion. Khi các ứng dụng này thu thập được nhiều dữ liệu người dùng hơn, chúng có thể tinh chỉnh mô hình — vừa cải thiện chất lượng và hiệu năng cho không gian vấn đề cụ thể, vừa giảm kích thước và chi phí mô hình.
Chúng ta có thể xem ứng dụng AI tạo sinh như một tầng giao diện người dùng (UI layer) và một "bộ não nhỏ (little brain)" nằm trên "bộ não lớn (big brain)" là mô hình lớn tổng quát.
Các yếu tố hình thành
Hiện nay, các ứng dụng AI tạo sinh phần lớn tồn tại dưới dạng tiện ích mở rộng (plugin) trong hệ sinh thái phần mềm hiện có. Ví dụ: tạo mã trong IDE của bạn, tạo hình ảnh trong Figma hay Photoshop, thậm chí bot Discord cũng là công cụ đưa AI tạo sinh vào cộng đồng số.
Cũng có một số ít ứng dụng Web độc lập như Jasper và Copy.ai trong lĩnh vực nội dung, Runway trong biên tập video, hay Mem trong ghi chú.
Dạng plugin có thể là điểm khởi đầu tốt cho ứng dụng AI tạo sinh trong giai đoạn đầu, vì nó giúp vượt qua bài toán "con gà và quả trứng" về dữ liệu người dùng và chất lượng mô hình (cụ thể: cần phân phối để có dữ liệu dùng cải thiện mô hình, nhưng lại cần mô hình tốt để thu hút người dùng). Chúng tôi đã thấy chiến lược này thành công ở các thị trường khác như tiêu dùng và xã hội.
Mô hình tương tác
Hiện nay, phần lớn demo AI tạo sinh đều là kiểu "một lần duy nhất": bạn đưa đầu vào, máy đưa đầu ra, bạn giữ lại hoặc bỏ đi rồi thử lại. Trong tương lai, mô hình sẽ hỗ trợ lặp lại — bạn có thể dùng đầu ra để chỉnh sửa, điều chỉnh, nâng cấp và tạo ra biến thể.
Hiện tại, đầu ra của AI tạo sinh thường được dùng làm nguyên mẫu hoặc bản nháp. Ứng dụng rất giỏi đưa ra nhiều ý tưởng khác nhau để thúc đẩy quá trình sáng tạo (ví dụ: nhiều lựa chọn logo hay thiết kế kiến trúc), cũng rất giỏi tạo bản nháp, nhưng vẫn cần người dùng hiệu chỉnh cuối cùng (ví dụ: bài blog hoặc hoàn tất mã). Khi mô hình ngày càng thông minh hơn, đồng thời phần nào dựa vào dữ liệu người dùng, chúng ta nên kỳ vọng các bản nháp này sẽ ngày càng tốt hơn, đến mức có thể dùng làm sản phẩm cuối cùng.
Dẫn dắt ngành bền vững
Những công ty AI tạo sinh tốt nhất có thể tạo ra lợi thế cạnh tranh bền vững thông qua vòng xoáy phản hồi giữa sự gắn bó người dùng, dữ liệu và hiệu năng mô hình. Để giành chiến thắng, các đội ngũ phải thực hiện vòng xoáy này bằng cách:
Có sự gắn bó người dùng xuất sắc → Chuyển đổi lượng người dùng gắn bó này thành hiệu năng mô hình tốt hơn (cải tiến kịp thời, tinh chỉnh mô hình, dùng lựa chọn người dùng làm nhãn dữ liệu huấn luyện) → Dùng hiệu năng mô hình vượt trội để thúc đẩy tăng trưởng và giữ chân người dùng nhiều hơn.
Họ có thể tập trung vào các lĩnh vực cụ thể (như mã, thiết kế, game) thay vì cố gắng giải quyết mọi vấn đề cho mọi người. Họ có thể bắt đầu bằng cách tích hợp sâu vào các ứng dụng hiện có để tận dụng và phân phối chương trình của mình, sau đó hướng tới thay thế các ứng dụng hiện tại bằng quy trình làm việc bản địa AI. Việc xây dựng đúng cách các ứng dụng này để tích lũy người dùng và dữ liệu cần thời gian, nhưng chúng tôi tin rằng những ứng dụng tốt nhất sẽ tồn tại lâu dài và có cơ hội phát triển lớn mạnh.
04. Khó khăn và rủi ro
Mặc dù AI tạo sinh tiềm năng to lớn, nhưng vẫn còn nhiều vấn đề về mô hình kinh doanh và công nghệ cần giải quyết. Những vấn đề quan trọng như bản quyền, niềm tin, an toàn và chi phí vẫn còn bỏ ngỏ.
05. Mở rộng tầm nhìn
AI tạo sinh vẫn còn rất sơ khai. Tầng nền tảng vừa mới khởi sắc, còn tầng ứng dụng thì mới chỉ ở vạch xuất phát.
Cần làm rõ: chúng ta không cần AI tạo sinh dựa trên mô hình ngôn ngữ lớn để viết tiểu thuyết Tolstoy. Những mô hình này hiện tại đã đủ tốt để viết bản nháp bài blog, tạo nguyên mẫu logo và giao diện sản phẩm — điều này sẽ tạo ra giá trị lớn trong trung và ngắn hạn.
Đợt sóng đầu tiên của ứng dụng AI tạo sinh giống như thời kỳ đầu của ứng dụng di động khi iPhone mới ra mắt — phần lớn là chiêu trò, nội dung mỏng, thiếu khác biệt cạnh tranh và mô hình kinh doanh chưa rõ ràng. Tuy nhiên, một số ứng dụng trong số đó đã mở ra góc nhìn thú vị về những điều có thể xảy ra trong tương lai. Khi bạn đã từng thấy máy móc tạo ra mã chức năng phức tạp hay hình ảnh tuyệt đẹp, sẽ rất khó tưởng tượng một tương lai mà máy móc không còn vai trò trong công việc và sáng tạo của chúng ta.
Nếu cho phép bản thân mơ về vài thập kỷ tới, sẽ dễ hình dung một tương lai mà AI tạo sinh được tích hợp sâu vào cách chúng ta làm việc, sáng tạo và giải trí: bản ghi nhớ tự viết, in 3D bất cứ thứ gì bạn tưởng tượng, từ văn bản đến phim Pixar, tạo ra thế giới phong phú nhanh chóng như trải nghiệm game Roblox. Dù hôm nay điều này vẫn như khoa học viễn tưởng, tốc độ tiến bộ công nghệ là đáng kinh ngạc. Từ mô hình ngôn ngữ hẹp đến tự động tạo mã chỉ mất vài năm. Nếu tiếp tục theo đà thay đổi này và tuân theo "Định luật Moore cho mô hình lớn (Large Model Moore's Law)", thì những viễn cảnh tưởng chừng xa vời sẽ trở nên trong tầm tay.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












