
Phỏng vấn YC: Người sáng lập DeepMind hiện đang chờ đợi “khoảnh khắc Einstein” của AI
Tuyển chọn TechFlowTuyển chọn TechFlow

Phỏng vấn YC: Người sáng lập DeepMind hiện đang chờ đợi “khoảnh khắc Einstein” của AI
“Vấn đề về việc học liên tục, suy luận dài hạn và một số khía cạnh của trí nhớ vẫn chưa được giải quyết; AGI cần phải giải quyết toàn bộ những vấn đề này.”
Tổng hợp & Biên dịch: TechFlow
Khách mời: Demis Hassabis (Người sáng lập DeepMind, chủ nhân Giải Nobel Hóa học năm 2024, người đứng đầu Google DeepMind)
Dẫn chương trình: Gary Tan
Nguồn podcast: Y Combinator
Tựa đề gốc: Demis Hassabis: Các tác nhân (Agents), AGI và bước đột phá khoa học lớn tiếp theo
Thời gian phát sóng: Ngày 29 tháng 4 năm 2026
Lời dẫn biên tập
Demis Hassabis, CEO của Google DeepMind và chủ nhân Giải Nobel Hóa học, đã xuất hiện trong buổi trò chuyện cùng Y Combinator để thảo luận về những tiến triển then chốt còn thiếu trên hành trình hướng tới AGI, lời khuyên dành cho các nhà khởi nghiệp nhằm duy trì lợi thế dẫn đầu, cũng như nơi mà bước đột phá khoa học lớn tiếp theo có thể xuất hiện. Đánh giá thực tiễn nhất dành cho các nhà khởi nghiệp công nghệ chuyên sâu là: nếu bạn khởi động một dự án công nghệ chuyên sâu kéo dài mười năm ngay hôm nay, bạn bắt buộc phải tính đến khả năng AGI sẽ xuất hiện giữa chừng. Ngoài ra, ông còn tiết lộ rằng Isomorphic Labs (công ty dược phẩm AI tách ra từ DeepMind) sắp công bố một tin tức trọng đại.

Những trích dẫn nổi bật
Hành trình và mốc thời gian hướng tới AGI
- «Các thành phần công nghệ hiện tại gần như chắc chắn sẽ trở thành một phần trong kiến trúc cuối cùng của AGI.»
- «Vấn đề liên quan đến học liên tục, suy luận dài hạn và một số khía cạnh của trí nhớ vẫn chưa được giải quyết; AGI cần xử lý toàn bộ những vấn đề này.»
- «Nếu mốc thời gian AGI của bạn giống tôi—khoảng năm 2030—và bạn vừa khởi động một dự án công nghệ chuyên sâu hôm nay, thì bạn bắt buộc phải tính đến khả năng AGI sẽ xuất hiện giữa chừng.»
Trí nhớ và cửa sổ ngữ cảnh
- «Cửa sổ ngữ cảnh về cơ bản tương đương với trí nhớ làm việc. Trí nhớ làm việc của con người trung bình chỉ chứa được bảy chữ số, trong khi chúng ta lại sở hữu cửa sổ ngữ cảnh lên tới hàng triệu, thậm chí hàng chục triệu token. Vấn đề nằm ở chỗ chúng ta nhét mọi thứ vào đó, kể cả những thông tin không quan trọng hoặc sai lệch—cách làm hiện tại khá thô bạo.»
- «Nếu phải xử lý luồng video thời gian thực và lưu toàn bộ token vào đó, một triệu token thực tế chỉ đủ cho khoảng 20 phút.»
Những điểm yếu trong suy luận
- «Tôi thích dùng Gemini để chơi cờ. Đôi khi nó nhận ra một nước đi là tồi tệ, nhưng lại không tìm được nước đi tốt hơn, cuối cùng xoay vòng rồi vẫn đi nước ấy. Một hệ thống suy luận chính xác không nên xảy ra tình huống như vậy.»
- «Một mặt, nó có thể giải được bài toán đạt mức huy chương vàng IMO; mặt khác, chỉ cần đổi cách đặt câu hỏi, nó lại phạm sai lầm ở toán tiểu học. Dường như vẫn còn thiếu điều gì đó trong khả năng tự phản tư về quá trình suy nghĩ của chính mình.»
Các tác nhân (Agents) và sáng tạo
- «Để đạt được AGI, bạn cần một hệ thống có khả năng chủ động giải quyết vấn đề thay bạn. Các tác nhân (Agents) chính là con đường đó, và tôi cho rằng chúng ta mới chỉ bắt đầu.»
- «Tôi chưa thấy ai sử dụng phương pháp ‘vibe coding’ để tạo ra một trò chơi AAA vươn lên vị trí đầu bảng xếp hạng App Store. Với mức độ đầu tư hiện tại, điều này hoàn toàn khả thi—nhưng vẫn chưa xảy ra. Điều đó cho thấy vẫn còn thiếu điều gì đó trong công cụ hoặc quy trình.»
Sự cô đặc mô hình và các mô hình nhỏ
- «Giả định của chúng tôi là sau nửa năm đến một năm kể từ khi một mô hình Pro tiên phong được phát hành, toàn bộ khả năng của nó có thể được nén vào một mô hình rất nhỏ, đủ để chạy trên các thiết bị biên. Hiện tại, chúng tôi chưa chạm tới giới hạn lý thuyết về mật độ thông tin.»
Khám phá khoa học và «Kiểm tra Einstein»
- «Đôi khi tôi gọi nó là ‘Kiểm tra Einstein’: liệu bạn có thể huấn luyện một hệ thống chỉ bằng kiến thức năm 1901, rồi để nó độc lập suy luận ra những thành tựu mà Einstein đạt được vào năm 1905—bao gồm cả Thuyết Tương đối Hẹp? Khi nào đạt được điều này, các hệ thống ấy sẽ gần như sẵn sàng để thực sự phát minh ra những điều hoàn toàn mới.»
- «Việc giải được một trong những Bài Toán Thiên niên kỷ (Millennium Prize Problems) đã là một kỳ tích. Nhưng khó hơn nữa là liệu hệ thống có thể đề xuất một tập hợp các Bài Toán Thiên niên kỷ mới—được các nhà toán học hàng đầu đánh giá là sâu sắc ngang tầm và xứng đáng để dành cả đời nghiên cứu hay không.»
Lời khuyên cho khởi nghiệp công nghệ chuyên sâu
- «Theo đuổi những vấn đề khó và theo đuổi những vấn đề dễ—thực tế chẳng khác biệt mấy, chỉ là kiểu khó khác nhau. Cuộc đời ngắn ngủi, chi bằng hãy dồn toàn bộ năng lượng vào những việc nếu bạn không làm thì thật sự chẳng ai làm.»
Hành trình hiện thực hóa AGI
Gary Tan: Bạn đã suy ngẫm về AGI lâu hơn hầu hết mọi người. Nhìn vào các mô hình hiện tại, theo bạn, chúng ta đã nắm giữ bao nhiêu phần trong kiến trúc cuối cùng của AGI? Những yếu tố nền tảng nào vẫn còn thiếu?
Demis Hassabis: Việc huấn luyện tiên đoán quy mô lớn, RLHF, chuỗi suy luận (chain-of-thought)—tôi hoàn toàn chắc chắn rằng chúng sẽ trở thành một phần trong kiến trúc cuối cùng của AGI. Những công nghệ này đến nay đã chứng minh được quá nhiều điều. Tôi khó lòng tưởng tượng nổi rằng hai năm nữa ta sẽ phát hiện ra đây là một con đường cụt—điều đó chẳng hợp lý chút nào với tôi. Tuy nhiên, trên nền tảng những thứ đã có, có thể vẫn còn thiếu một hoặc hai yếu tố. Học liên tục (continual learning), suy luận dài hạn (long-term reasoning), một số khía cạnh của trí nhớ—vẫn còn những vấn đề chưa được giải quyết. AGI cần xử lý toàn bộ những vấn đề này. Có thể chỉ cần kết hợp các công nghệ hiện có với một vài cải tiến mang tính tiến hóa là đủ để mở rộng tới mức ấy, nhưng cũng có thể vẫn còn một hoặc hai điểm then chốt lớn cần được đột phá. Tôi không nghĩ sẽ vượt quá một hoặc hai điểm. Cá nhân tôi đánh giá xác suất tồn tại những điểm then chốt chưa giải quyết được này là khoảng năm mươi–năm mươi. Vì vậy, tại Google DeepMind, chúng tôi đang đồng thời đẩy mạnh cả hai hướng.
Gary Tan: Tôi đã tiếp xúc với rất nhiều hệ thống Agent, và điều khiến tôi kinh ngạc nhất là tất cả chúng đều vận hành dựa trên cùng một bộ trọng số cố định. Do đó, khái niệm học liên tục đặc biệt thú vị, bởi hiện nay chúng ta thực chất đang “dán tạm” bằng băng keo—ví dụ như các chu kỳ “giấc mơ ban đêm” ấy.
Demis Hassabis: Đúng vậy, những chu kỳ giấc mơ khá tuyệt vời. Chúng tôi từng suy ngẫm về vấn đề này trong bối cảnh tích hợp trí nhớ tình huống. Nghiên cứu tiến sĩ của tôi tập trung vào cách thể hải mã (hippocampus) hòa nhập tinh tế tri thức mới vào hệ thống tri thức đã có. Bộ não làm điều này cực kỳ hiệu quả. Nó hoàn tất quá trình này trong lúc ngủ, đặc biệt là trong giai đoạn ngủ mắt chuyển động nhanh (REM sleep), khi những trải nghiệm quan trọng được phát lại để rút ra bài học. Chương trình Atari đầu tiên của chúng tôi, DQN (Mạng Q sâu, do DeepMind công bố năm 2013, lần đầu tiên áp dụng học tăng cường sâu để đạt trình độ con người trong các trò chơi Atari), có thể làm chủ các trò chơi Atari nhờ một phương pháp then chốt: phát lại kinh nghiệm (experience replay). Đây là kỹ thuật học từ thần kinh học—phát lại các hành trình thành công nhiều lần. Đó là chuyện xảy ra vào năm 2013, trong lĩnh vực AI có thể coi là thời cổ đại, nhưng lúc ấy nó vô cùng then chốt.
Tôi đồng ý với nhận xét của bạn: hiện nay chúng ta thực sự đang “dán tạm”. Nhét mọi thứ vào cửa sổ ngữ cảnh. Cảm giác này không ổn. Ngay cả khi chúng ta đang xây dựng máy móc chứ không phải bộ não sinh học, về mặt lý thuyết vẫn có thể đạt cửa sổ ngữ cảnh lên tới hàng triệu, thậm chí hàng chục triệu token, và trí nhớ có thể hoàn hảo—nhưng chi phí tìm kiếm và truy xuất vẫn tồn tại. Ngay tại thời điểm ra quyết định cụ thể, việc xác định thông tin thực sự liên quan không hề đơn giản—ngay cả khi bạn có thể lưu trữ mọi thứ. Vì vậy, tôi cho rằng lĩnh vực trí nhớ vẫn còn rất nhiều không gian để đổi mới.
Gary Tan: Thực lòng mà nói, cửa sổ ngữ cảnh một triệu token đã lớn hơn tôi tưởng rất nhiều, và có thể làm được rất nhiều việc.
Demis Hassabis: Đối với hầu hết các trường hợp ứng dụng phù hợp, nó đủ lớn. Nhưng hãy suy ngẫm: cửa sổ ngữ cảnh về cơ bản tương đương với trí nhớ làm việc. Trí nhớ làm việc của con người trung bình chỉ chứa được bảy chữ số, trong khi chúng ta lại sở hữu cửa sổ ngữ cảnh lên tới hàng triệu, thậm chí hàng chục triệu token. Vấn đề nằm ở chỗ chúng ta nhét mọi thứ vào đó, kể cả những thông tin không quan trọng hoặc sai lệch—cách làm hiện tại khá thô bạo. Hơn nữa, nếu bạn muốn xử lý luồng video thời gian thực và một cách ngây thơ lưu toàn bộ token, một triệu token thực tế chỉ đủ cho khoảng 20 phút. Nhưng nếu bạn muốn hệ thống hiểu được tình trạng cuộc sống của bạn trong suốt một hoặc hai tháng, thì điều đó vẫn còn xa lắm.
Gary Tan: DeepMind từ lâu đã đầu tư sâu vào học tăng cường và tìm kiếm—triết lý này được tích hợp sâu đến mức nào trong quá trình xây dựng Gemini hiện nay? Liệu học tăng cường có đang bị đánh giá thấp?
Demis Hassabis: Có thể đúng là nó đang bị đánh giá thấp. Sự chú ý dành cho lĩnh vực này lên xuống thất thường. Từ ngày thành lập DeepMind, chúng tôi đã bắt đầu xây dựng các hệ thống Agent. Tất cả các công trình trên Atari và AlphaGo về bản chất đều thuộc về các Agent học tăng cường—những hệ thống có khả năng tự chủ hoàn thành mục tiêu, ra quyết định và lập kế hoạch. Dĩ nhiên, lúc đó chúng tôi chọn lĩnh vực trò chơi vì độ phức tạp kiểm soát được, rồi dần chuyển sang các trò chơi phức tạp hơn, ví dụ như AlphaStar sau AlphaGo—cơ bản là chúng tôi đã thử nghiệm hầu hết các trò chơi có thể.
Câu hỏi tiếp theo là: liệu chúng ta có thể khái quát hóa những mô hình này thành mô hình thế giới hoặc mô hình ngôn ngữ—không chỉ giới hạn ở mô hình trò chơi? Trong vài năm qua, chúng tôi đã làm điều này. Hôm nay, mô hình suy nghĩ và chuỗi suy luận của tất cả các mô hình dẫn đầu về bản chất là sự trở lại của những điều mà AlphaGo từng khởi xướng. Tôi cho rằng rất nhiều công việc chúng tôi từng làm cách đây nhiều năm giờ đây vẫn cực kỳ liên quan, và chúng tôi đang tái xem xét những ý tưởng cũ ấy bằng quy mô lớn hơn và cách tiếp cận tổng quát hơn—bao gồm cả tìm kiếm cây Monte Carlo (Monte Carlo tree search) và nhiều phương pháp học tăng cường khác. Những tư tưởng từ AlphaGo và AlphaZero cực kỳ gắn bó với các mô hình nền tảng ngày nay, và tôi tin rằng phần lớn tiến bộ trong vài năm tới sẽ bắt nguồn từ đây.
Sự cô đặc mô hình và các mô hình nhỏ
Gary Tan: Hiện nay, để thông minh hơn, ta cần mô hình lớn hơn—nhưng đồng thời, kỹ thuật cô đặc cũng đang tiến bộ, khiến các mô hình nhỏ trở nên cực kỳ nhanh. Mô hình Flash của các bạn rất mạnh, về cơ bản đạt được 95% hiệu năng của mô hình tiên phong, nhưng chi phí chỉ bằng một phần mười. Đúng không?
Demis Hassabis: Tôi cho rằng đây là một trong những lợi thế cốt lõi của chúng tôi. Trước tiên, bạn phải xây dựng mô hình lớn nhất để đạt được năng lực tiên phong. Một trong những lợi thế lớn nhất của chúng tôi là khả năng nhanh chóng cô đặc và nén những năng lực ấy vào các mô hình ngày càng nhỏ hơn. Chính chúng tôi đã phát minh ra phương pháp cô đặc, và hiện vẫn là những người dẫn đầu thế giới. Đồng thời, chúng tôi có động lực kinh doanh mạnh mẽ để làm điều này. Chúng tôi có lẽ là nền tảng ứng dụng AI lớn nhất toàn cầu. Chúng tôi sở hữu AI Overviews và AI Mode, cũng như Gemini; hiện nay, mọi sản phẩm của Google—bao gồm Maps, YouTube—đều đang tích hợp Gemini hoặc các công nghệ liên quan. Điều này liên quan đến hàng tỷ người dùng, cũng như hàng chục sản phẩm mỗi cái phục vụ hàng tỷ người dùng. Chúng phải cực kỳ nhanh, hiệu quả cao, chi phí thấp và độ trễ thấp. Điều này thúc đẩy mạnh mẽ việc tối ưu hóa cực hạn mô hình Flash và các phiên bản nhỏ hơn như Flash-Lite, và tôi hy vọng điều này cuối cùng sẽ phục vụ tốt cho mọi loại công việc của người dùng.
Gary Tan: Tôi tò mò không biết các mô hình nhỏ này rốt cuộc có thể thông minh đến mức nào. Việc cô đặc có giới hạn nào không? Liệu một mô hình 50B hoặc 400B có thể thông minh ngang bằng mô hình tiên phong lớn nhất hiện nay?
Demis Hassabis: Tôi không nghĩ chúng ta đã chạm tới giới hạn lý thuyết về lý thuyết thông tin—at least hiện chưa ai biết liệu có chạm tới hay không. Có thể một ngày nào đó sẽ gặp trần mật độ thông tin nào đó, nhưng hiện tại giả định của chúng tôi là sau nửa năm đến một năm kể từ khi một mô hình Pro tiên phong được phát hành, toàn bộ năng lực của nó có thể được nén vào một mô hình rất nhỏ—gần như có thể chạy trên các thiết bị biên. Bạn cũng có thể thấy điều này qua các mô hình Gemma: mô hình Gemma 4 của chúng tôi thể hiện hiệu năng rất mạnh so với các mô hình cùng kích thước. Tất cả đều áp dụng kỹ thuật cô đặc và tối ưu hiệu suất mô hình nhỏ. Vì vậy, tôi thực sự chưa thấy bất kỳ giới hạn lý thuyết nào—và tôi cho rằng chúng ta còn rất xa mới chạm tới giới hạn ấy.
Gary Tan: Hiện nay có một hiện tượng kỳ lạ: khối lượng công việc mà một kỹ sư có thể làm được hiện nay gấp khoảng 500–1000 lần so với sáu tháng trước. Một số người trong phòng này có thể đang làm việc tương đương với 1000 lần công sức của một kỹ sư Google thời kỳ 2000. Steve Yegge từng đề cập đến điều này.
Demis Hassabis: Tôi cảm thấy vô cùng phấn khích. Các mô hình nhỏ có rất nhiều ứng dụng. Một là chi phí thấp, và tốc độ nhanh cũng mang lại lợi ích tương tự. Trong việc viết mã hoặc các tác vụ khác, bạn có thể lặp lại nhanh hơn—đặc biệt khi cộng tác với hệ thống. Một hệ thống nhanh—dù không phải tiên phong nhất, ví dụ chỉ đạt 90–95% hiệu năng tiên phong—vẫn hoàn toàn đủ dùng, và lợi ích bạn thu được từ tốc độ lặp lại vượt xa khoản 10% hiệu năng bị mất.
Một hướng lớn khác là chạy các mô hình này trên thiết bị biên—not chỉ vì hiệu quả, mà còn vì quyền riêng tư và an ninh. Hãy tưởng tượng các thiết bị xử lý thông tin cá nhân cực kỳ nhạy cảm, hay robot—với robot trong nhà bạn, bạn sẽ muốn chạy một mô hình hiệu quả và mạnh ngay tại chỗ, chỉ ủy thác một số tác vụ cụ thể cho mô hình lớn trên đám mây. Luồng âm thanh và video được xử lý cục bộ, dữ liệu ở lại cục bộ—tôi hình dung đây sẽ là trạng thái cuối cùng lý tưởng.
Trí nhớ và suy luận
Gary Tan: Quay lại chủ đề cửa sổ ngữ cảnh và trí nhớ. Hiện tại các mô hình là vô trạng thái (stateless); nếu chúng có khả năng học liên tục, trải nghiệm của nhà phát triển sẽ ra sao? Làm thế nào để bạn hướng dẫn một mô hình như vậy?
Demis Hassabis: Câu hỏi này rất thú vị. Thiếu khả năng học liên tục là một trong những điểm nghẽn then chốt khiến các Agent hiện tại không thể hoàn thành toàn bộ nhiệm vụ. Các Agent hiện tại rất hữu ích trong từng phân đoạn cục bộ của nhiệm vụ—bạn có thể ghép chúng lại để làm những việc rất tuyệt—nhưng chúng không thể thích nghi tốt với môi trường cụ thể của bạn. Đó là lý do vì sao chúng chưa thể thực sự “bắn và quên” (fire-and-forget); chúng cần có khả năng học môi trường cụ thể của bạn. Để đạt được trí tuệ tổng quát thực sự, vấn đề này bắt buộc phải được giải quyết.
Gary Tan: Về mặt suy luận, chúng ta đã đi đến đâu? Chuỗi suy luận của mô hình hiện nay rất mạnh, nhưng vẫn mắc lỗi mà một sinh viên giỏi cũng không phạm phải. Vậy cụ thể cần thay đổi điều gì? Bạn kỳ vọng sẽ có những tiến triển nào trong suy luận?
Demis Hassabis: Còn rất nhiều không gian đổi mới trong cách thức suy nghĩ. Những gì chúng ta đang làm vẫn khá thô sơ và khá bạo lực. Có rất nhiều hướng cải tiến, ví dụ như giám sát quá trình chuỗi suy luận và can thiệp giữa chừng. Tôi thường cảm thấy, dù là hệ thống của chúng tôi hay của đối thủ, chúng đôi khi suy nghĩ quá mức và rơi vào vòng lặp.
Tôi thỉnh thoảng thích dùng Gemini để chơi cờ nhằm quan sát. Thực tế, tất cả các mô hình nền tảng dẫn đầu đều chơi cờ khá tệ—điều này rất thú vị. Việc theo dõi quá trình suy luận của chúng rất có giá trị, vì cờ là một lĩnh vực được hiểu rõ đầy đủ, giúp tôi nhanh chóng đánh giá liệu nó có đi lệch hướng hay suy luận có hiệu lực hay không. Chúng ta thấy rằng đôi khi nó cân nhắc một nước đi, nhận ra đó là nước đi tồi, nhưng lại không tìm được nước đi tốt hơn, cuối cùng xoay vòng rồi vẫn đi nước ấy. Một hệ thống suy luận chính xác không nên xảy ra tình huống như vậy.
Sự chênh lệch khổng lồ này vẫn tồn tại, nhưng việc khắc phục nó có thể chỉ cần một hoặc hai điều chỉnh. Đó là lý do vì sao bạn thấy hiện tượng gọi là «trí tuệ răng cưa» (jagged intelligence): một mặt nó có thể giải được bài toán đạt mức huy chương vàng IMO, mặt khác chỉ cần đổi cách đặt câu hỏi, nó lại phạm sai lầm ở toán tiểu học. Trong khả năng tự phản tư về quá trình tư duy của chính mình, dường như vẫn còn thiếu điều gì đó.
Năng lực thực tế của các Agent
Gary Tan: Agent là một chủ đề lớn. Có người gọi đó là trò thổi phồng. Cá nhân tôi lại cho rằng chúng ta mới chỉ bắt đầu. Nhận định nội bộ của DeepMind về năng lực thực tế của Agent là gì, và sự chênh lệch giữa nhận định này với tuyên truyền bên ngoài lớn đến mức nào?
Demis Hassabis: Tôi đồng ý với bạn: chúng ta mới chỉ bắt đầu. Để đạt được AGI, bạn cần một hệ thống có khả năng chủ động giải quyết vấn đề thay bạn. Điều này luôn rõ ràng với chúng tôi. Các Agent chính là con đường đó, và tôi cho rằng chúng ta mới chỉ chập chững bước đầu. Mọi người đều đang mày mò cách để các Agent phối hợp tốt hơn trong công việc—chúng tôi đã thực hiện rất nhiều thí nghiệm cá nhân, và nhiều người trong phòng này hẳn cũng đã làm như vậy. Làm thế nào để các Agent hòa nhập vào quy trình làm việc, không chỉ là điểm nhấn phụ trợ mà thực sự đảm nhận những việc mang tính nền tảng? Hiện tại, chúng ta vẫn đang trong giai đoạn thử nghiệm. Có thể chỉ mới trong hai hoặc ba tháng gần đây, chúng ta mới thực sự bắt đầu tìm ra những kịch bản đặc biệt có giá trị. Về mặt công nghệ, nó vừa mới đạt tới mức độ đó—không còn là minh họa đồ chơi nữa, mà thực sự đang mang lại giá trị về thời gian và hiệu suất cho bạn.
Tôi thường thấy người ta khởi chạy hàng chục Agent trong hàng chục giờ, nhưng tôi vẫn chưa chắc chắn liệu đầu ra có tương xứng với đầu vào hay không.
Chúng ta chưa thấy ai dùng «vibe coding» để tạo ra một trò chơi AAA vươn lên vị trí đầu bảng xếp hạng App Store. Bản thân tôi cũng từng viết code, và nhiều người trong phòng này hẳn cũng đã tạo ra một số demo nhỏ khá hay. Hiện nay tôi chỉ mất nửa tiếng để làm ra một bản mẫu trò chơi «Theme Park», trong khi hồi 17 tuổi, tôi đã mất sáu tháng để làm điều tương tự. Tôi có cảm giác rằng nếu bạn dành cả một mùa hè để làm, bạn có thể tạo ra những điều thực sự phi thường. Nhưng điều đó vẫn đòi hỏi kỹ thuật, linh hồn và gu thẩm mỹ của con người—bạn phải đảm bảo đưa những yếu tố này vào mọi sản phẩm bạn xây dựng. Thực tế, hiện vẫn chưa có đứa trẻ nào tạo ra một trò chơi bán được hàng triệu bản—lý thuyết là với mức độ đầu tư công cụ hiện tại, điều này hoàn toàn khả thi. Vì vậy, vẫn còn thiếu điều gì đó—có thể liên quan đến quy trình, có thể liên quan đến công cụ. Tôi dự đoán trong vòng 6–12 tháng tới, chúng ta sẽ chứng kiến thành quả như vậy.
Gary Tan: Trong đó, mức độ tự động hóa hoàn toàn sẽ chiếm bao nhiêu? Tôi nghĩ nó sẽ không xuất hiện ngay từ đầu dưới dạng hoàn toàn tự động. Con đường khả thi hơn là những người trong phòng này trước tiên đạt được hiệu suất tăng 1000 lần, sau đó xuất hiện người dùng các công cụ này để tạo ra ứng dụng bán chạy hoặc trò chơi bán chạy, rồi mới dần tự động hóa thêm nhiều khâu hơn.
Demis Hassabis: Đúng vậy, đó là điều bạn nên thấy trước tiên.
Gary Tan: Một phần nguyên nhân cũng là vì một số người thực tế đang làm điều này, nhưng họ không muốn công khai nói rằng Agent đã hỗ trợ họ bao nhiêu.
Demis Hassabis: Có thể vậy. Nhưng tôi muốn nói về vấn đề sáng tạo. Tôi thường lấy ví dụ AlphaGo—mọi người đều biết nước đi thứ 37 ở ván thứ hai. Với tôi, tôi luôn chờ đợi khoảnh khắc như thế xuất hiện; ngay sau khi nó xảy ra, tôi mới khởi động các dự án khoa học như AlphaFold. Chúng tôi bắt đầu làm AlphaFold ngay ngày hôm sau khi trở về từ Seoul—đó là mười năm trước. Lần này tôi đến Hàn Quốc chính là để kỷ niệm 10 năm AlphaGo.
Nhưng chỉ đi được nước thứ 37 là chưa đủ. Nó rất tuyệt và hữu ích. Nhưng hệ thống này có thể tự phát minh ra môn cờ vây không? Nếu bạn cung cấp cho nó một mô tả cấp cao như: «Một trò chơi có thể học luật trong năm phút, nhưng cả đời cũng khó thông thạo; vẻ đẹp thẩm mỹ tinh tế; một ván có thể chơi xong trong một buổi chiều», rồi hệ thống trả lại cho bạn môn cờ vây. Hệ thống hiện nay không làm được điều này. Vấn đề nằm ở đâu?
Gary Tan: Trong phòng này có thể đã có người làm được điều đó.
Demis Hassabis: Nếu có người làm được, thì câu trả lời không phải là hệ thống thiếu điều gì, mà là cách chúng ta sử dụng hệ thống có vấn đề. Đó có thể chính là câu trả lời đúng. Có thể hệ thống hiện nay đã có khả năng ấy, chỉ cần một người sáng tạo đủ thiên tài để điều khiển nó, cung cấp linh hồn cho dự án, đồng thời người đó phải hòa hợp sâu sắc với công cụ—gần như trở thành một thể thống nhất với công cụ. Nếu bạn dành trọn thời gian sống cùng những công cụ này và sở hữu khả năng sáng tạo sâu sắc, bạn có thể tạo ra những điều vượt xa tưởng tượng.
Mở nguồn và các mô hình đa phương thức
Gary Tan: Chuyển sang chủ đề khác: mở nguồn. Gần đây, việc phát hành Gemma cho phép các mô hình mạnh mẽ chạy cục bộ. Bạn nhìn nhận điều này thế nào? Liệu AI có trở thành thứ mà người dùng tự kiểm soát, thay vì chủ yếu nằm trên đám mây? Điều này sẽ thay đổi ai có thể sử dụng các mô hình này để xây dựng sản phẩm không?
Demis Hassabis: Chúng tôi là những người ủng hộ kiên định cho mở nguồn và khoa học mở. Bạn đã đề cập đến AlphaFold—chúng tôi đã mở miễn phí toàn bộ. Các công trình khoa học của chúng tôi cho đến nay vẫn được đăng tải trên các tạp chí hàng đầu. Về Gemma, chúng tôi muốn tạo ra mô hình dẫn đầu thế giới ở cùng kích thước. Hiện tại, lượt tải Gemma đã đạt khoảng 40 triệu lần—chỉ trong vòng hai tuần rưỡi.
Tôi cũng cho rằng sự hiện diện của một bộ công cụ kỹ thuật phương Tây trong lĩnh vực mở nguồn là rất quan trọng. Các mô hình mở nguồn của Trung Quốc rất xuất sắc và hiện đang dẫn đầu trong lĩnh vực mở nguồn, nhưng chúng tôi tin rằng Gemma rất cạnh tranh ở cùng kích thước.
Với chúng tôi, còn có một vấn đề về tài nguyên: không ai có đủ sức mạnh tính toán dư thừa để xây dựng hai mô hình tiên phong toàn kích thước. Vì vậy, quyết định hiện tại của chúng tôi là: các mô hình biên dành cho Android, kính thông minh, robot… nên được làm thành các mô hình mở, vì một khi đã triển khai lên thiết bị, chúng vốn đã bị phơi bày—thì chi bằng mở hoàn toàn. Chúng tôi thống nhất chiến lược mở ở cấp độ nano—điều này cũng hợp lý về mặt chiến lược.
Gary Tan: Trước khi lên sân khấu, tôi đã trình diễn với bạn hệ điều hành AI do tôi tự làm: tôi có thể tương tác trực tiếp với Gemini bằng giọng nói. Việc trình diễn với bạn khiến tôi khá căng thẳng, nhưng thật may là nó đã chạy thành công. Gemini từ đầu đã được xây dựng theo hướng đa phương thức. Tôi đã dùng rất nhiều mô hình, nhưng về khả năng tương tác trực tiếp bằng giọng nói với mô hình, kết hợp với khả năng gọi công cụ sâu và hiểu ngữ cảnh, hiện chưa có mô hình nào sánh kịp Gemini.
Demis Hassabis: Đúng vậy. Một lợi thế chưa được đánh giá đúng mức của dòng Gemini là chúng tôi xây dựng nó từ đầu theo hướng đa phương thức. Điều này khiến giai đoạn khởi đầu khó khăn hơn so với chỉ làm văn bản, nhưng chúng tôi tin rằng sẽ hưởng lợi lâu dài—và hiện tại lợi ích đó đã bắt đầu hiện thực hóa. Ví dụ về mô hình thế giới: chúng tôi đã xây dựng Genie (mô hình môi trường tương tác sinh thành do DeepMind phát triển) trên nền tảng Gemini. Trong lĩnh vực robot cũng vậy: Gemini Robotics sẽ được xây dựng trên nền tảng mô hình nền đa phương thức, và lợi thế đa phương thức của chúng tôi sẽ trở thành hào thành cạnh tranh. Chúng tôi cũng ngày càng sử dụng Gemini nhiều hơn trong Waymo (công ty xe tự lái thuộc Alphabet).
Hãy tưởng tượng một trợ lý số theo bạn vào thế giới thực—có thể trên điện thoại hoặc kính thông minh của bạn—nó cần hiểu thế giới vật lý và môi trường xung quanh bạn. Hệ thống của chúng tôi cực kỳ mạnh trong lĩnh vực này. Chúng tôi sẽ tiếp tục đầu tư mạnh vào hướng này, và tôi tin rằng lợi thế dẫn đầu của chúng tôi trong các vấn đề như thế là rất lớn.
Gary Tan: Chi phí suy luận đang giảm nhanh chóng. Khi suy luận gần như miễn phí, điều gì sẽ trở nên khả thi? Hướng tối ưu hóa của đội bạn có thay đổi vì điều này không?
Demis Hassabis: Tôi không chắc suy luận sẽ thực sự miễn phí—nghịch lý Jevons (Jevons’ Paradox: hiệu quả tăng lên lại khiến tổng mức tiêu thụ tăng) vẫn tồn tại. Tôi nghĩ cuối cùng mọi người sẽ sử dụng toàn bộ sức mạnh tính toán có được. Hãy tưởng tượng một quần thể hàng triệu Agent phối hợp làm việc, hoặc một nhóm nhỏ Agent cùng suy nghĩ theo nhiều hướng rồi tích hợp kết quả. Chúng tôi đều đang thử nghiệm các hướng này, và tất cả đều sẽ tiêu tốn nguồn tài nguyên suy luận có sẵn.
Về năng lượng: nếu chúng ta giải quyết được một vài trong số các vấn đề như hợp hạch kiểm soát được, siêu dẫn ở nhiệt độ phòng, pin tối ưu… tôi tin rằng thông qua khoa học vật liệu, chúng ta sẽ làm được điều đó—khi ấy chi phí năng lượng có thể tiến gần về không. Nhưng vẫn còn những điểm nghẽn trong sản xuất chip và các khâu vật lý khác—ít nhất là trong vài thập kỷ tới. Vì vậy, suy luận vẫn sẽ có giới hạn phân bổ, và vẫn cần sử dụng một cách hiệu quả.
Bước đột phá khoa học tiếp theo
Gary Tan: May mắn là các mô hình nhỏ ngày càng thông minh hơn. Trong phòng này có rất nhiều nhà sáng lập trong lĩnh vực sinh học và công nghệ sinh học. AlphaFold 3 đã vượt ra ngoài protein, mở rộng sang phổ rộng hơn của các phân tử sinh học. Chúng ta còn cách mô phỏng toàn bộ hệ thống tế bào bao xa? Đây có phải là một vấn đề hoàn toàn khác về cấp độ độ khó không?
Demis Hassabis: Tiến triển của Isomorphic Labs rất tốt. AlphaFold chỉ là một khâu trong quy trình phát hiện thuốc; chúng tôi đang làm các nghiên cứu hóa sinh kế cận, thiết kế các hợp chất có tính chất phù hợp… và sắp có một thông báo trọng đại.
Mục tiêu cuối cùng của chúng tôi là tạo ra một tế bào ảo hoàn chỉnh—một trình mô phỏng tế bào chức năng đầy đủ mà bạn có thể gây nhiễu, đầu ra đủ gần với kết quả thực nghiệm và có ứng dụng thực tiễn. Bạn có thể bỏ qua hàng loạt bước tìm kiếm, tạo ra lượng lớn dữ liệu tổng hợp để huấn luyện các mô hình khác, giúp chúng dự đoán hành vi của tế bào thực.
Tôi ước tính khoảng cách tới tế bào ảo hoàn chỉnh còn khoảng mười năm. Tại DeepMind, phía khoa học của chúng tôi đang bắt đầu từ nhân tế bào ảo, vì nhân tế bào tương đối tự chứa. Chìa khóa của các vấn đề như thế là khả năng cắt ra một phần có độ phức tạp phù hợp: đủ tự chứa để bạn có thể xấp xỉ hợp lý đầu vào và đầu ra, rồi tập trung vào hệ con này. Nhân tế bào rất phù hợp khi nhìn theo góc độ này.
Một vấn đề khác là dữ liệu chưa đủ. Tôi đã trò chuyện với các nhà khoa học hàng đầu làm về kính hiển vi điện tử và các kỹ thuật hình ảnh khác. Nếu có thể chụp ảnh tế bào sống mà không giết chết nó, đó sẽ là một bước đột phá mang tính cách mạng. Vì khi ấy, vấn đề sẽ trở thành một bài toán thị giác, mà chúng ta biết cách giải. Nhưng theo hiểu biết của tôi, hiện chưa có công nghệ nào có thể chụp ảnh tế bào sống, động, ở độ phân giải cấp nanomet mà không phá hủy nó. Bạn có thể chụp ảnh tĩnh ở độ phân giải đó—hiện nay đã rất tinh vi, điều này rất đáng phấn khích—nhưng chưa đủ để biến nó trực tiếp thành một bài toán thị giác.
Vì vậy, có hai hướng: một là giải pháp do phần cứng và dữ liệu thúc đẩy; hai là xây dựng các trình mô phỏng có thể học tốt hơn để mô phỏng các hệ động lực học này.
Gary Tan: Bạn không chỉ nhìn vào sinh học. Khoa học vật liệu, phát hiện thuốc, mô hình khí hậu, toán học—nếu phải xếp hạng, lĩnh vực khoa học nào sẽ bị biến đổi triệt để nhất trong năm năm tới?
Demis Hassabis: Mỗi lĩnh vực đều khiến tôi phấn khích—đây cũng là lý do lớn nhất khiến tôi luôn say mê, và là lý do tôi theo đuổi AI suốt hơn ba mươi năm qua. Tôi luôn tin rằng AI sẽ là công cụ cuối cùng của khoa học, dùng để thúc đẩy sự hiểu biết khoa học, khám phá khoa học, y học và nhận thức của chúng ta về vũ trụ.
Cách chúng tôi ban đầu nêu sứ mệnh là hai bước. Bước đầu tiên: giải quyết vấn đề trí tuệ—tức là xây dựng AGI; bước thứ hai: dùng nó để giải quyết mọi vấn đề còn lại. Sau đó, chúng tôi buộc phải điều chỉnh cách diễn đạt, vì có người hỏi: «Các anh thực sự có ý định giải quyết mọi vấn đề sao?»—chúng tôi đúng là có ý định như vậy. Giờ đây mọi người bắt đầu hiểu ý nghĩa của điều này. Cụ thể, tôi ám chỉ những lĩnh vực khoa học mà tôi gọi là «các vấn đề nút gốc»—những lĩnh vực một khi đột phá sẽ mở khóa toàn bộ các nhánh khám phá mới. AlphaFold chính là nguyên mẫu của những gì chúng tôi muốn làm. Toàn cầu có hơn ba triệu nhà nghiên cứu, gần như mọi nhà sinh học hiện nay đều đang dùng AlphaFold. Tôi nghe từ một số giám đốc điều hành công ty dược—mà tôi quen—rằng gần như mọi loại thuốc được phát hiện trong tương lai đều sẽ sử dụng AlphaFold ở một khâu nào đó trong quy trình phát hiện thuốc. Chúng tôi rất tự hào về điều này, và đây cũng là loại ảnh hưởng mà chúng tôi mong AI tạo ra. Nhưng tôi cho rằng đây mới chỉ là khởi đầu.
Tôi không thể nghĩ ra lĩnh vực khoa học hoặc kỹ thuật nào mà AI không thể hỗ trợ. Những lĩnh vực bạn nêu ra, tôi cho rằng đều đang ở «thời điểm AlphaFold 1»—kết quả đã rất hứa hẹn, nhưng vẫn chưa thực sự chinh phục những thách thức lớn nhất của lĩnh vực đó. Trong hai năm tới, chúng tôi sẽ có rất nhiều tiến triển để chia sẻ trong tất cả các lĩnh vực này—từ khoa học vật liệu cho đến toán học.
Gary Tan: Cảm giác như một hành động Promethean—ban tặng cho loài người một khả năng hoàn toàn mới.
Demis Hassabis: Đúng vậy. Tất nhiên, như hàm ý trong truyện Promethean, chúng ta cũng phải thận trọng trong việc sử dụng khả năng này như thế nào, dùng vào đâu, cũng như rủi ro khi cùng một bộ công cụ bị lạm dụng.
Kinh nghiệm thành công
Gary Tan: Trong phòng này có rất nhiều người đang cố gắng khởi nghiệp ứng dụng AI vào khoa học. Theo bạn, ranh giới giữa những công ty khởi nghiệp thực sự đẩy mạnh biên giới và những công ty chỉ khoác lên mô hình nền một lớp API rồi tự xưng là «AI for Science» nằm ở đâu?
Demis Hassabis: Tôi đang suy ngẫm: nếu hôm nay tôi ngồi ở vị trí của các bạn, trong Y Combinator xem các dự án, tôi sẽ làm gì. Một việc bạn bắt buộc phải tiên đoán là xu hướng phát triển của công nghệ AI—điều này vốn đã rất khó. Nhưng tôi thực sự tin rằng việc kết hợp xu hướng AI với một lĩnh vực công nghệ chuyên sâu khác mang lại cơ hội khổng lồ. Điểm giao thoa này—dù là vật liệu, y học hay bất kỳ lĩnh vực khoa học thực sự khó khăn nào khác, đặc biệt là những lĩnh vực liên quan đến thế giới nguyên tử—trong tương lai gần sẽ không có con đường tắt. Những lĩnh vực này sẽ không bị đè bẹp chỉ vì lần cập nhật mô hình nền tiếp theo. Nhưng nếu bạn muốn tìm một hướng có tính phòng thủ mạnh, thì đây là điều tôi sẽ khuyến nghị.
Cá nhân tôi luôn yêu thích công nghệ chuyên sâu. Những thứ thực sự bền vững và có giá trị không bao giờ dễ dàng. Tôi luôn bị công nghệ chuyên sâu thu hút. Năm 2010, khi chúng tôi khởi đầu, AI chính là công nghệ chuyên sâu—nhà đầu tư nói với tôi: «Chúng tôi đã biết thứ này không hiệu quả», giới hàn lâm cũng cho rằng đây là một hướng chuyên biệt đã thử và thất bại trong thập niên 1990. Nhưng nếu bạn tin tưởng vào ý tưởng của mình—tại sao lần này lại khác, nền tảng của bạn có tổ hợp độc đáo nào—lý tưởng nhất là bạn phải là chuyên gia cả về học máy lẫn lĩnh vực ứng dụng, hoặc có thể xây dựng được một đội ngũ sáng lập như vậy—thì ở đây tiềm ẩn ảnh hưởng và giá trị khổng lồ có thể tạo ra.
Gary Tan: Thông tin này rất quan trọng. Một việc khi đã làm xong thì trông có vẻ hiển nhiên, nhưng trước khi làm thì tất cả mọi người đều phản đối bạn.
Demis Hassabis: Đúng vậy, vì vậy bạn phải làm điều bạn thực sự đam mê. Với tôi, bất kể chuyện gì xảy ra, tôi đều sẽ làm AI. Từ rất nhỏ, tôi đã quyết định đây là điều có ảnh hưởng nhất mà tôi có thể nghĩ ra. Thực tế đã chứng minh điều đó, nhưng cũng có thể chưa—có thể chúng tôi đã sớm 50 năm. Và đây cũng là điều thú vị nhất mà tôi có thể nghĩ ra. Ngay cả khi hôm nay chúng ta vẫn đang ngồi trong một gara nhỏ, và AI vẫn chưa được làm ra, tôi vẫn sẽ tìm cách tiếp tục làm. Có thể tôi sẽ quay lại giới hàn lâm, nhưng tôi sẽ tìm được một cách nào đó để tiếp tục.
Gary Tan: AlphaFold có thể coi là một ví dụ bạn theo đuổi một hướng và đã đặt cược đúng. Điều gì khiến một lĩnh vực khoa học phù hợp để tạo ra bước đột phá theo kiểu AlphaFold? Có quy luật nào không, ví dụ như một hàm mục tiêu nào đó?
Demis Hassabis: Tôi thực sự nên dành thời gian viết điều này ra. Từ tất cả các dự án Alpha như AlphaGo và AlphaFold, tôi học được rằng công nghệ hiện tại của chúng ta hoạt động tốt nhất trong các trường hợp sau. Thứ nhất, vấn đề có không gian tìm kiếm tổ hợp khổng lồ—càng lớn càng tốt, lớn đến mức không có thuật toán vét cạn hay thuật toán đặc biệt nào có thể giải được. Không gian nước đi trong cờ vây và không gian cấu hình protein đều vượt xa số lượng nguyên tử trong vũ trụ. Thứ hai, bạn có thể định nghĩa rõ ràng hàm mục tiêu—ví dụ như tối thiểu hóa năng lượng tự do của protein, hoặc thắng trong cờ vây—để hệ thống có thể thực hiện tăng độ dốc. Thứ ba, có đủ dữ liệu, hoặc có một trình mô phỏng có thể tạo ra lượng lớn dữ liệu tổng hợp phân bố trong miền.
Nếu ba điều kiện này thỏa mãn, thì với các phương pháp hiện nay, bạn có thể đi rất xa để tìm ra «cây kim trong đống rơm» mà bạn cần. Phát hiện thuốc cũng tuân theo cùng logic: tồn tại một hợp chất nào đó có thể điều trị căn bệnh này mà không gây tác dụng phụ—miễn là các định luật vật lý cho phép nó tồn tại, vấn đề duy nhất là làm thế nào để tìm ra nó một cách hiệu quả và khả thi. Tôi cho rằng AlphaFold lần đầu tiên chứng minh rằng các hệ thống như thế có khả năng tìm ra «cây kim» này trong không gian tìm kiếm khổng lồ.
Gary Tan: Tôi muốn nâng lên một tầng cao hơn. Chúng ta đang nói về việc con người dùng các phương pháp này để tạo ra AlphaFold, nhưng còn một tầng siêu cấp hơn: con người dùng AI để khám phá không gian giả thuyết khả thi. Chúng ta còn cách hệ thống AI có thể thực hiện suy luận khoa học thực sự (chứ không chỉ khớp mẫu trên dữ liệu) bao xa?
Demis Hassabis: Tôi nghĩ chúng ta đã rất gần. Chúng tôi đang xây dựng các hệ thống tổng quát như thế. Chúng tôi có một hệ thống tên là AI co-scientist, cũng như thuật toán AlphaEvolve, có thể làm được những việc vượt xa Gemini nền tảng. Tất cả các phòng thí nghiệm tiên phong đều đang khám phá hướng này.
Nhưng cho đến nay, cá nhân tôi chưa thấy một phát hiện khoa học thực sự lớn nào được các hệ thống này tạo ra. Tôi nghĩ điều đó sắp xảy ra. Nó có thể liên quan đến vấn đề sáng tạo mà chúng ta đã thảo luận trước đây—thực sự đột phá ranh giới đã biết. Đến tầng đó, nó không còn là khớp mẫu nữa, bởi chẳng có mẫu nào để khớp. Cũng không hoàn toàn là ngoại suy, mà là một dạng suy luận tương tự (analogical reasoning), và tôi cho rằng các hệ thống hiện tại chưa có khả năng này, hoặc ít nhất là chúng ta chưa sử dụng chúng theo cách đúng.
Tôi thường dùng một tiêu chuẩn trong lĩnh vực khoa học: liệu nó có thể đề xuất một giả thuyết thực sự thú vị, chứ không chỉ kiểm chứng một giả thuyết. Bởi việc kiểm chứng một giả thuyết bản thân nó cũng có thể là một sự kiện chấn động—ví dụ như chứng minh Giả thuyết Riemann hoặc giải một trong các Bài Toán Thiên niên kỷ—nhưng có lẽ chúng ta chỉ còn vài năm nữa là đạt được điều đó.
Còn khó hơn nữa là liệu nó có thể đề xuất một tập hợp các Bài Toán Thiên niên kỷ mới—được các nhà toán học hàng đầu đánh giá là sâu sắc ngang tầm và xứng đáng để dành cả đời nghiên cứu. Tôi nghĩ điều này lại khó hơn một cấp độ, và hiện tại chúng ta chưa biết cách làm. Nhưng tôi không cho rằng đây là điều gì đó mang tính thần kỳ—tôi tin rằng các hệ thống này cuối cùng sẽ làm được, có thể chỉ còn thiếu một hoặc hai điều.
Chúng ta có thể kiểm tra điều này bằng cách—đôi khi tôi gọi nó là «Kiểm tra Einstein»: liệu bạn có thể huấn luyện một hệ thống chỉ bằng kiến thức năm 1901, rồi để nó độc lập suy luận ra những thành tựu mà Einstein đạt được vào năm 1905—bao gồm cả Thuyết Tương đối Hẹp và các bài báo khác của ông trong năm ấy? Tôi nghĩ chúng ta thực sự nên tiến hành kiểm tra này, thử đi thử lại, để xem khi nào đạt được. Một khi đạt được, các hệ thống ấy sẽ rất gần với khả năng thực sự phát minh ra những điều hoàn toàn mới.
Lời khuyên khởi nghiệp
Gary Tan: Câu hỏi cuối cùng. Trong phòng này có rất nhiều người có nền tảng kỹ thuật sâu, muốn làm những việc quy mô tương đương các bạn—các bạn là một trong những tổ chức nghiên cứu AI lớn nhất toàn cầu. Bạn đã đi từ tuyến đầu nghiên cứu AGI, điều gì là điều bạn hiện nay biết—nhưng ước gì mình biết khi 25 tuổi?
Demis Hassabis: Thực ra chúng ta đã bàn đến một phần rồi. Bạn sẽ nhận ra rằng theo đuổi những vấn đề khó và theo đuổi những vấn đề dễ thực chất cũng khó ngang nhau—chỉ là kiểu khó khác nhau. Các việc khác nhau có những kiểu khó khác nhau. Nhưng đời người ngắn ngủi, năng lượng có hạn, chi bằng hãy dồn toàn bộ sinh lực vào những việc nếu bạn không làm thì thật sự chẳng ai làm. Hãy chọn theo tiêu chí này.
Một điểm khác, tôi nghĩ trong vài năm tới, sự kết hợp liên ngành sẽ phổ biến hơn, và AI sẽ khiến việc liên ngành trở nên dễ dàng hơn.
Điểm cuối cùng phụ thuộc vào mốc thời gian AGI của bạn. Mốc của tôi là khoảng năm 2030. Nếu bạn khởi động một dự án công nghệ chuyên sâu hôm nay, điều đó thường nghĩa là một hành trình kéo dài mười năm. Vì vậy, bạn bắt buộc phải tính đến khả năng AGI sẽ xuất hiện giữa chừng. Điều đó nghĩa là gì? Không nhất thiết là điều xấu, nhưng bạn phải tính đến. Dự án của bạn có thể tận dụng AGI không? Hệ thống AGI sẽ tương tác với dự án của bạn như thế nào?
Quay lại chủ đề đã thảo luận trước đây về mối quan hệ giữa AlphaFold và các hệ thống AI tổng quát, tôi có thể hình dung một tình huống như sau: Gemini, Claude hoặc các hệ thống tổng quát tương tự sẽ gọi AlphaFold như một công cụ. Tôi không nghĩ chúng ta sẽ nhét mọi thứ vào một «bộ não» khổng lồ duy nhất—if bạn nhét toàn bộ dữ liệu protein vào Gemini, điều đó sẽ vô nghĩa, vì Gemini không cần làm việc gấp protein. Như bạn đã nói về hiệu quả thông tin, dữ liệu protein chắc chắn sẽ làm chậm khả năng ngôn ngữ của nó. Cách tốt hơn là có một mô hình sử dụng công cụ tổng quát cực mạnh, có thể gọi và thậm chí huấn luyện các công cụ chuyên biệt—nhưng các công cụ chuyên biệt phải là các hệ thống độc lập.
Cách tiếp cận này đáng để suy ngẫm sâu, vì nó ảnh hưởng đến việc bạn xây dựng điều gì hôm nay—bao gồm cả nhà máy bạn xây, hệ thống tài chính bạn xây. Bạn cần nghiêm túc đối diện với mốc thời gian AGI, tưởng tượng thế giới sẽ ra sao khi nó đến, rồi xây dựng một thứ vẫn hữu ích khi thế giới ấy xuất hiện.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














