Bài viết dài 10.000 từ của a16z: Đường biên giới tiếp theo của AI không nằm ở ngôn ngữ, mà ở thế giới vật lý — Ba vòng xoáy tăng tốc tương hỗ giữa robot, khoa học tự chủ và giao diện não-máy

2026.04.16

Chia sẻ đến

Tuyển chọn TechFlowTuyển chọn TechFlow

Bài viết dài 10.000 từ của a16z: Đường biên giới tiếp theo của AI không nằm ở ngôn ngữ, mà ở thế giới vật lý — Ba vòng xoáy tăng tốc tương hỗ giữa robot, khoa học tự chủ và giao diện não-máy

Thực sự có thể phát triển các khả năng mang tính đột phá thế hệ tiếp theo là người máy đa năng, khoa học tự chủ (nhà khoa học AI) và giao diện não–máy.

2026.04.16 - 06:44:09

a16z

Chuyên sâu báo cáo Web3

Thực sự có thể phát triển các khả năng mang tính đột phá thế hệ tiếp theo là người máy đa năng, khoa học tự chủ (nhà khoa học AI) và giao diện não–máy.

Tác giả: Oliver Hsu (a16z)

Biên dịch: TechFlow

Giới thiệu của TechFlow: Bài viết này do nhà nghiên cứu Oliver Hsu của a16z thực hiện, là bản đồ đầu tư toàn diện nhất về “AI Vật lý” kể từ năm 2026. Quan điểm của ông là: Dòng chủ đạo ngôn ngữ/mã nguồn vẫn đang mở rộng quy mô (scaling), nhưng những khả năng đột phá thế hệ tiếp theo thực sự sẽ xuất hiện ở ba lĩnh vực sát bên dòng chủ — robot tổng quát, khoa học tự chủ (nhà khoa học AI) và các giao diện người-máy mới như giao diện não-máy (BCI). Tác giả phân tích năm năng lực nền tảng hỗ trợ chúng và lập luận rằng ba mặt trận này sẽ tạo thành một vòng xoáy tăng trưởng cấu trúc (structural flywheel), hỗ trợ lẫn nhau. Đối với những người muốn hiểu rõ logic đầu tư vào AI Vật lý, đây hiện là khung phân tích đầy đủ nhất.

Hiện nay, mô hình thống trị trong lĩnh vực AI được tổ chức xung quanh ngôn ngữ và mã nguồn. Các định luật mở rộng quy mô (scaling law) của mô hình ngôn ngữ lớn (LLM) đã được làm rõ rất chi tiết; vòng xoáy thương mại dựa trên dữ liệu, công suất tính toán và cải tiến thuật toán đang vận hành mạnh mẽ; mỗi bước nâng cấp khả năng đều mang lại lợi ích đáng kể — và phần lớn lợi ích đó là có thể quan sát được. Mô hình này hoàn toàn xứng đáng với lượng vốn và sự chú ý khổng lồ mà nó thu hút.

Tuy nhiên, một nhóm lĩnh vực liền kề khác cũng đang đạt được tiến triển thực chất trong giai đoạn ươm mầm. Chúng bao gồm các hướng tiếp cận robot tổng quát như mô hình thị giác-ngôn ngữ-hành động (VLA), mô hình hành động thế giới (WAM); các suy luận vật lý và khoa học xoay quanh khái niệm “nhà khoa học AI”; và các giao diện người-máy mới tái định hình tương tác giữa con người và máy nhờ tiến bộ của AI (bao gồm cả giao diện não-máy và công nghệ thần kinh). Ngoài bản thân công nghệ, những hướng đi này cũng bắt đầu thu hút nhân tài, vốn đầu tư và các nhà sáng lập. Các nguyên ngữ kỹ thuật để mở rộng AI tiên tiến vào thế giới vật lý đang đồng thời chín muồi; tiến triển trong 18 tháng qua cho thấy những lĩnh vực này sắp bước vào giai đoạn mở rộng quy mô riêng.

Trong bất kỳ mô hình kỹ thuật nào, nơi có khoảng cách lớn nhất giữa năng lực hiện tại và tiềm năng trung hạn thường sở hữu hai đặc điểm: thứ nhất, có thể tận dụng cùng một “cơ hội mở rộng quy mô” đang thúc đẩy những tiến bộ tiên phong hiện nay; thứ hai, lại nằm cách mô hình chủ lưu một bước — đủ gần để kế thừa cơ sở hạ tầng và động lực nghiên cứu của mô hình chủ lưu, nhưng cũng đủ xa để đòi hỏi những nỗ lực bổ sung thực chất. Chính khoảng cách này đóng hai vai trò song song: tự nhiên tạo nên một “hào bảo vệ” chống lại những người theo đuổi nhanh chóng; đồng thời xác định một không gian vấn đề ít thông tin hơn, ít cạnh tranh hơn — do đó khả năng cao hơn để xuất hiện những khả năng mới, bởi vì những con đường tắt chưa được khám phá hết.

Chú thích ảnh: Minh họa mối quan hệ giữa mô hình AI hiện tại (ngôn ngữ/mã nguồn) và các hệ thống tiên phong liền kề

Hôm nay, có ba lĩnh vực phù hợp với mô tả trên: học máy cho robot, khoa học tự chủ (đặc biệt trong khoa học vật liệu và khoa học sự sống), và các giao diện người-máy mới (bao gồm giao diện não-máy, giao diện nói thầm, thiết bị đeo thần kinh và các kênh cảm giác mới như khứu giác số). Chúng không phải là những công việc hoàn toàn độc lập, mà thuộc cùng một nhóm “các hệ thống tiên phong trong thế giới vật lý”. Chúng chia sẻ một tập hợp các nguyên ngữ nền tảng chung: biểu diễn học được về động lực học vật lý, kiến trúc hướng tới hành động nhập thân (embodied action), cơ sở hạ tầng mô phỏng và dữ liệu tổng hợp, các kênh cảm giác ngày càng mở rộng, và điều phối tác nhân thông minh theo vòng khép kín (closed-loop agent orchestration). Chúng củng cố lẫn nhau thông qua phản hồi liên ngành. Và chúng cũng là nơi có khả năng cao nhất để xuất hiện những khả năng mang tính bước ngoặt — kết quả tương tác giữa quy mô mô hình, hiện thực hóa trong thế giới vật lý và các dạng dữ liệu mới.

Bài viết này sẽ rà soát các nguyên ngữ kỹ thuật hỗ trợ những hệ thống này, giải thích vì sao ba lĩnh vực trên đại diện cho những cơ hội tiên phong, đồng thời đề xuất rằng sự củng cố lẫn nhau giữa chúng tạo thành một vòng xoáy tăng trưởng cấu trúc, thúc đẩy AI tiến vào thế giới vật lý.

Năm nguyên ngữ nền tảng

Trước khi đi vào các ứng dụng cụ thể, hãy hiểu trước cơ sở kỹ thuật chung của những hệ thống tiên phong này. Việc đưa AI tiên phong vào thế giới vật lý dựa vào năm nguyên ngữ chính. Những công nghệ này không chuyên biệt cho bất kỳ lĩnh vực ứng dụng đơn lẻ nào; chúng là những thành phần xây dựng — cho phép tạo ra các hệ thống “mở rộng AI sang thế giới vật lý”. Sự chín muồi đồng thời của chúng là lý do khiến thời điểm hiện tại đặc biệt như vậy.

Chú thích ảnh: Năm nguyên ngữ nền tảng hỗ trợ AI Vật lý

Nguyên ngữ thứ nhất: Biểu diễn học được về động lực học vật lý

Nguyên ngữ căn bản nhất là khả năng học ra một biểu diễn hành vi thế giới vật lý được nén gọn và mang tính tổng quát — tức là vật thể di chuyển, biến dạng, va chạm và phản ứng với lực như thế nào. Không có lớp biểu diễn này, mỗi hệ thống AI Vật lý sẽ phải học lại từ đầu các quy luật vật lý trong lĩnh vực riêng của mình — chi phí cho việc này không ai chịu nổi.

Nhiều trường phái kiến trúc đang tiếp cận mục tiêu này từ những góc độ khác nhau. Các mô hình VLA tiếp cận từ phía trên: lấy các mô hình thị giác-ngôn ngữ (VLM) đã được huấn luyện sẵn — loại mô hình này đã sở hữu khả năng hiểu ngữ nghĩa về vật thể, quan hệ không gian và ngôn ngữ — rồi thêm một bộ giải mã hành động (action decoder) lên trên để xuất ra các lệnh điều khiển chuyển động. Điểm then chốt nằm ở chỗ chi phí khổng lồ để học “nhìn” và “hiểu thế giới” có thể được san sẻ nhờ quá trình huấn luyện sơ bộ trên quy mô internet với dữ liệu hình-ảnh/văn bản. π₀ của Physical Intelligence, Gemini Robotics của Google DeepMind và GR00T N1 của NVIDIA đều đang xác nhận hiệu quả của kiến trúc này trên quy mô ngày càng lớn.

Các mô hình WAM lại tiếp cận từ phía dưới: dựa trên các biến đổi video khuếch tán (video diffusion Transformer) được huấn luyện sơ bộ trên video quy mô internet, kế thừa các tiên nghiệm phong phú về động lực học vật lý (ví dụ: vật thể rơi như thế nào, bị che khuất ra sao, tương tác với lực ra sao), sau đó kết hợp các tiên nghiệm này với việc sinh hành động. DreamZero của NVIDIA đã chứng minh khả năng khái quát hóa zero-shot đối với các nhiệm vụ và môi trường hoàn toàn mới; chỉ cần một lượng nhỏ dữ liệu tinh chỉnh, nó có thể thực hiện chuyển giao chéo thực thể (cross-embodiment transfer) từ các video minh họa của con người, và khả năng khái quát hóa trong thế giới thực đã được cải thiện một cách đáng kể.

Con đường thứ ba có lẽ mang tính gợi mở nhất cho việc đánh giá hướng đi tương lai: bỏ qua hoàn toàn quá trình huấn luyện sơ bộ VLM và xương sống khuếch tán video. GEN-1 của Generalist là một mô hình nền tảng nhập thân (embodied foundation model) được huấn luyện từ đầu, sử dụng hơn 500.000 giờ dữ liệu tương tác vật lý thực tế, chủ yếu được thu thập từ con người thực hiện các tác vụ vận hành hàng ngày thông qua các thiết bị đeo chi phí thấp. Nó không phải là một mô hình VLA theo nghĩa chuẩn (không có xương sống thị giác-ngôn ngữ nào được tinh chỉnh), cũng không phải là WAM. Đây là một mô hình nền tảng được thiết kế riêng cho tương tác vật lý, được học từ đầu, không học các quy luật thống kê của ảnh, văn bản hay video internet, mà học các quy luật thống kê của sự tiếp xúc giữa con người và vật thể.

Các công ty như World Labs đang phát triển trí tuệ không gian (spatial intelligence), điều này có giá trị đối với nguyên ngữ này vì nó bù đắp điểm yếu chung của cả VLA, WAM và các mô hình nhập thân gốc: cả ba đều không mô hình hóa tường minh cấu trúc 3D của cảnh quan nơi chúng tồn tại. VLA kế thừa các đặc trưng thị giác 2D từ huấn luyện sơ bộ hình-ảnh/văn bản; WAM học động lực học từ video, trong khi bản thân video chỉ là phép chiếu 2D của thế giới 3D; các mô hình học từ dữ liệu cảm biến đeo có thể nắm bắt lực và động học, nhưng không nắm bắt được hình học cảnh quan. Các mô hình trí tuệ không gian có thể giúp lấp đầy khoảng trống này — học cách tái tạo và sinh ra cấu trúc 3D đầy đủ của môi trường vật lý, đồng thời suy luận trên đó: hình học, ánh sáng, che khuất, quan hệ giữa các vật thể và bố cục không gian.

Sự hội tụ của các hướng tiếp cận này chính là trọng tâm. Dù biểu diễn được kế thừa từ VLM, học được từ huấn luyện đồng thời video, hay được xây dựng nguyên sinh từ dữ liệu tương tác vật lý, thì nguyên ngữ nền tảng ở đáy vẫn là một: mô hình hành vi thế giới vật lý được nén gọn và có khả năng chuyển giao. Các biểu diễn này có thể khai thác một vòng xoáy dữ liệu khổng lồ — phần lớn vẫn chưa được khai thác — không chỉ là video internet và quỹ đạo robot, mà còn là kho dữ liệu kinh nghiệm cơ thể con người khổng lồ đang bắt đầu được thu thập quy mô thông qua các thiết bị đeo. Cùng một biểu diễn có thể phục vụ một robot đang học cách gấp khăn tắm, một phòng thí nghiệm tự chủ đang dự đoán kết quả phản ứng, hoặc một bộ giải mã thần kinh đang diễn giải ý định nắm bắt từ vỏ não vận động.

Nguyên ngữ thứ hai: Kiến trúc hướng tới hành động nhập thân

Chỉ có biểu diễn vật lý là chưa đủ. Việc chuyển “sự hiểu biết” thành hành động vật lý đáng tin cậy đòi hỏi một kiến trúc để giải quyết một loạt vấn đề liên quan mật thiết: ánh xạ ý định cấp cao thành chuỗi lệnh chuyển động liên tục, duy trì tính nhất quán trên chuỗi hành động dài, vận hành trong giới hạn độ trễ thời gian thực, và liên tục cải thiện theo kinh nghiệm.

Kiến trúc phân tầng hai hệ thống (dual-system architecture) đã trở thành thiết kế tiêu chuẩn cho các nhiệm vụ nhập thân phức tạp: một mô hình thị giác-ngôn ngữ chậm nhưng mạnh đảm nhiệm việc hiểu cảnh quan và suy luận nhiệm vụ (Hệ thống 2), kết hợp với một chiến lược thị giác-vận động nhanh và nhẹ đảm nhiệm điều khiển thời gian thực (Hệ thống 1). GR00T N1, Gemini Robotics và Helix của Figure đều áp dụng các biến thể của hướng tiếp cận này, giải quyết mâu thuẫn căn bản giữa “mô hình lớn cung cấp suy luận phong phú” và “nhiệm vụ vật lý đòi hỏi tần số điều khiển ở mức miligiây”. Generalist lại chọn một con đường khác, dùng “suy luận cộng hưởng” (resonant reasoning) để vừa suy nghĩ vừa hành động đồng thời.

Bản thân cơ chế sinh hành động cũng đang tiến hóa nhanh chóng. Đầu sinh hành động dựa trên khớp nối dòng (flow matching) và khuếch tán do π₀ khởi xướng đã trở thành phương pháp phổ biến để sinh ra hành động liên tục mượt mà và tần số cao, thay thế cho phương pháp mã hóa rời rạc (discrete tokenization) vay mượn từ mô hình ngôn ngữ. Các phương pháp này coi việc sinh hành động như một quá trình khử nhiễu tương tự như tổng hợp ảnh, tạo ra các quỹ đạo chuyển động mượt mà hơn về mặt vật lý và ổn định hơn trước sự tích lũy sai số, vượt trội so với dự đoán token tự hồi quy (autoregressive token prediction).

Nhưng tiến bộ then chốt nhất ở cấp độ kiến trúc có lẽ là việc mở rộng học tăng cường (reinforcement learning – RL) lên các mô hình VLA đã được huấn luyện sơ bộ — một mô hình nền tảng được huấn luyện trên dữ liệu minh họa có thể tiếp tục cải thiện thông qua luyện tập tự chủ, giống như con người mài giũa một kỹ năng qua luyện tập lặp lại và tự sửa chữa. Công trình π*₀.₆ của Physical Intelligence là minh họa rõ ràng và quy mô nhất cho nguyên tắc này. Phương pháp của họ, gọi là RECAP (Reinforcement Learning with Experience and Correction based on Advantages Policy), giải quyết vấn đề phân bổ tín dụng (credit assignment) trên chuỗi dài — điều mà học bắt chước (imitation learning) thuần túy không thể xử lý. Nếu một robot cầm tay máy pha cà phê Ý với một góc hơi lệch, thất bại sẽ không xuất hiện ngay lập tức mà có thể chỉ bộc lộ vài bước sau khi cắm vào. Học bắt chước không có cơ chế quy kết thất bại này về lần cầm nắm sớm hơn, trong khi học tăng cường thì có. RECAP huấn luyện một hàm giá trị (value function) để ước tính xác suất thành công khi bắt đầu từ bất kỳ trạng thái trung gian nào, sau đó để VLA chọn các hành động có ưu thế cao. Điều then chốt là nó tích hợp nhiều loại dữ liệu dị cấu (heterogeneous data) — dữ liệu minh họa, kinh nghiệm tự chủ trong chính sách (on-policy autonomous experience), và các hiệu chỉnh do chuyên gia điều khiển từ xa cung cấp trong quá trình thực thi — vào cùng một đường ống huấn luyện.

Kết quả của phương pháp này là một tín hiệu tốt cho triển vọng của học tăng cường trong lĩnh vực hành động. π*₀.₆ có thể gấp 50 loại quần áo chưa từng gặp trong môi trường gia đình thực tế, lắp ráp hộp giấy một cách đáng tin cậy và pha cà phê Ý trên máy chuyên nghiệp, vận hành liên tục hàng giờ mà không cần can thiệp của con người. Trên các nhiệm vụ khó nhất, RECAP làm tăng sản lượng hơn gấp đôi và giảm hơn một nửa tỷ lệ thất bại so với đường cơ sở học bắt chước thuần túy. Hệ thống này còn chứng minh rằng huấn luyện hậu học tăng cường (RL post-training) tạo ra những hành vi mang tính bước ngoặt mà học bắt chước không thể đạt được: các hành động phục hồi mượt mà hơn, chiến lược nắm bắt hiệu quả hơn và khả năng tự điều chỉnh sửa lỗi thích nghi — những điều hoàn toàn không tồn tại trong dữ liệu minh họa.

Những lợi ích này nói lên một điều: Động lực mở rộng quy mô tính toán — đã đẩy mô hình từ GPT-2 lên GPT-4 — giờ đây bắt đầu vận hành trong lĩnh vực nhập thân. Chỉ khác là hiện tại chúng đang ở vị trí sớm hơn trên đường cong; không gian hành động là liên tục, đa chiều và phải đối mặt với những ràng buộc khắc nghiệt không khoan nhượng của thế giới vật lý.

Nguyên ngữ thứ ba: Mô phỏng và dữ liệu tổng hợp như cơ sở hạ tầng mở rộng quy mô

Trong lĩnh vực ngôn ngữ, vấn đề dữ liệu đã được internet giải quyết: văn bản tự nhiên, miễn phí và có sẵn với khối lượng hàng nghìn tỷ token. Trong thế giới vật lý, vấn đề này khó hơn nhiều bậc — điều này hiện đã trở thành sự đồng thuận chung, và tín hiệu rõ ràng nhất là số lượng công ty khởi nghiệp chuyên cung cấp dữ liệu cho thế giới vật lý đang tăng nhanh. Việc thu thập quỹ đạo robot trong thế giới thực tốn kém, khó mở rộng quy mô và thiếu đa dạng. Một mô hình ngôn ngữ có thể học từ hàng tỷ cuộc hội thoại, nhưng một robot (ít nhất là hiện tại) không thể thực hiện hàng tỷ tương tác vật lý.

Mô phỏng và sinh dữ liệu tổng hợp là tầng cơ sở hạ tầng giải quyết ràng buộc này; sự chín muồi của chúng là một trong những lý do chính khiến AI Vật lý tăng tốc hôm nay chứ không phải năm năm trước.

Ngăn xếp mô phỏng hiện đại kết hợp động cơ mô phỏng dựa trên vật lý, kết xuất ảnh chụp thực (photorealistic rendering) dựa trên theo dõi tia sáng (ray tracing), sinh môi trường chương trình hóa (procedural environment generation), và mô hình nền tảng thế giới (world foundation model) dùng đầu vào mô phỏng để sinh video ảnh chụp thực — mô hình này chịu trách nhiệm thu hẹp khoảng cách “từ mô phỏng sang thực tế” (sim-to-real gap). Toàn bộ đường ống bắt đầu từ việc tái tạo thần kinh (neural reconstruction) môi trường thực (chỉ cần một chiếc điện thoại thông minh là đủ), điền đầy các tài sản 3D chính xác về mặt vật lý, đến cuối cùng là sinh dữ liệu tổng hợp quy mô lớn có gắn nhãn tự động.

Ý nghĩa của việc cải tiến ngăn xếp mô phỏng nằm ở chỗ nó đang thay đổi các giả định kinh tế hỗ trợ AI Vật lý. Nếu điểm nghẽn của AI Vật lý chuyển từ “thu thập dữ liệu thực tế” sang “thiết kế môi trường ảo đa dạng”, thì đường cong chi phí sẽ sụp đổ. Mô phỏng mở rộng theo công suất tính toán, không phụ thuộc vào nhân lực hay phần cứng vật lý. Việc cải tạo cấu trúc kinh tế để huấn luyện các hệ thống AI Vật lý bằng mô phỏng cũng giống như việc dữ liệu văn bản internet đã cải tạo cấu trúc kinh tế để huấn luyện mô hình ngôn ngữ — điều đó có nghĩa là đầu tư vào cơ sở hạ tầng mô phỏng tạo ra đòn bẩy cực lớn cho toàn bộ hệ sinh thái.

Tuy nhiên, mô phỏng không chỉ là nguyên ngữ dành riêng cho robot. Cùng một cơ sở hạ tầng này phục vụ cả khoa học tự chủ (bản sao số thiết bị phòng thí nghiệm, môi trường mô phỏng phản ứng để sàng lọc giả thuyết), các giao diện mới (môi trường thần kinh mô phỏng để huấn luyện bộ giải mã BCI, dữ liệu cảm giác tổng hợp để hiệu chuẩn cảm biến mới) và các lĩnh vực khác mà AI tương tác với thế giới vật lý. Mô phỏng là động cơ dữ liệu chung cho AI thế giới vật lý.

Nguyên ngữ thứ tư: Mở rộng các kênh cảm giác

Tín hiệu mà thế giới vật lý truyền tải thông tin phong phú hơn rất nhiều so với thị giác và ngôn ngữ. Xúc giác truyền tải các thuộc tính vật liệu, độ ổn định khi nắm bắt và hình học tiếp xúc — những thứ mà camera không thể nhìn thấy. Tín hiệu thần kinh mã hóa ý định vận động, trạng thái nhận thức và trải nghiệm cảm giác với băng thông vượt xa mọi giao diện người-máy hiện có. Hoạt động cơ dưới thanh quản (subvocal muscle activity) đã mã hóa ý định nói trước khi bất kỳ âm thanh nào được tạo ra. Nguyên ngữ thứ tư là khả năng mở rộng nhanh chóng của AI đối với các kênh cảm giác trước đây khó tiếp cận — không chỉ đến từ nghiên cứu, mà còn từ cả một hệ sinh thái đang xây dựng các thiết bị, phần mềm và cơ sở hạ tầng tiêu dùng.

Chú thích ảnh: Các kênh cảm giác của AI đang được mở rộng, từ AR, EMG đến giao diện não-máy

Chỉ số trực quan nhất là sự xuất hiện của các thiết bị loại mới. Thiết bị AR trong vài năm gần đây đã cải thiện đáng kể cả về trải nghiệm và hình thái (đã có công ty triển khai các ứng dụng tiêu dùng và công nghiệp trên nền tảng này); các thiết bị đeo AI ưu tiên giọng nói giúp AI ngôn ngữ tiếp cận được ngữ cảnh thế giới vật lý đầy đủ hơn — chúng thực sự đi theo người dùng vào môi trường vật lý. Về lâu dài, các giao diện thần kinh có thể mở ra các mô thức tương tác đầy đủ hơn. Sự thay đổi cách tính toán do AI mang lại tạo ra một cơ hội để nâng cấp đáng kể giao diện người-máy, và các công ty như Sesame đang xây dựng các mô thức và thiết bị mới vì mục tiêu này.

Các mô thức phổ biến hơn như giọng nói cũng mang lại lợi thế cho các mô thức tương tác mới nổi. Các sản phẩm như Wispr Flow đẩy giọng nói thành phương thức đầu vào chính (vì mật độ thông tin cao, có lợi thế tự nhiên), điều kiện thị trường cho giao diện nói thầm cũng vì thế được cải thiện. Thiết bị nói thầm sử dụng nhiều cảm biến để ghi lại chuyển động lưỡi và dây thanh âm, từ đó nhận diện lời nói một cách im lặng — đây là một mô thức tương tác người-máy có mật độ thông tin cao hơn so với giọng nói.

Giao diện não-máy (có xâm lấn và không xâm lấn) đại diện cho một tiền tuyến sâu hơn, và hệ sinh thái thương mại xoay quanh nó đang tiến triển liên tục. Tín hiệu sẽ xuất hiện tại điểm hội tụ của bốn yếu tố: xác thực lâm sàng, phê duyệt quy định, tích hợp nền tảng và vốn tổ chức — đây là một danh mục công nghệ vài năm trước vẫn còn thuần túy thuộc về lĩnh vực học thuật.

Xúc giác đang được đưa vào kiến trúc AI nhập thân, và một số mô hình trong học máy cho robot bắt đầu đưa xúc giác vào như một thành phần bình đẳng (first-class citizen). Giao diện khứu giác đang trở thành một sản phẩm kỹ thuật thực tế: màn hình khứu giác đeo được sử dụng các bộ phát mùi vi mô với phản ứng ở mức miligiây, đã được trình diễn trong các ứng dụng thực tế hỗn hợp (mixed reality); các mô hình khứu giác cũng bắt đầu được ghép nối với các hệ thống AI thị giác để giám sát quy trình hóa chất.

Quy luật chung của những tiến triển này là: chúng sẽ hội tụ với nhau ở giới hạn. Kính AR liên tục sinh dữ liệu thị giác và không gian về cách người dùng điều hướng, thao tác vật thể và tương tác với môi trường vật lý; vòng đeo EMG ghi lại các quy luật thống kê về ý định vận động của con người; giao diện nói thầm ghi lại ánh xạ từ phát âm dưới thanh quản đến đầu ra ngôn ngữ; BCI ghi lại hoạt động thần kinh với độ phân giải cao nhất hiện có; cảm biến xúc giác ghi lại động lực học tiếp xúc trong thao tác vật lý. Mỗi loại thiết bị mới đồng thời cũng là một nền tảng sinh dữ liệu, nuôi dưỡng các mô hình nền tảng cho nhiều lĩnh vực ứng dụng. Một robot được huấn luyện bằng dữ liệu suy luận ý định vận động từ EMG sẽ học được chiến lược nắm bắt khác biệt so với robot chỉ được huấn luyện bằng dữ liệu điều khiển từ xa; một giao diện phòng thí nghiệm phản hồi lệnh dưới thanh quản sẽ mang lại cách tương tác giữa nhà khoa học và máy hoàn toàn khác biệt so với phòng thí nghiệm điều khiển bằng bàn phím; một bộ giải mã thần kinh được huấn luyện bằng dữ liệu BCI mật độ cao sẽ tạo ra biểu diễn lập kế hoạch vận động mà không kênh nào khác có thể cung cấp.

Sự lan tỏa của các thiết bị này đang mở rộng chiều hiệu dụng của luồng dữ liệu đào tạo các hệ thống AI Vật lý tiên phong — và phần lớn sự mở rộng này do các công ty tiêu dùng có vốn dồi dào thúc đẩy, chứ không chỉ đến từ các phòng thí nghiệm học thuật, nghĩa là vòng xoáy dữ liệu có thể mở rộng cùng với tỷ lệ chấp nhận của thị trường.

Nguyên ngữ thứ năm: Hệ thống tác nhân khép kín

Nguyên ngữ cuối cùng thiên về cấp độ kiến trúc hơn. Nó đề cập đến việc tổ chức cảm nhận, suy luận và hành động thành một hệ thống vận hành liên tục, tự chủ và khép kín, có thể làm việc trong thời gian dài mà không cần can thiệp của con người.

Trong mô hình ngôn ngữ, sự phát triển tương ứng là sự trỗi dậy của các hệ thống tác nhân — chuỗi suy luận đa bước, sử dụng công cụ và quy trình tự sửa chữa, đẩy mô hình từ công cụ trả lời câu hỏi một lượt lên thành người giải quyết vấn đề tự chủ. Trong thế giới vật lý, sự chuyển đổi tương tự đang diễn ra, nhưng yêu cầu khắt khe hơn nhiều. Một tác nhân ngôn ngữ mắc lỗi có thể dễ dàng quay lại; còn một tác nhân vật lý làm đổ một chai thuốc thử thì không thể đảo ngược.

Hệ thống tác nhân thế giới vật lý có ba đặc điểm làm chúng khác biệt với phiên bản kỹ thuật số. Thứ nhất, chúng cần được nhúng vào một vòng khép kín thí nghiệm hoặc vận hành: kết nối trực tiếp với luồng dữ liệu thô từ thiết bị, cảm biến trạng thái vật lý và nguyên ngữ thực thi, để suy luận được thực hiện trên hiện thực vật lý chứ không phải trên mô tả bằng văn bản về hiện thực vật lý. Thứ hai, chúng cần tính bền vững trên chuỗi dài: ghi nhớ, truy xuất nguồn gốc, giám sát an toàn và hành vi phục hồi, liên kết nhiều chu kỳ vận hành với nhau chứ không coi mỗi nhiệm vụ như một sự kiện độc lập. Thứ ba, chúng cần khả năng thích nghi khép kín: điều chỉnh chiến lược dựa trên kết quả vật lý, chứ không chỉ dựa trên phản hồi bằng văn bản.

Nguyên ngữ này kết hợp các khả năng riêng lẻ (mô hình thế giới tốt, kiến trúc hành động đáng tin cậy, bộ cảm biến phong phú) thành một hệ thống hoàn chỉnh có thể vận hành tự chủ trong thế giới vật lý. Đây là tầng tích hợp, và sự chín muồi của nó là điều kiện tiên quyết để ba lĩnh vực ứng dụng được nêu dưới đây tồn tại như các triển khai trong thế giới thực chứ không chỉ là các minh họa nghiên cứu cô lập.

Ba lĩnh vực

Các nguyên ngữ trên là các lớp kích hoạt chung, bản thân chúng không xác định đâu sẽ là ứng dụng quan trọng nhất. Nhiều lĩnh vực đều liên quan đến hành động vật lý, đo lường vật lý hoặc cảm nhận vật lý. Việc phân biệt “hệ thống tiên phong” với “chỉ là phiên bản cải tiến của hệ thống hiện có” nằm ở mức độ hiệu ứng lãi kép xảy ra khi năng lực mô hình tăng lên và cơ sở hạ tầng mở rộng quy mô được giải phóng — không chỉ hiệu suất tốt hơn, mà còn xuất hiện những khả năng mới chưa từng làm được trước đây.

Robot, khoa học do AI thúc đẩy và các giao diện người-máy mới là ba lĩnh vực có hiệu ứng lãi kép mạnh nhất. Mỗi lĩnh vực đều lắp ráp các nguyên ngữ theo cách riêng biệt, đều bị kìm hãm bởi các ràng buộc mà các nguyên ngữ hiện tại đang dần giải phóng, và mỗi lĩnh vực đều trong quá trình vận hành sẽ tình cờ tạo ra một dạng dữ liệu vật lý có cấu trúc — loại dữ liệu này ngược lại làm cho chính các nguyên ngữ trở nên tốt hơn, tạo thành vòng phản hồi và đẩy nhanh toàn bộ hệ thống. Chúng không phải là những lĩnh vực AI Vật lý duy nhất đáng quan tâm, nhưng chúng là những nơi tương tác giữa năng lực AI tiên phong và hiện thực vật lý dày đặc nhất, đồng thời cũng là những nơi xa nhất so với mô hình ngôn ngữ/mã nguồn hiện tại — do đó có không gian lớn nhất để xuất hiện những khả năng mới — đồng thời cũng bổ trợ cao độ và có thể tận dụng lợi ích từ mô hình đó.

Robot

Robot là hiện thân rõ ràng nhất của AI Vật lý: một hệ thống AI phải cảm nhận, suy luận và thực hiện hành động vật lý lên thế giới vật chất trong thời gian thực. Đồng thời, nó cũng đặt mỗi nguyên ngữ dưới bài kiểm tra áp lực.

Hãy tưởng tượng một robot tổng quát cần làm gì để gấp một chiếc khăn tắm. Nó cần một biểu diễn học được về cách vật liệu dễ biến dạng phản ứng khi chịu lực — một tiên nghiệm vật lý mà huấn luyện sơ bộ ngôn ngữ không thể cung cấp. Nó cần một kiến trúc hành động có thể dịch lệnh cấp cao thành chuỗi lệnh chuyển động liên tục với tần số điều khiển trên 20Hz. Nó cần dữ liệu huấn luyện được sinh ra từ mô phỏng, bởi vì không ai thu thập hàng triệu lần trình diễn gấp khăn tắm thực tế. Nó cần phản hồi xúc giác để phát hiện trượt và điều chỉnh lực nắm, vì thị giác không thể phân biệt giữa một lần nắm chắc chắn và một lần nắm đang thất bại. Nó cũng cần một bộ điều khiển khép kín để nhận ra sai sót và phục hồi khi gấp sai, chứ không mù quáng thực hiện quỹ đạo đã ghi nhớ.

Chú thích ảnh: Việc gọi đồng thời năm nguyên ngữ nền tảng trong nhiệm vụ robot

Đây là lý do vì sao robot là một hệ thống tiên phong, chứ không phải một ngành kỹ thuật trưởng thành với công cụ tốt hơn. Các nguyên ngữ này không cải tiến khả năng robot hiện có, mà mở khóa các loại thao tác, chuyển động và tương tác trước đây không thể thực hiện được ngoài môi trường công nghiệp kiểm soát chặt chẽ và hẹp.

Trong vài năm qua, tiến bộ tiên phong rất đáng kể — trước đây chúng tôi cũng đã viết về điều này. Thế hệ VLA đầu tiên đã chứng minh mô hình nền tảng có thể điều khiển robot hoàn thành đa dạng nhiệm vụ. Tiến bộ về kiến trúc đang kết nối suy luận cấp cao và điều khiển cấp thấp trong hệ thống robot. Suy luận trên thiết bị đầu cuối (edge inference) trở nên khả thi, và khả năng chuyển giao chéo thực thể (cross-embodiment transfer) có nghĩa là một mô hình có thể thích nghi với một nền tảng robot hoàn toàn mới chỉ với lượng dữ liệu hạn chế. Thách thức cốt lõi còn lại là độ tin cậy khi mở rộng quy mô, vẫn là điểm nghẽn trong triển khai. Với xác suất thành công 95% mỗi bước, một chuỗi nhiệm vụ 10 bước chỉ còn 60%, trong khi môi trường sản xuất đòi hỏi cao hơn nhiều. Huấn luyện hậu học tăng cường (RL post-training) ở đây tiềm năng rất lớn, có thể giúp lĩnh vực này vượt qua ngưỡng năng lực và độ bền cần thiết để bước vào giai đoạn mở rộng quy mô.

Những tiến triển này ảnh hưởng đến cấu trúc thị trường. Giá trị trong ngành robot trong vài thập kỷ qua đều dồn vào hệ thống cơ khí, và cơ khí vẫn là một phần then chốt của ngăn xếp kỹ thuật; nhưng khi các chiến lược học tập trở nên chuẩn hóa hơn, giá trị sẽ dịch chuyển sang mô hình, cơ sở hạ tầng huấn luyện và vòng xoáy dữ liệu. Robot cũng phản hồi lại các nguyên ngữ nêu trên: mỗi quỹ đạo trong thế giới thực đều là dữ liệu huấn luyện để cải thiện mô hình thế giới, mỗi lần triển khai thất bại đều phơi bày khoảng trống trong phạm vi mô phỏng, và mỗi lần kiểm tra trên một thực thể mới đều mở rộng tính đa dạng của kinh nghiệm vật lý có thể sử dụng cho huấn luyện sơ bộ. Robot vừa là người tiêu dùng khắt khe nhất của các nguyên ngữ, vừa là một trong những nguồn tín hiệu cải tiến quan trọng nhất cho chúng.

Khoa học tự chủ

Nếu robot kiểm tra các nguyên ngữ bằng “hành động vật lý thời gian thực”, thì khoa học tự chủ kiểm tra một việc hơi khác — suy luận đa bước liên tục trên các hệ thống vật lý phức tạp về mặt nhân quả, với độ dài thời gian tính bằng giờ hoặc ngày, và kết quả thí nghiệm cần được diễn giải, đặt trong bối cảnh cụ thể, rồi dùng để điều chỉnh chiến lược.

Chú thích ảnh: Cách khoa học tự chủ (nhà khoa học AI) tích hợp năm nguyên ngữ nền tảng

Khoa học do AI thúc đẩy là lĩnh vực tích hợp các nguyên ngữ triệt để nhất. Một phòng thí nghiệm tự lái (self-driving lab – SDL) cần biểu diễn học được về động lực học hóa-lý để dự đoán kết quả thí nghiệm; cần hành động nhập thân để hút dịch, định vị mẫu và vận hành thiết bị phân tích; cần mô phỏng để sàng lọc trước các thí nghiệm ứng cử và phân bổ thời gian sử dụng thiết bị khan hiếm; cần khả năng cảm biến mở rộng — quang phổ, sắc ký, phổ khối và ngày càng nhiều cảm biến hóa học và sinh học mới — để đặc trưng hóa kết quả. Nó cần nguyên ngữ điều phối tác nhân khép kín hơn bất kỳ lĩnh vực nào khác: có thể duy trì luồng làm việc “giả thuyết-thí nghiệm-phân tích-chỉnh sửa” nhiều vòng mà không cần can thiệp, lưu giữ khả năng truy xuất nguồn gốc, giám sát an toàn và điều chỉnh chiến lược dựa trên thông tin được tiết lộ ở mỗi vòng.

Không lĩnh vực nào khác khai thác các nguyên ngữ này sâu sắc như vậy. Đây là lý do vì sao khoa học tự chủ là một “hệ thống” tiên phong, chứ không chỉ là tự động hóa phòng thí nghiệm tốt hơn nhờ phần mềm. Các công ty như Periodic Labs và Medra, lần lượt trong khoa học vật liệu và khoa học sự sống, đã tích hợp khả năng suy luận khoa học và khả năng xác minh vật lý thành một thể thống nhất, thực hiện vòng lặp khoa học và đồng thời tạo ra dữ liệu huấn luyện thực nghiệm.

Giá trị của các hệ thống này rất rõ ràng về mặt trực quan. Việc phát hiện vật liệu truyền thống từ khái niệm đến thương mại hóa mất vài năm, trong khi luồng công việc được AI tăng tốc lý thuyết có thể nén quá trình này xuống ngắn hơn nhiều. Ràng buộc cốt lõi đang chuyển từ việc tạo ra giả thuyết (mô hình nền tảng có thể hỗ trợ rất tốt) sang sản xuất và xác minh (cần thiết bị vật lý, robot thực hiện và tối ưu hóa khép kín). SDL chính là nhằm vào điểm nghẽn này.

Một đặc điểm quan trọng khác của khoa học tự chủ — đúng với mọi hệ thống thế giới vật lý — là vai trò của nó như một động cơ dữ liệu. Mỗi thí nghiệm mà một SDL chạy ra không chỉ tạo ra một kết quả khoa học, mà còn là một tín hiệu huấn luyện có hiện thực hóa vật lý và được xác minh thực nghiệm. Một phép đo về cách polymer kết tinh trong điều kiện cụ thể làm phong phú thêm sự hiểu biết của mô hình thế giới về động lực học vật liệu; một lộ trình tổng hợp đã được xác minh trở thành dữ liệu huấn luyện cho suy luận vật lý; một thất bại được đặc trưng hóa cho hệ thống tác nhân biết nơi dự đoán của nó thất bại. Dữ liệu do một nhà khoa học AI tạo ra từ các thí nghiệm thực tế có bản chất khác biệt so với văn bản internet hoặc đầu ra mô phỏng — nó có cấu trúc, mang tính nhân quả và đã được xác minh thực nghiệm. Đây chính là loại dữ liệu mà mô hình suy luận vật lý cần nhất, nhưng không nguồn nào khác có thể cung cấp. Khoa học tự chủ là con đường trực tiếp chuyển hiện thực vật lý thành kiến thức có cấu trúc, đồng thời cải thiện toàn bộ hệ sinh thái AI Vật lý.

Các giao diện mới

Robot mở rộng AI sang hành động vật lý, khoa học tự chủ mở rộng AI sang nghiên cứu vật lý. Các giao diện mới mở rộng nó sang sự ghép nối trực tiếp giữa trí tuệ nhân tạo và cảm giác, trải nghiệm cảm giác, tín hiệu cơ thể của con người — thiết bị trải dài từ kính AR, vòng đeo EMG đến giao diện não-máy cấy ghép. Điều kết dính danh mục này không phải một công nghệ duy nhất, mà là một chức năng chung: mở rộng băng thông và mô thức kênh giữa trí tuệ con người và hệ thống AI — và trong quá trình này, tạo ra dữ liệu tương tác giữa con người và thế giới có thể sử dụng trực tiếp để xây dựng AI Vật lý.

Chú thích ảnh: Phổ các giao diện mới, từ kính AR đến giao diện não-máy

Khoảng cách so với mô hình chủ lưu vừa là thách thức vừa là tiềm năng của lĩnh vực này. Mô hình ngôn ngữ biết các mô thức này ở cấp độ khái niệm, nhưng không quen thuộc một cách tự nhiên với các mẫu vận động của nói thầm, cấu trúc hình học của sự liên kết thụ thể khứu giác, hay động lực học theo thời gian của tín hiệu EMG. Biểu diễn để giải mã các tín hiệu này phải được học từ các kênh cảm giác đang mở rộng. Nhiều mô thức không có kho ngữ liệu huấn luyện sơ bộ quy mô internet, dữ liệu thường chỉ có thể được tạo ra từ chính giao diện — điều đó có nghĩa là hệ thống và dữ liệu huấn luyện của nó đang tiến hóa cùng nhau, điều không có tương đương trong AI ngôn ngữ.

Hiệu suất gần đây của lĩnh vực này là sự trỗi dậy nhanh chóng của các thiết bị đeo AI như một danh mục tiêu dùng. Kính AR có lẽ là ví dụ nổi bật nhất của danh mục này, các thiết bị đeo khác lấy giọng nói hoặc thị giác làm đầu vào chính cũng đang xuất hiện đồng thời.

Hệ sinh thái thiết bị tiêu dùng này vừa cung cấp một nền tảng phần cứng mới để AI mở rộng sang thế giới vật lý, vừa trở thành cơ sở hạ tầng dữ liệu thế giới vật lý. Một người đeo kính AI có thể liên tục tạo ra luồng video người thứ nhất về cách họ điều hướng, thao tác vật thể và tương tác với môi trường vật lý; các thiết bị đeo khác liên tục ghi lại dữ liệu sinh trắc học và vận động. Số lượng thiết bị đeo AI đang trở thành một mạng lưới thu thập dữ liệu thế giới vật lý phân tán, ghi lại kinh nghiệm vật lý của con người ở quy mô chưa từng có. Hãy tưởng tượng quy mô của điện thoại thông minh như một thiết bị tiêu dùng — một danh mục thiết bị tiêu dùng mới ở quy mô tương đương cho phép máy tính cảm nhận thế giới bằng một mô thức mới, đồng thời mở ra một kênh tương tác khổng lồ mới giữa AI và thế giới vật lý.

Giao diện não-máy đại diện cho một tiền tuyến sâu hơn. Neuralink đã cấy ghép thiết bị cho nhiều bệnh nhân, robot phẫu thuật và phần mềm giải mã đang được cải tiến liên tục. Stentrode nội mạch của Synchron đã được sử dụng để giúp người bị liệt điều khiển môi trường số và vật lý. Echo Neurotechnologies đang phát triển một hệ thống BCI phục hồi ngôn ngữ, dựa trên nghiên cứu của họ về giải mã lời nói vỏ não ở độ phân giải cao. Các công ty mới như Nudge cũng được thành lập để tập hợp nhân tài và vốn nhằm xây dựng các nền tảng giao diện thần kinh và tương tác não mới. Các mốc kỹ thuật ở cấp độ nghiên cứu cũng đáng chú ý: chip BISC đã trình diễn ghi chép thần kinh không dây với 65.536 điện cực trên một con chip duy nhất; nhóm BrainGate trực tiếp giải mã ngôn ngữ nội tâm từ vỏ não vận động.

Chủ đề xuyên suốt kính AR, thiết bị đeo AI, thiết bị nói thầm và BCI cấy ghép không chỉ là “chúng đều là giao diện”, mà là chúng cùng nhau tạo thành một phổ băng thông tăng dần giữa kinh nghiệm vật lý của con người và hệ thống AI — mỗi điểm trên phổ này đều hỗ trợ sự tiến triển liên tục của các nguyên ngữ nằm sau ba lĩnh vực được nêu trong bài viết. Một robot được huấn luyện bằng luồng video người thứ nhất chất lượng cao từ hàng triệu người dùng kính AI sẽ học được các tiên nghiệm thao tác hoàn toàn khác biệt so với robot được huấn luyện bằng tập dữ liệu điều khiển từ xa đã được sàng lọc; một AI phòng thí nghiệm phản hồi lệnh dưới thanh quản sẽ có độ trễ và độ mượt hoàn toàn khác biệt so với phòng thí nghiệm điều khiển bằng bàn phím; một bộ giải mã thần kinh được huấn luyện bằng dữ liệu BCI mật độ cao sẽ tạo ra biểu diễn lập kế hoạch vận động mà không kênh nào khác có thể cung cấp.

Các giao diện mới là cơ chế làm tăng kích thước chính các kênh cảm giác — chúng mở ra các kênh dữ liệu giữa thế giới vật lý và AI mà trước đây chưa từng tồn tại. Và sự mở rộng này do các công ty thiết bị tiêu dùng theo đuổi triển khai quy mô thúc đẩy, nghĩa là vòng xoáy dữ liệu sẽ tăng tốc cùng với mức độ chấp nhận của người tiêu dùng.

Các hệ thống thế giới vật lý

Lý do xem robot, khoa học tự chủ và các giao diện mới như những thể hiện khác nhau của cùng một tập hợp nguyên ngữ tiên phong là vì chúng hỗ trợ lẫn nhau và tạo ra hiệu ứng lãi kép.

Chú thích ảnh: Vòng xoáy phản hồi giữa robot, khoa học tự chủ và các giao diện mới

Robot hỗ trợ khoa học tự chủ. Phòng thí nghiệm tự lái về bản chất chính là một hệ thống robot. Các khả năng vận hành được phát triển cho robot tổng quát — nắm bắt khéo léo, xử lý chất lỏng, định vị chính xác và thực hiện nhiệm vụ đa bước — có thể được chuyển giao trực tiếp sang tự động hóa phòng thí nghiệm. Mỗi bước tiến về tính tổng quát và độ bền của mô hình robot đều mở rộng phạm vi các giao thức thí nghiệm mà SDL có thể thực hiện tự chủ. Mỗi tiến bộ trong học máy cho robot đều làm giảm chi phí thí nghiệm tự chủ và nâng cao thông lượng của nó.

Khoa học tự chủ hỗ trợ robot. Dữ liệu khoa học do phòng thí nghiệm tự lái tạo ra — các phép đo vật lý đã được xác minh, kết quả thí nghiệm nhân quả và cơ sở dữ liệu thuộc tính vật liệu — có thể cung cấp loại dữ liệu huấn luyện có cấu trúc và hiện thực hóa mà mô hình thế giới và động cơ suy luận vật lý cần nhất. Hơn nữa, các vật liệu và linh kiện mà robot thế hệ tiếp theo cần (cơ cấu chấp hành tốt hơn, cảm biến xúc giác nhạy hơn, pin mật độ cao hơn...) chính là sản phẩm của khoa học vật liệu. Các nền tảng khám phá tự chủ tăng tốc đổi mới vật liệu trực tiếp cải thiện lớp phần cứng nền tảng nơi học máy cho robot vận hành.

Các giao diện mới hỗ trợ robot. Thiết bị AR là cách có thể mở rộng quy mô để thu thập dữ liệu về “cách con người cảm nhận và tương tác với môi trường vật lý”. Giao diện thần kinh tạo ra dữ liệu về ý định vận động, lập kế hoạch nhận thức và xử lý cảm giác của con người. Những dữ liệu này cực kỳ quý giá để huấn luyện các hệ thống học máy cho robot, đặc biệt trong các nhiệm vụ liên quan đến hợp tác người-máy hoặc điều khiển từ xa.

Ở đây còn có một quan sát sâu sắc hơn về bản chất của chính những tiến bộ AI tiên phong. Mô hình ngôn ngữ/mã nguồn đã tạo ra những thành tựu phi thường và vẫn đang tăng mạnh trong thời đại mở rộng quy mô. Nhưng thế giới vật lý cung cấp những vấn đề mới, loại dữ liệu mới, tín hiệu phản hồi mới và tiêu chuẩn đánh giá mới gần như vô hạn. Việc đặt hệ thống AI lên hiện thực vật lý — thông qua robot thao tác vật thể, phòng thí nghiệm tổng hợp vật liệu, và các giao diện kết nối thế giới sinh học và vật lý — chúng ta đã mở ra một trục mở rộng quy mô mới bổ trợ cho tiền tuyến kỹ thuật số hiện tại — và rất có thể còn cải thiện lẫn nhau.

Chú thích ảnh: Tương tác và sự nổi lên giữa các trục mở rộng quy mô của AI Vật lý

Rất khó dự đoán chính xác những hành vi nào sẽ nổi lên từ các hệ thống này — bởi định nghĩa của “nổi lên” (emergence) chính là sự tương tác giữa các khả năng có thể hiểu độc lập nhưng khi kết hợp lại lại tạo ra điều chưa từng thấy. Nhưng quy luật lịch sử là lạc quan. Mỗi lần hệ thống AI có được một mô thức mới để tương tác với thế giới — nhìn (thị giác máy tính), nói (nhận dạng tiếng nói), đọc/viết (mô hình ngôn ngữ) — đều mang lại bước nhảy vọt về khả năng vượt xa tổng các cải tiến riêng lẻ. Sự chuyển đổi sang các hệ thống thế giới vật lý đại diện cho lần chuyển đổi pha tiếp theo như vậy. Theo nghĩa này, các nguyên ngữ được thảo luận trong bài viết này đang được xây dựng ngay lúc này, có thể giúp các hệ thống AI tiên phong cảm nhận, suy luận và tác động lên thế giới vật lý, từ đó mở khóa lượng lớn giá trị và tiến bộ trong thế giới vật lý.

Thông báo miễn trừ trách nhiệm: Bài viết này chỉ nhằm mục đích trao đổi thông tin, không cấu thành bất kỳ lời khuyên đầu tư nào và không nên được sử dụng làm cơ sở cho tư vấn pháp lý, thương mại, đầu tư hoặc thuế.

Chào mừng tham gia cộng đồng chính thức TechFlow

Nhóm Telegram:https://t.me/TechFlowDaily

Tài khoản Twitter chính thức:https://x.com/TechFlowPost

Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News

Liên kết gốc

Thêm vào mục ưa thích

Chia sẻ lên mạng xã hội

Tác giả

a16z

Bài viết dài 10.000 từ của a16z: Đường biên giới tiếp theo của AI không nằm ở ngôn ngữ, mà ở thế giới vật lý — Ba vòng xoáy tăng tốc tương hỗ giữa robot, khoa học tự chủ và giao diện não-máy

Tuyển chọn TechFlowTuyển chọn TechFlow

Bài viết dài 10.000 từ của a16z: Đường biên giới tiếp theo của AI không nằm ở ngôn ngữ, mà ở thế giới vật lý — Ba vòng xoáy tăng tốc tương hỗ giữa robot, khoa học tự chủ và giao diện não-máy

Năm nguyên ngữ nền tảng

Nguyên ngữ thứ nhất: Biểu diễn học được về động lực học vật lý

Nguyên ngữ thứ hai: Kiến trúc hướng tới hành động nhập thân

Nguyên ngữ thứ ba: Mô phỏng và dữ liệu tổng hợp như cơ sở hạ tầng mở rộng quy mô

Nguyên ngữ thứ tư: Mở rộng các kênh cảm giác

Nguyên ngữ thứ năm: Hệ thống tác nhân khép kín