
Bước tiếp theo của robot
Tuyển chọn TechFlowTuyển chọn TechFlow

Bước tiếp theo của robot
Khoảnh khắc ChatGPT của robot?
Tác giả: Henry
Gần đây tiến triển trong lĩnh vực robot có vẻ khá lớn?
Gần đây, các nghiên cứu về robot thông minh đang phát triển mạnh mẽ với hàng loạt video trình diễn mới liên tục xuất hiện.
Vào giữa tháng 12, Tesla đã công bố thế hệ thứ hai của Optimus. Robot này không phải là một sản phẩm công nghiệp mà chỉ là một mẫu nguyên mẫu thuần túy, nhưng mức độ hoàn thiện rất cao. Trong đoạn trình diễn, Optimus hình dáng phi hành gia này thể hiện khả năng vận động tinh tế. Musk cho biết lý do thiết kế nó có kích thước và hình dạng giống con người là để thay thế lao động con người một cách liền mạch, thực hiện mọi việc mà con người không muốn làm.

Robot của Tesla mang đậm phong cách công nghiệp khoa học viễn tưởng, trông đắt đỏ, có lẽ chính hình ảnh này đã tạo ra kỳ vọng rằng "mọi thứ đều hiển nhiên xảy ra". Thực tế, Tesla chưa trình bày nhiều về các tình huống ứng dụng cụ thể, nên dường như phản ứng của mọi người chỉ dừng lại ở mức "ồ". Tuy nhiên, hai robot được công bố lần lượt vào tháng 1 vừa qua đã khiến nhiều người thật lòng thốt lên "Á?"
Đầu tiên là dự án Mobile Aloha do nhóm nghiên cứu của Đại học Stanford công bố. Dự án này thu hút sự quan tâm rộng rãi có lẽ vì các tình huống mà họ đưa ra cho robot khá thực tiễn: nấu ăn, chơi với mèo, giặt quần áo. Thực tế, điểm đổi mới chính của dự án này nằm ở chỗ sử dụng phần cứng giá thấp (khoảng hơn 30.000 USD – vẫn quá đắt so với dùng trong nhà) để tạo ra một robot hai tay có thể di chuyển tự chủ (dù hình dạng không quá giống người), và có thể học kỹ năng từ con người. Quá trình học này nghe có vẻ hơi "trẻ trâu": lấy ví dụ nấu ăn, bạn phải điều khiển robot thực hiện một lần, sau đó nó ghi nhớ các động tác cơ bản. Lúc đầu, nó chưa thể cầm chảo vững, nhưng điều kỳ diệu là sau đó nó tự luyện tập vài chục lần thông qua camera gắn trên cánh tay, rồi cuối cùng đã có thể cầm chảo chắc chắn.

Ngay sau đó, công ty Figure công bố video robot hình người Figure 01 pha cà phê. Robot này khi nghe lệnh thoại từ con người "Hãy pha cho tôi một cốc cà phê" đã thành thạo sử dụng máy pha cà phê viên nang để làm ra một ly cà phê. Công ty Figure gọi thành tựu này là "thời khắc ChatGPT của robot hình người", không phải vì nó sử dụng mô hình ngôn ngữ lớn (LLM) để hiểu lệnh thoại, mà vì kỹ năng pha cà phê này chỉ đơn thuần được học bằng cách quan sát hành động con người, và thành quả này gây chấn động tương tự như ChatGPT. Figure 01 thông qua cảm biến thị giác quan sát hành vi con người khi dùng máy cà phê, xây dựng được hiểu biết về nhiệm vụ, sau đó tự sửa lỗi qua vài lần luyện tập, từ đó nắm bắt kỹ năng này. Điều này cho thấy tiềm năng to lớn của robot hình người đa năng được dẫn dắt bởi AI.

A robot in every home của Bill Gates
Trên tạp chí Scientific American số đầu năm 2007 từng đăng một bài viết do Bill Gates ký tên, tôi nhớ là tiêu đề trang bìa. Tựa đề bài viết là "A robot in every home".

Trong bài viết, Bill Gates bày tỏ sự hào hứng lớn đối với cơ hội trong ngành công nghiệp robot, vì điều này giống hệt thời điểm ông sáng lập Microsoft cách đó 30 năm: ngành xuất hiện công nghệ đột phá, nhưng các máy thương mại chuyên nghiệp vẫn bị độc quyền bởi một vài công ty lớn. Các startup và dân kỹ thuật tuy cũng liên tục tạo ra những thứ thú vị, nhưng phân tán quá mức, đến nỗi không hề có tiêu chuẩn hay công cụ phát triển phổ thông nào. Vì vậy, Bill Gates tiên đoán táo bạo: chỉ cần giải quyết được vấn đề này, robot chắc chắn sẽ đi vào từng gia đình.
Vì vậy, Microsoft lập tức đầu tư thúc đẩy việc này, thành lập bộ phận Robotics, ra mắt Microsoft Robotics Studio, nhằm tái hiện thành công mà Microsoft từng đạt được trong thời đại PC.
Trong bài viết, Bill Gates viện dẫn cuộc thi thử thách off-road DARPA 2004 kinh điển. Đúng vậy, chính DARPA huyền thoại nổi tiếng với việc phát minh ra Internet đã tài trợ cuộc thi này, mục tiêu là để các xe tự lái hoàn toàn tự động vượt qua sa mạc Mojave dài hơn 140 dặm. Trong năm đầu tiên, thí sinh xuất sắc nhất cũng chỉ khó nhọc đi được 7 dặm; sang năm thứ hai, đã có 5 chiếc xe hoàn thành thành công, thậm chí gần như lao vun vút về đích. Cuộc thi này đã thể hiện rõ tốc độ tiến hóa của công nghệ robot. Đây cũng chính là cơ sở cho niềm tin của Bill Gates.
Hướng phát triển lúc đó của Microsoft tập trung vào công cụ phát triển. Khả năng phần cứng như cảm biến, động cơ, cơ cấu servo đang tăng vọt, giá cả liên tục giảm, nhưng ở cấp độ phát triển, bạn vẫn phải viết chương trình riêng cho từng thiết bị phần cứng. Hơn nữa, làm sao để bộ xử lý yếu ớt lúc đó xử lý dữ liệu thời gian thực từ nhiều cảm biến đồng thời cũng là một thách thức lớn. Giải pháp của Microsoft là thiết lập tiêu chuẩn cho trình điều khiển và cung cấp khả năng đa luồng. Microsoft thậm chí còn ra mắt .NET Micro Framework. Những ai hiểu về công nghệ .NET hẳn sẽ nhận ra, việc đưa một vũ khí hạng nặng như vậy xuống công cụ phát triển robot đúng là đánh từ tầng cao xuống. Nhà phát triển robot thậm chí không cần lo lắng về quản lý bộ nhớ hay lập lịch luồng, chỉ cần viết logic là xong.

Nhưng kết quả sau này chúng ta đã biết: nỗ lực của Microsoft trong lĩnh vực robot đã không thành công, toàn bộ bộ phận Robotics cũng bị giải thể hoàn toàn trong một lần tái cơ cấu năm 2014. Theo quan sát rời rạc của cá nhân người viết, lý do chính có lẽ là chi phí và ứng dụng. Dù đến tận hôm nay, việc tự lắp một cánh tay cơ khí tại nhà vẫn tốn kha khá tiền, và chúng ta cũng chẳng biết dùng nó để làm gì.
Thời khắc ChatGPT của robot?
Quay lại hiện tại, cả Mobile Aloha lẫn Figure 01 đều thể hiện một khả năng như sau: học một hành động thông qua cảm biến (dù là camera hay khớp nối điều khiển từ xa), sau đó thông qua phản hồi tự luyện tập để thực sự nắm vững hành động đó. Không chỉ vậy, kỹ năng này có thể được lưu trữ và gọi ra thông qua hội thoại tự nhiên. Kỹ năng như vậy có thể sao chép dễ dàng sang các robot cùng loại, hoàn toàn không cần viết lại chương trình.
Rõ ràng, năng lực của robot đã thực sự đạt tới một tầm cao mới. Điều này khiến nhiều người đồng thanh thốt lên: "Liệu robot đã đến thời khắc đột phá kiểu ChatGPT chưa?"
So với thời điểm Bill Gates đưa ra dự đoán cách đây hơn chục năm, robot ngày nay đã có những bước tiến đáng kể:
1. Đa năng hơn. Trong mắt Bill Gates, robot có thể có bất kỳ hình dạng nào, miễn là hoàn thành nhiệm vụ. Khi tôi còn lang thang đến nhóm Robotics nghe lén họp, các demo họ trình bày cũng chỉ cần biết chạy, biết bò là được. Nhưng robot hiện nay đã có thể thực hiện các kỹ năng trong môi trường gia đình, và những kỹ năng này có thể sao chép, lan truyền. Thiết kế robot ngày càng hướng tới hình người, cũng nhằm thay thế con người thực hiện nhiều nhiệm vụ đa năng.
2. Tương tác tự nhiên. Với sự hỗ trợ của LLM đa phương thức, công nghệ robot hiện đại có thể hiểu lệnh thoại của con người, đồng thời học hỏi từ đầu vào cảm biến như camera — đây là bước tiến lớn trong lĩnh vực học máy, giúp giảm đáng kể độ khó trong phát triển và sử dụng.
3. Chi phí tiếp tục giảm. Mặc dù chi phí phần cứng Mobile Aloha công bố vẫn cao hơn 30.000 USD, nhưng đây là tổng chi phí bao gồm cả bệ di chuyển. Nếu chỉ tính riêng cánh tay cơ khí, thì có thể coi tạm như một thiết bị gia dụng cao cấp. Bệ di chuyển có thể trở thành một trong những điểm nóng tiếp theo — ví dụ, gần đây một số lý do đầu tư vào Tesla là "đừng nhìn Tesla như xe điện, hãy xem nó như bệ di chuyển đa năng thế hệ tiếp theo".
Jim Fan là một trong những KOL lớn nhất trong lĩnh vực này, bản thân ông là nhà khoa học cấp cao tại Nvidia và từng là thực tập sinh đầu tiên của OpenAI. Trong một bài đăng Twitter gần đây, ông giải thích lý do vì sao ông tin rằng robot sẽ là chủ đề nóng nhất năm 2024.

Tuy nhiên, ngay cả trong bài đăng đầy nhiệt huyết đó, Jim Fan vẫn cho rằng "robot AI vật lý đa năng" vẫn cần khoảng ba năm nữa.
Về điểm này, tôi giữ thái độ thận trọng nhưng lạc quan — lạc quan trước những tiến bộ khổng lồ, nhưng thận trọng vì đã có tiền lệ thất bại của Microsoft.
Nhưng có một điều chắc chắn: điều này thực sự khiến người ta phấn khích.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News










