
機器人的下一步
TechFlow Selected深潮精選

機器人的下一步
機器人的 ChatGPT Moment?
撰文:Henry
最近機器人進展有點大?
最近,智能機器人的研究進展如火如荼,新的演示層出不窮。
特斯拉在 12 月中旬發佈了第二代 Optimus。這個機器人並非工業產品,而是一個純粹的原型,但是它的完成度很好。在演示中,這個宇航員外形的 Optimus 展示了精巧的運動能力。馬斯克表示,之所以把它設計成人類的大小和形狀,就是為了無縫取代人類勞動力,去執行任何人類不願意做的事情。

特斯拉的機器人一身濃濃的科幻工業風,造價不菲的樣子,也許正是這個形象帶給了它「一切都理所當然」的預期。事實上,特斯拉並未展示太多它的應用場景,所以人們似乎對它也就是「哦」了一聲。但是,接下來 1 月份相繼公佈的兩個機器人則讓許多人發出了情真意切的「啊?」
首先亮相的是斯坦福大學研究團隊公佈的 Mobile Aloha 項目。這一項目之所以能引起廣泛興趣,可能在於它給機器人找的場景比較實用:做菜、逗貓、洗衣服。實際上,這一項目的主要創新之處在於它利用低成本的硬件(三萬多美元,對於家用還是超貴的)實現了一個自主移動的雙手操作機器人(雖然它外形不那麼像人),並且它可以學會人的技能。這個學習過程顯得有點中二,以做菜為例,你得先操作它做一遍菜,然後它就記住了大概動作。此時它不可能一下子就拿得穩鍋,但奇妙之處在於,它會再通過手臂上的攝像頭進行幾十次自主訓練,就能真正拿得穩了。

緊接著,Figure 公司公佈了他們的人形機器人 Figure 01 做咖啡的視頻。這個機器人聽到人的語音指令「給我做杯咖啡」,就能熟練使用膠囊咖啡機制作了一杯咖啡。Figure 公司把這個成就稱為「人形機器人的 ChatGPT 時刻」,這倒不是因為它使用大語言模型理解了人類語音指令,而是因為這個製作咖啡的技能僅僅是通過觀察人類動作而模仿學會的,這個成就帶給人的震撼程度堪比 ChatGPT。Figure 01 通過視覺觀察人類使用咖啡機的行為,建立了對任務行為的理解,然後通過若干次的自主訓練糾錯,掌握了這一技能。這展現了 AI 驅動的通用型人形機器人的廣闊前景。

比爾蓋茨的 A robot in every home
2007 年的第一期《科學美國人》雜誌上,曾經刊登過一篇比爾蓋茨的署名文章,我記得是封面頭條。文章的標題是「A robot in every home」。

在文章中,比爾蓋茨對機器人行業的機會表示非常激動,因為這像極了 30 年前他創辦微軟公司的時候:行業出現了突破性技術,但是專業級的商用機器依然被壟斷在少數幾個大公司手中。初創公司和極客們雖然也不斷創造出來一些有趣的東西,但是高度分散,以至於沒有任何通用的標準和開發工具。所以,比爾蓋茨大膽預言:只要解決了這個問題,機器人必將走進千家萬戶。
所以,微軟當時果斷投資推動了這個事情,成立了 Robotics 部門,推出了 Microsoft Robotics Studio,準備復刻當年微軟在 PC 時代取得的成功。
在文章中,比爾蓋茨引用了經典的 DARPA 2004 越野挑戰賽。對,就是發明了互聯網的那個傳奇 DARPA,它贊助這項比賽的目標是讓完全自主導航的車輛穿越 140 多英里的莫哈維沙漠。在第一年的比賽中,最優秀的參賽者也只艱難行駛了 7 英里,第二年就有 5 輛車成功完成比賽,而且簡直是一路狂奔著完成的。這項比賽極大的體現了機器人技術的進化速度。這也是比爾蓋茨的信心所在。
微軟當時努力的方向是開發工具層面。傳感器、馬達、伺服機構等硬件的能力在飛速提升,價格在不斷下降,但是在開發層面,你不得不給每一個硬件專門寫程序驅動它。而且,怎樣讓當時孱弱的處理器能實時處理多個傳感器的數據也是一大挑戰。微軟的解決方案一是給驅動程序建立標準,二是提供多線程能力。微軟甚至推出了.NET Micro Framework。瞭解.NET 技術的同學們應該能想到,把這樣的大殺器下放到機器人開發工具裡,簡直是降維打擊。機器人開發者甚至連內存和線程調度都不需要頭疼了,直接寫邏輯就行。

但是後來是事實我們已經知道了,微軟在機器人領域的努力並沒有成功,整個 Robotics 部門也在 2014 年的一次重組中被徹底解散。在筆者自己斷斷續續的觀察裡,感覺到的主要原因可能一是成本,二是應用。畢竟,直到今天,我們想在家裡攢一個機械臂也得不少錢,而且不知道拿它來幹什麼。
機器人的 ChatGPT Moment?
把時間軸拉回現在,無論是 Mobile Aloha 還是 Figure 01,都展示了這樣一種能力:通過傳感器(不論是攝像頭還是遠程操作關節)來學習一種動作,並且通過自主的訓練反饋來真正掌握這個動作。不僅如此,這套動作還可以形成一項技能,然後通過自然對話來調用。這樣的技能可以隨時複製到同類的機器人身上,完全不用編寫程序。
看起來,機器人的能力果真到了一個新高度。這也讓許多人不約而同的發出了驚呼:「機器人也到了 ChatGPT 那種顛覆時刻嗎?」
相比十幾年前比爾蓋茨發出預言的時候,如今的機器人有了這樣幾個新的長足進展:
1。更加通用。比爾蓋茨眼裡的機器人可以是任何形狀,只要能完成某項任務就行。筆者自己當年溜去 Robotics 組混開會的時候,見到他們的演示也都是會跑會爬就行了。但是現在的機器人已經可以擁有家用場景的技能,這些技能是可以複製傳播的。而且機器人本身的設計更趨向於人形,也是為了代替人執行各種通用任務。
2。自然交互方式。有了多模態的 LLM 加持,現在的機器人技術可以理解人的語音指令,也可以從攝像頭等輸入進行學習,這是機器學習領域極大的進步,顯著降低了開發和使用難度。
3。成本進一步降低。雖然 Mobile Aloha 公佈的硬件成本仍然高達三萬多美元,但這是包括了一個移動底座的。如果只算機械臂,似乎也能勉強當做一個高端家電。移動底座這個東西可能是下一個熱點之一,比如近期一些投資特斯拉的邏輯就是「不要把它當做電動車,要把它當做下一代的通用移動底座」。
Jim Fan 是這個領域最大的 KOL 之一,他本人是英偉達的高級科學家,也曾是 OpenAI 的第一個實習生。他在前不久的一則推文裡闡述了他為什麼認為機器人將是 2024 年最大的熱點。

但是即使在這篇熱情洋溢的推文裡,Jim 認為「通用的物理 AI 機器人」也還需要三年左右。
對此,筆者是謹慎樂觀的,樂觀是看到如此大的進步,謹慎則是有了微軟的前車之鑑。
但是有一點是確定的,它,確實很令人振奮。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News










