
로봇의 다음 단계
글: Henry
최근 로봇 기술 진전이 꽤 크지 않나요?
최근 인공지능 로봇 연구는 뜨거운 열기를 띠며 새로운 데모들이 잇달아 등장하고 있습니다.
테슬라는 12월 중순에 2세대 옵티머스(Optimus)를 공개했습니다. 이 로봇은 산업용 제품이 아니라 순수한 프로토타입이지만, 완성도가 상당히 높습니다. 데모에서 우주비행사 형태의 옵티머스는 정교한 운동 능력을 선보였고, 머스크는 이를 인간의 크기와 형태로 설계한 이유가 바로 인간이 하기 싫어하는 모든 작업을 무리 없이 대체하기 위해서라고 밝혔습니다.

테슬라의 로봇은 독특한 SF 산업 디자인을 자랑하며 고가의 이미지를 풍깁니다. 아마도 이러한 외관이 사람들의 기대감을 자연스럽게 높인 듯 보입니다. 실제로 테슬라는 아직 구체적인 활용 사례를 많이 제시하지 않았기에, 사람들은 단지 "그렇구나" 정도의 반응을 보였습니다. 그러나 이후 1월에 차례로 공개된 두 대의 로봇은 많은 이들로 하여금 진심 어린 "뭐야?"라는 탄성을 내뱉게 만들었습니다.
먼저 스탠포드대학교 연구팀이 공개한 '모바일 알로하(Mobile Aloha)' 프로젝트가 눈길을 끌었습니다. 이 프로젝트가 큰 관심을 받은 이유는 주로 실생활과 밀접한 사용 시나리오 때문인데, 요리하기, 고양이 돌보기, 빨래하기 같은 일상적인 활동을 수행할 수 있기 때문입니다. 사실 이 프로젝트의 핵심 혁신은 저렴한 하드웨어(3만 달러 이상으로 가정용으로는 여전히 비싼 수준)를 이용해 자율적으로 움직이며 양손으로 작업하는 로봇(외형은 다소 인간과 다르지만)을 구현했으며, 인간의 기술을 학습할 수 있다는 점입니다. 학습 과정은 다소 엉뚱해 보일 수도 있는데, 예를 들어 요리를 할 때 먼저 사람이 로봇을 직접 조작하여 한 번 요리를 해주면, 로봇은 그 동작을 대략적으로 기억합니다. 처음에는 팬을 제대로 잡지 못할 수 있지만, 놀라운 점은 로봇이 이후 팔에 장착된 카메라를 통해 수십 차례 스스로 훈련하면서 결국 안정적으로 팬을 들 수 있게 된다는 것입니다.

이어서 피규어(Figure)사는 자사의 인간형 로봇 '피규어 01(Figure 01)'이 커피를 만드는 영상을 공개했습니다. 이 로봇은 사람의 음성 지시인 "커피 한 잔 만들어 줘"를 듣고 캡슐 커피머신을 숙련되게 사용해 커피를 만듭니다. 피규어사는 이 성과를 '인간형 로봇의 ChatGPT 모멘트'라고 부르는데, 이는 대규모 언어 모델(LLM)이 음성 지시를 이해했기 때문이 아니라, 커피 제조 기술을 단지 인간의 행동을 관찰하고 모방함으로써 배웠다는 점에서 충격적인 의미를 갖는다고 설명합니다. 피규어 01은 인간이 커피머신을 사용하는 모습을 시각적으로 관찰하고, 이를 바탕으로 작업에 대한 이해를 형성한 후, 수차례의 자율적 훈련과 오류 수정을 거쳐 해당 기술을 습득한 것입니다. 이는 AI 기반 범용 인간형 로봇의 광범위한 가능성을 보여주는 성과입니다.

빌 게이츠의 A robot in every home
2007년 첫 번째 발행된 『사이언티픽 아메리칸(Scientific American)』 잡지에는 빌 게이츠의 기고문이 실렸던 것으로 기억합니다. 당시 표지 메인 기사였죠. 제목은 바로 「A robot in every home」였습니다.

이 글에서 빌 게이츠는 로봇 산업의 기회에 대해 매우 흥분한 모습을 보였습니다. 이는 마치 자신이 30년 전 마이크로소프트를 창업했을 당시와 흡사하다고 말했는데요, 즉 혁신적인 기술이 등장하고 있지만, 전문가용 상용 기기는 소수의 대기업에 의해 독점되어 있으며, 스타트업과 기술 애호가들이 재미있는 것을 계속 만들어내고 있음에도 불구하고 너무 분산되어 있어 통합된 표준이나 개발 도구가 전혀 없다는 것이었습니다. 따라서 빌 게이츠는 이런 문제만 해결된다면 로봇이 반드시 일반 가정에 보급될 것이라고 대담하게 예측했습니다.
그래서 마이크로소프트는 당시 과감하게 이 분야에 투자하며 로보틱스 부서를 설립하고 Microsoft Robotics Studio를 출시, PC 시대의 성공을 다시 한번 재현하려 했습니다.
그는 이 글에서 유명한 DARPA 2004 오프로드 챌린지를 인용했습니다. 맞습니다, 인터넷을 발명한 그 유명한 DARPA인데, 이 대회는 자율 주행 차량이 140마일 이상의 모하비 사막을 통과하도록 하는 것을 목표로 했습니다. 첫 해 대회에서는 최고 참가자가 겨우 7마일을 간신히 주행했지만, 다음 해에는 무려 5대의 차량이 성공적으로 완주했고, 거의 질주하다시피 완료했습니다. 이 경기는 로봇 기술의 진화 속도를 극명하게 보여줬고, 바로 이것이 빌 게이츠의 자신감의 근원이었습니다.
당시 마이크로소프트가 집중했던 것은 개발 도구 측면이었습니다. 센서, 모터, 서보 장치 등의 하드웨어 성능은 급속도로 향상되고 가격은 낮아졌지만, 개발 측면에서는 각각의 하드웨어마다 별도의 드라이버 프로그램을 작성해야 했고, 당시 약한 프로세서가 여러 센서의 데이터를 실시간으로 처리하게 하는 것도 큰 도전이었습니다. 마이크로소프트의 해결책은 드라이버 표준을 마련하고 멀티스레딩 기능을 제공하는 것이었으며, 심지어 .NET Micro Framework까지 출시했습니다. .NET 기술을 잘 아는 분이라면, 이렇게 강력한 도구를 로봇 개발에 적용한 것이 얼마나 파괴적인 영향을 미쳤는지 짐작할 수 있을 것입니다. 이제 로봇 개발자는 메모리나 스레드 스케줄링 따위에 신경 쓸 필요 없이 논리만 작성하면 되는 상황이 된 것이죠.

하지만 이후의 결과는 모두 알고 있듯이, 마이크로소프트의 로봇 분야 노력은 실패로 끝났고, 로보틱스 부서는 2014년 조직 개편 과정에서 완전히 해체되었습니다. 제가 조각조각 관찰한 바로는, 주요 원인이 비용과 활용성 때문이었던 것으로 보입니다. 어쨌든 오늘날까지도 집에서 기계 팔 하나를 조립하려면 꽤 많은 비용이 들고, 무엇보다 정작 그것으로 뭘 해야 할지도 명확하지 않습니다.
로봇의 ChatGPT 모멘트인가?
시간을 현재로 되돌려 보면, 모바일 알로하(Mobile Aloha)나 피규어 01(Figure 01) 모두 다음과 같은 능력을 보여줍니다. 즉, 카메라나 원격 조작 조인트 같은 센서를 통해 어떤 동작을 학습하고, 자율적인 훈련과 피드백을 통해 그 동작을 진정으로 습득하는 능력 말입니다. 더 나아가 이러한 동작은 하나의 기술(skill)로 형성되어 자연스러운 대화를 통해 호출될 수 있으며, 이 기술은 동일한 종류의 다른 로봇에게도 프로그래밍 없이 즉시 복제될 수 있습니다.
겉보기에 로봇의 능력은 정말 새로운 수준에 도달한 것 같습니다. 그래서 많은 사람들이 동시에 입을 모아 외칩니다. "로봇도 마치 ChatGPT처럼 혁명적인 순간을 맞은 걸까?"
빌 게이츠가 몇 년 전 예언을 했을 때와 비교하면, 오늘날의 로봇은 다음과 같은 중요한 진전을 이루었습니다.
1. 더욱 범용화됨. 빌 게이츠의 관점에서 로봇은 특정 작업을 수행할 수 있다면 어떤 형태라도 상관없었습니다. 제가 예전에 로보틱스 팀 회의에 몰래 참석했을 때 본 데모들도 그냥 움직이거나 기어다니는 정도였습니다. 하지만 지금의 로봇은 가정 환경에서 필요한 실질적인 기술을 습득할 수 있고, 그 기술은 복제 및 전파가 가능합니다. 또한 로봇 자체의 설계가 인간형에 가까워지는 추세인데, 이는 다양한 범용 작업을 인간 대신 수행하기 위한 목적입니다.
2. 자연스러운 상호작용 방식. 멀티모달 LLM의 지원을 받아, 현재의 로봇 기술은 인간의 음성 지시를 이해할 수 있고, 카메라 입력 등을 통해 학습할 수 있습니다. 이는 머신러닝 분야의 큰 진보이며, 개발과 사용의 난이도를 현저히 낮췄습니다.
3. 비용의 추가 감소. 모바일 알로하가 공개한 하드웨어 비용은 여전히 3만 달러가 넘지만, 이는 이동식 플랫폼까지 포함한 금액입니다. 만약 기계 팔만 따로 본다면, 고가의 가전제품 수준으로 간신히 볼 수 있을 정도입니다. 이동 플랫폼은 앞으로의 핫한 주제 중 하나일 수 있으며, 최근 일부 테슬라 투자자의 논리는 "전기차로 보기보다 차세대 범용 모바일 플랫폼으로 봐야 한다"는 것입니다.
짐 판(Jim Fan)은 이 분야에서 가장 영향력 있는 KOL 중 한 명으로, 본인은 엔비디아의 수석 과학자이자 과거 오픈AI의 첫 번째 인턴이기도 했습니다. 그는 최근 트윗에서 왜 로봇이 2024년 최대의 이슈가 될 것인지 설명했습니다.

하지만 이처럼 열정적인 트윗에서도 짐 판은 '범용 물리 AI 로봇'이 나오기까지는 아직 약 3년 정도 더 걸릴 것이라고 봅니다.
이에 대해 저는 조심스럽게 낙관하는 입장입니다. 진보의 규모를 본 것에 대해서는 낙관하지만, 마이크로소프트의 전철을 밟았던 과거를 생각하면 조심스러울 수밖에 없습니다.
하지만 확실한 한 가지는, 이 모든 것이 분명히 매우 흥미진진하다는 점입니다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News










