완전한 리뷰: Manus는 어떻게 탄생하게 되었을까?

2025.03.12

완전한 리뷰: Manus는 어떻게 탄생하게 되었을까?

"에이전트의 문제는 기초 모델 능력의 문제가 아니라 '정렬(alignment)'의 문제일 수 있다."

2025.03.12 - 09:20:54

Manus

Web3 심층 보도에 집중하고 흐름을 통찰

"에이전트의 문제는 기초 모델 능력의 문제가 아니라 '정렬(alignment)'의 문제일 수 있다."

작가: 완신

지난해 내가 가장 많은 정신적 양분을 얻은 창업 이야기는 Dify의 창립자 장루위(張路宇)로부터 나왔다.

내가 그를 처음 본 것은 2023년 '시시 탐도(西溪論道)' 행사에서였다. 현장에 모인 화려한 이름들 속에서 장루위라는 세 글자는 눈에 띄지 않았다. 하지만 2024년 다시 만났을 때, Dify는 이미 또 다른 이야기를 만들어냈다. 화려한 배경이 없는 한 명의 창업가가 모두가 비즈니스 모델을 묻는 의심 어린 목소리 속에서도 전 세계에서 가장 성공한 AI 오픈소스 제품 중 하나를 만들어낸 것이다.

일 년이라는 시간 동안 이 회사에서 벌어진 일들—예를 들어, 보수적이며 쉽게 공략하기 어려운 일본 시장에서 예상치 못하게 인기를 끌었다는 등의 이야기들은 나로 하여금 '창업'이라는 것을 더 깊이 이해하게 했다. 창업에는 예측할 수 없는 일이 많고, 운도 필요하며, 결국 지속적인 변화와 기대에 어긋나는 상황 속에서도 길을 찾아내는 실력이 요구된다.

이제 비슷한 이야기가 또 한 명의 주목받는 창업가—Manus.im의 샤오훙(肖弘)과 그의 팀에게서 펼쳐지고 있다.

4개월 전, 샤오훙은 이런 고민을 털어놓았다. "우리 팀은 0에서 1로 가는 능력이 뛰어나고 기회를 잘 포착하지만, 일단 1에서 N으로 넘어가면 상태가 그리 좋지 않다."

그의 과거 경력을 보면, 창업 프로젝트 대부분이 비교적 안정적이고 괜찮은 수익을 거두었으며, 직전 회사는 성공적으로 인수되었다. 2023년 그의 신생기업 '버터플라이 이펙트(Butterfly Effect)'는 브라우저 플러그인 Monica.im이라는 제품으로 백모 대전(百模大戰)이라 불리는 AI 서사 속에서 틈새 경쟁을 통해 성장 속도가 가장 빠르고 사용자 경험도 매우 뛰어난 AI 애플리케이션 중 하나가 되었다. 겉보기에 그는 순조롭게 성장하는 창업가처럼 보였고, 그런 성과들을 달성한 나이도 겨우 32세였다.

하지만 실제로 그는 큰 쾌감을 느끼지 못했다. 샤오훙의 입장에서 '연속적으로 엑싯(exit)을 성사시키는 창업가', 혹은 끊임없이 0에서 1로 가는 쾌감은 마치 성곽 안팎의 느낌과 같았다. 즉, 0에서 1로 기회를 잡는 능력이 강하고 즐겁지만, 반대로 또 다시 그 과정을 반복해야 할지도 모른다는 걱정도 함께 든다는 것이다.

2024년에는 업계 관계자들이 Monica.im처럼 메모리 기능을 갖춘 AI 어시스턴트는 두바오(豆包) 같은 강력한 경쟁자의 압박을 받을 것이며, 2023년처럼 쉽게 성장하기는 어려울 것이라고 판단했다. Monica.im은 훌륭한 0에서 1의 성과를 냈지만, 반드시 1에서 N으로 도약할 수 있을지는 미지수였다.

그래서 그가 고민했던 이유 역시 "팀이 앞으로 진짜로 더 어려운 일, 천장이 더 높은 일을 해야 한다"는 점이었다. 즉, 1에서 N을 넘어서는 것을 탐색하려는 것이었다.

이보다 앞서, 많은 사람들은 Monica.im을 주목하며 언급했던 '더 어렵고 천장이 높은 일'이 오랫동안 소문만 무성했고 팀이 발표를 미뤄온 AI 브라우저라고 추측했다.

하지만 지금 와서 보면, 그 추측은 틀렸다.

이번에 도전한 더 어려운 여정은 바로 다음과 같다: 출시 단계까지 도달한 AI 브라우저를 포기하고, 다음 번 'ChatGPT 순간'을 만들 AI 제품을 찾았으며, 유니버설 에이전트(universal agent)를 목표로 삼아 최신 출시된 Manus.im을 만들어낸 것.

Manus가 어느 정도의 혁신인지, 미래에 어떤 수준까지 도달할 수 있을지는 현재로서도 화제가 되면 폭발적인 반응을 일으키는 주제다. 하지만 주목할 가치가 있는 것은 여전히 '기대에 어긋나는 상황' 속에서 방향을 찾고 그 과정을 헤쳐 나간 점이다. Manus.im이 반드시 이 팀에게 1에서 N으로 가는 경험을 선사하거나 Monica.im의 기세를 재현할 수 있을지는 미지수지만, 이 회사의 이름처럼—'버터플라이 이펙트(Butterfly Effect)'—작은 행동과 결정들이 미래에 생각지 못한 깊은 영향을 미칠 수 있으며, '점들을 연결(connect the dots)'함으로써 내일의 길은 오늘의 경험 속에 숨어 있다는 것이다.

01 Manus의 독특한 제품 경험, AI 브라우저 개발에서 얻은 교훈에서 비롯되다

지난해 하반기부터 '버터플라이 이펙트' 팀이 AI 브라우저를 개발한다는 사실은 업계에서는 거의 '반공개'된 비밀이었다. 하지만 정식으로 공개된 제품은 통제 불가능한 관심을 받은 Manus였다.

당신이 직접 Manus를 사용해봤거나 데모 영상을 봤다면, 챗봇이나 일부 에이전트류 애플리케이션과 비교해 명백한 차이점을 느낄 것이다. Manus는 비동기적·병렬적으로 작업을 수행할 수 있다.

두바오, Kimi 또는 Computer Use 유사 앱을 열어 질문을 던지면, 답변이 올 때까지 기다려야 한다. 그렇지 않으면 응답이나 작업 중에 말을 걸면 이전 응답/작업이 중단된다. 당신과 AI 사이의 대화는 A-B-A-B 형식의 계주처럼 이루어진다.

하지만 Manus.im에서는 챗봇 형태를 유지하면서도 20개의 질문을 동시에 실행하도록 요청할 수 있다. 그 사이에 당신은 컴퓨터에서 다른 일을 자유롭게 할 수 있다. 비디오 감상, 문서 작성, 게임 플레이 등 어떤 것도 작업 진행을 방해하지 않는다. 작업이 완료되거나 문제 발생 시 Manus는 당신에게 알림을 보낸다. 작업 도중 AI의 사고가 틀어졌다고 판단되면 언제든지 대화창에서 프롬프트를 추가할 수 있고, 새로운 문맥을 반영하여 계속해서 사고하고 작업을 진행한다.

비동기적이고 병렬적인 사용 경험은 마치 당신을 위해 일하는 실習생 팀을 갖게 된 것 같다.

실제로 Manus의 비동기적 사용 경험을 위한 제품 아키텍처 설계는 팀이 이전에 공개되지 않은 제품—AI 브라우저에서 얻은 교훈에서 비롯됐다. 또한 이 때문에 팀이 많은 노력을 들였음에도 불구하고 지난해 10월 브라우저 개발을 중단하기로 결정한 이유이기도 하다.

The Browser Company는 2024년 10월 25일 Arc 브라우저의 신규 기능 개발을 중단한다고 발표하고, 자원을 새로운 브라우저 Dia로 전환하여 더 간단하고 사용하기 쉬운 AI 브라우저를 만들겠다고 밝혔다.｜출처: Arc 공식 웹사이트

"AI 브라우저에서는 AI가 사용자를 끊임없이 방해한다." 단일 사용자를 위한 시나리오로 설계되어 있기 때문이다. AI를 사용하면 당신은 사용할 수 없고, AI가 작업을 시작하면 그저 지켜볼 수밖에 없다. AI가 마우스와 컴퓨터를 장악하는 모습을 보면서, 당신은 감히 되찾으려 하지도 않고, 실수로 키보드나 마우스를 건드리면 전체 프로세스가 망가져 처음부터 다시 시작해야 할까 봐 두렵기까지 하다.

이러한 상황에서 팀은 두 가지 판단을 내렸다:

컴퓨터를 직접 이용해 Computer Use를 구현하는 것은 단기간 내에 현실화하기 어렵다.
AI는 브라우저를 사용해야 하지만, 당신의 브라우저 안에서 사용하는 것이 아니라, AI만의 브라우저를 가져야 하며, 그 브라우저는 클라우드에 존재하고 결과만 당신에게 피드백되어야 한다.

텐센트 테크놀로지의 장샤오쥔(張小珺)과의 인터뷰에서 샤오훙은 팀이 Jasper에서 ChatGPT, Monica, Cursor, Devin에 이르는 제품 형태를 정리하면서 '인간 프로그래머' Devin이 이러한 비동기적 경험 구조에 매우 부합한다는 점을 발견했다고 언급했다.

Windsurf를 사용할 때처럼, 때때로 당신이 이 라이브러리를 설치할 것인지 확인하게 하거나, 명령행 작업을 수행하면서 yes or no를 입력하게 하는 경우가 있다. 왜냐하면 실제 당신의 컴퓨터를 망가뜨릴 수도 있고, 충돌이 발생할 수도 있기 때문이다. 그래서 다음 단계로 넘어가기 위해 당신이 'yes'를 입력해야 하지만, 책임 회피(shit-passing)를 하는 식이다.

따라서 Manus 팀은 "챗봇은 클라우드에 컴퓨터를 가져야 하며, 작성한 코드나 브라우저를 통해 검색해야 하는 내용은 모두 그 컴퓨터에서 실행되어야 한다. 가상 서버이기 때문에 망가져도 상관없고, 새로운 서버를 다시 제공할 수 있다. 현재 작업이 끝나면 그 서버를 해제할 수도 있다"고 생각했다.

흥미로운 점은 Devin이 수직 분야의 하드코어 엔지니어를 선택한 것과 달리, Manus 팀은 일반적인 소비자용 AI 어시스턴트를 선택했다는 점이다. 웹뿐만 아니라 앱도 제공될 것이며, 지시를 받아 다양한 도구를 호출하고 일과 삶의 다양한 작업을 완료할 수 있는 범용 AI 어시스턴트이며, 미래에는 소비자가 감당 가능한 가격으로 작업 결과를 제공할 계획이다.

02 Less Structure, More Intelligence

명확한 아이디어와 목표를 설정한 후, 다음 단계는 이를 실현하는 것이다. Manus는 어떻게 이를 가능하게 했을까?

제품 파트너 장타오(張濤)의 관점에서 보면, 이를 위해서는 대형 모델에 컴퓨터를 제공하고, 시스템 권한(API 접근 권한 포함, 코드 저장소, 전문 데이터 검색 사이트 등)을 부여하며, 일정한 트레이닝을 제공해야 한다.

이렇게 하면 AI는 자체 컴퓨터에서 브라우저를 열고, 도구를 스케줄링하는 동작을 수행하고, 도구에서 생성된 피드백을 바탕으로 자신의 행동이 현실 세계에 미친 영향을 관찰한 후 다음 단계를 고민하고, 다시 행동하고, 관찰하는 과정을 반복할 수 있다. 이것이 AI가 탐색과 조사를 통해 작업을 완료하는 과정이다. 이 과정에서 Manus는 당신의 '교육'을 통해 당신의 요구사항을 점점 더 잘 이해하게 되며, 미래에는 요구사항이 명확하지 않더라도 각 작업에서 축적된 지식을 바탕으로 '임금님의 뜻을 읽는' 능력도 갖추게 된다.

화웨이의 천재 소년이자 Logenic AI 창립자 리보jie(李博杰)는 Manus가 다른 제품과 확연히 다른 점이 있다고 평가하며, 극한의 프로그래머 방식으로 문제를 해결한다고 말했다.｜이미지 출처: 위챗 스크린샷

Manus 제품의 철학은 팀의 제품 개발 과정에서 점차 명확해졌다. 즉, Less Structure, More Intelligence(더 적은 구조, 더 많은 지능).

이는 Manus 팀에게 수많은 '아하(A-Ha), 잠깐만!(Wait!)' 순간을 만들어냈다. 예를 들어, 올해 1월 팀에서 벌어진 일화가 있다:

Manus에게 GAIA 테스트셋의 문제를 풀어보도록 했다. "국립지리(National Geographic) 스타일의 YouTube 동영상 링크에서 여러 펭귄들이 왔다갔다하며 화면에 나타났다 사라지는 장면이 있는데, 한 프레임에 동시에 가장 다양한 종류의 펭귄이 등장할 때 몇 종류인지 세어보라."

그런데 신기한 일이 발생했다.

Manus는 먼저 해당 동영상 링크를 열었고, 첫 번째 동작은 'K 키 누르기'였다. 이후 각 프레임에서 어떤 펭귄이 등장했는지를 하나씩 스크린샷으로 기록한 후, 최대한 많은 펭귄이 등장한 프레임은 3종류라는 결론을 내렸다. 이후 Manus가 검증을 위해 다음으로 한 동작은 '3 키 누르기'였다... 최종적으로 제시한 답은 3이었다.

Manus를 만든 사람들로서 그들의 능력 한계를 잘 알고 있어야 하지만, 팀의 입장에서는 "항상 놀라움이 생긴다"는 것이다. 놀라운 것은 단지 Manus가 문제를 맞췄다는 것뿐만 아니라, 수년간 컴퓨터와 YouTube를 사용한 인간 친구들도 아마 키보드의 'K', '3' 키가 무엇인지 잘 모르겠지만, Manus는 그 키를 활용했다는 점이다.

약간 허탈한 표정으로 앞의 장면을 지켜본 팀은 Manus를 따라 키보드를 눌러보았다. 'K' 키는 일시정지(Pause) 키였고, 이를 통해 Manus가 일시정지한 후 각 프레임에서 어떤 펭귄이 등장했는지 스크린샷으로 기록할 수 있었다. '3' 키도 바로가기 키인데, 0~9는 각각 진행률 0%에서 90%를 의미하며, '3'은 30% 위치로 정확히 해당 초로 이동시켜 이 장면에 몇 종류의 펭귄이 있는지 알려주는 역할을 했다.

"이 과정은 전통적인 챗봇과 다르다. 첫째, 자막이 아닌 YouTube 영상 자체를 볼 수 있다. 둘째, 우리가 YouTube 바로가기 키를 사용하는 것을 발견했고, 매우 놀랐다. 이렇게 문제를 해결했다는 점이 놀라웠다." 샤오훙은 이전에 텐센트 테크놀로지와의 인터뷰에서 이 장면을 언급했다.

갑자기 Manus가 사람보다 프로그래밍에 능할 뿐 아니라, 사람들이 매일 사용하는 웹과 앱에서도 지식량이 상상을 초월한다는 것을 알게 됐다. 전지전능한 AI로서 모든 도구에서 가능한 모든 방법과 수단을 이해하고, 최적의 방법을 선택할 수 있다는 것이다.

이로 인해 팀은 다시 한번 'Less Structure, More Intelligence'를 실감했다. 즉, AI에 대한 인위적인 제한을 최대한 줄이고, AI가 스스로 진화하며 역할을 발휘하도록 하며, AI에게 어떻게 해야 하는지 가르치는 것이 아니다.

Manus 공식 웹사이트의 가장 아래쪽에는 Manus의 핵심 발견이 조용히 적혀있다: 'Less Structure, More Intelligence'.｜스크린샷 출처: Manus

'버터플라이 이펙트' 공동 창립자이자 수석 과학자 피크(Peak)는 Manus 제품 출시 당일, 제품 이면의 가장 중요한 원칙—'Less Structure, More Intelligence'에 대해 설명하고 확장된 사고를 제시했다:

데이터가 충분히 우수하고, 모델이 충분히 지능적이며, 아키텍처가 유연하고, 엔지니어링이 탄탄하다면 Computer Use, Deep Research, Coding Agent 등의 개념은 제품 특성이 아니라 자연스럽게 나타나는 능력이 된다.

제1원칙으로 돌아가는 것은 우리에게 제품 형태에 대해 새로운 사고를 가능하게 했다: · AI 브라우저란 브라우저에 AI를 추가하는 것이 아니라, AI를 위한 브라우저를 만드는 것이다; · AI 검색이란 색인을 검색한 후 요약하는 것이 아니라, AI가 사용자의 권한으로 정보를 취득하는 것이다; · GUI 조작이란 사용자 장비의 제어권을 빼앗는 것이 아니라, AI가 자체 가상 머신을 갖는 것이다; · 코드 작성은 궁극적인 목적이라기보다는 다양한 문제를 해결하기 위한 일반적인 매개체이다; · 웹사이트 생성의 어려움은 프레임워크를 구성하는 것이 아니라, 내용이 의미 있게 만드는 데 있다; · Attention은 all you need가 아니며, 사용자의 attention을 해방해야 DAU를 재정의할 수 있다; · ···

반복되는 'Less Structure, More Intelligence'의 발견과 실천을 통해 Manus는 기대 이상의 효과를 만들어냈다. GAIA 벤치마크에서 pass@1 점수가 OpenAI Deep Research의 cons@64 점수를 초과했으며, 내부 테스트에서도 Y Combinator W25의 전용 에이전트 제품 시나리오의 76%를 직접 커버할 수 있었다.

03 '에이전트는 기초 모델 능력의 문제가 아니라 "정렬(alignment)"의 문제일 수 있다'

현재 이러한 통찰의 가치는 더 넓은 범위에서 논의되고 있다:

Hugging Face 창립자이자 CEO 클레망 델랑그(Clement Delangue)는 X 플랫폼에서 피크의 발견이 고민할 만하다고 언급했다. 에이전트의 능력은 기반 모델에 걸린 것이 아니라, GPT-3과 InstructGPT(ChatGPT)의 차이처럼 정렬(alignment)의 문제다. 일부 오픈소스 기반 모델은 '질문의 복잡성에 관계없이 한 번의 회전(턴) 안에 모든 것을 답변할 수 있도록' 단순히 훈련되었지만, 이것은 챗봇 시나리오의 요구사항일 뿐이며, 에이전트의 경로에 약간의 후속 훈련(post-training)만 적용해도 큰 차이를 만들 수 있다.｜스크린샷 출처: X

Manus는 MCP(모델 컨텍스트 프로토콜)를 도입하지 않고, AI가 자체적으로 코드를 작성하여 API를 호출함으로써 다양한 롱테일 작업을 수행할 수 있다.｜스크린샷 출처: X

지난 며칠간 Manus에 대한 논의에서 가장 많이 나온 질문은 '범용 AI 에이전트'가 정말 가능한가, 그리고 그 한계는 어디인가?였다.

피크의 관점에서 보면, 인간과 세상의 상호작용은 매우 표준화되어 있으며 눈, 손, 귀가 있듯이 action space(행동 공간)를 명확히 정의하면, 에이전트를 원래 사람이 수행하던 단계에 삽입할 수 있어야 한다.

사람이 다양한 도구를 사용해 수직 분야의 깊은 작업을 수행할 수 있다면, 충분히 좋은 지식을 갖고 적절한 훈련을 받고, 세상과 상호작용할 수 있는 좋은 인터페이스를 갖춘 에이전트라면 사람처럼 일할 수 있어야 하며, 특정 SaaS 제품을 사용하게 할 수도 있다. 예를 들어 Manus.im 공식 웹사이트에 소개된 집 찾기 사례는 AI가 부동산 전문 SaaS 제품을 사용해 작업하는 것이다.

그는 에이전트가 누구를 위해 서비스하는지가 아니라, 도구를 사용하는 에이전트의 한계를 명확히 정의해야 한다고 생각한다. Manus는 구체적인 일을 하는 한 사람을 모방하는 것이 아니라, 예를 들어 개발자, 제품 매니저 등으로 나누는 역할 기반 에이전트가 아니다. 오히려 일할 줄 아는 사람, 실습생이 어떻게 일하는지를 모방하는 것이다.

Manus의 다중 에이전트 시스템(Multi-agent system)은 계획(Planning)과 실행(Execution)의 분리로 이루어진다.

실행기(Executor) 측면에서 Manus는 프로그래밍 및 장기 계획, 점진적 문제 해결 능력에서 일시적으로 앞선 Claude를 사용했으며, Qwen의 일련 모델을 후속 훈련에 활용했다.

어제 Manus는 알리바바 통의천문(通義千問)과 전략적 제휴를 맺고, 국산 모델 및 컴퓨팅 플랫폼에서 Manus의 모든 기능을 실현하기로 했다.｜이미지 출처: Manus

계획기(Planner) 부분에서는 Manus가 많은 작업을 수행했다.

현재 시장에 나오는 상용 API 또는 모델은 본질적으로 챗봇 시나리오에 맞춰 정렬(aligned)되어 있다. 훈련 시 사용자가 얼마나 복잡한 질문을 하든 최적화 목표는 한 번의 응답 안에 질문을 명확히 답변하는 것이지만, 이것은 에이전트가 필요로 하는 planning과 정반대다.

따라서 시장에 나와 있는 기존 모델을 그대로 에이전트 시나리오에 사용하면 '정렬(alignment)'이 되지 않아, 모델은 항상 한 차례 대화 안에 '엉성한' 결과를 서둘러 내놓는 경향이 있다. 마치 많은 bullet point 요약처럼 말이다.

"정렬 방식은 달라야 한다. 우리 팀은 전담 정렬을 위해 다른 데이터가 필요하다고 생각한다"고 샤오훙은 말했다.

지난해 10월, 피크는 저우후(Zhihu)에서도 OpenAI o1을 재현하려는 흥미 프로젝트—Steiner 오픈소스 모델의 진행 상황과 실패를 기록했는데, 실제로 이 프로젝트는 Manus의 계획기 부분인 step-by-step planning(단계별 계획)의 예비 연구였다.

전반적으로 Manus는 일을 처리하는 사람을 모방하는 것이며, 이것이 팀이 Manus를 범용 AI 어시스턴트로 정의한 제품 개념이다. 그 한계에 대한 고민은 팀도 아마 여전히 탐색 중이며, 더 많은 사용자 사례가 필요할 것이다.

Manus 출시 전 텐센트 테크놀로지의 인터뷰에서 샤오훙은 이미 Manus의 범용성에 대한 초기 고민을 언급한 바 있다. "매우 핵심적인 문제이자 제품 매니저의 중요한 책임 중 하나는 사용자 기대치를 잘 조절하는 것이다. 가령 세상의 모든 일을 할 수 있다고 가정한다면, '나는 어떻게 100만 달러를 벌 수 있을까?' 같은 것은 본래 에이전트가 수행해야 할 일이 아니다. 하지만 우리는 더 구체적인 사례를 제시해 사용자 기대치를 합리적으로 만들고, 그렇게 하면 사용자들이 더 원활하게 사용할 수 있을 것이다."

04 '셸(shell)에는 셸의 용도가 있다', 셸을 가장 잘 아는 팀

2월 27일 새벽, Manus 제품 파트너 장타오와 수석 과학자 지이이차오(季逸超, Peak)는 Manus.im의 순위 발표 결과를 확인하는 순간, 두 사람은 눈물을 흘렸다. Manus는 GAIA 벤치마크에서 OpenAI의 Deep Research를 능가했으며, OpenAI가 순위를 올릴 때의 비용(약 2달러/작업)의 1/10 수준의 비용으로 예상치 못한 성과를 거둔 것이다.

이미지 출처: Manus.im

수십 명의 팀원이 에이전트가 전 업계의 공감대가 된 경쟁 상황 속에서, 첫 번째 범용 에이전트 제품을 만든 팀 중 하나가 되었으며, 제품 엔지니어링과 프론트엔드 인터랙션 경험에서도 독창성을 보였다.

성과를 이루는 것에서 오는 긍정적인 피드백은 무엇보다 크다. 창업 팀에게는 이것보다 더 좋은 동기부여가 없다. 그러나 그 이전에 Manus는 어떻게 탄생하게 된 것일까? 왜 이 팀이 만들었을까?

"현재 모델의 능력은 복잡하고 여러 단계를 거쳐야 완료할 수 있는 작업을 수행할 수 있다. 다만 그런 제품이 없어서 사람들이 그것을 느끼지 못할 뿐이다." 샤오훙은 이전 텐센트 테크놀로지 인터뷰에서 이 통찰을 언급하며 이 질문을 이해할 수 있다고 했다.

또한, "에이전트 제품을 시도할 기회를 가진 팀은 많지 않다. 왜냐하면 많은 복합 능력이 필요하기 때문이다." 챗봇을 다뤄봤어야 하고, AI 프로그래밍 관련 경험도 있어야 하며, 브라우저 관련 경험도 있어야 하고, LLM의 한계에 대한 좋은 감각도 있어야 한다. 즉, 현재 어떤 수준인지, 앞으로 어떤 수준으로 발전할지에 대한 감각 말이다. 이러한 능력을 동시에 갖춘 회사는 많지 않으며, 이런 능력을 갖춘 회사라도 아마 손에 든 구체적인 사업에 집중하고 있을 것이다. 우리는 운좋게도 일부 동료들이 마침 시간이 나서 이 일을 함께 해낼 수 있었다.

"운좋게도(luckily)."

적절한 시기에 모델 능력이 에이전트를 만들 수 있을 정도로 도달했다는 것을 발견했으며, 반드시 Operator와 같은 엔드투엔드(end-to-end) 대형 모델을 기다릴 필요는 없었다;
또한 문제는 정렬(alignment)에 있다는 것을 발견했다;
챗봇에서 파생된 모든 기능과 AI 브라우저를 다뤄본 경험도 있었다;
또한所谓 '셸(shell)' 형태로 대형 모델 애플리케이션 제품을 오랫동안 만들어왔기 때문에 LLM에 민감한 감각을 가지고 있었다;

'버터플라이 이펙트' 팀은 현재 범용 에이전트를 만들기 위한 모든 요소를 갖추었으며, 따라서 업계에서 상대적으로 완성도가 높은 범용 에이전트를 만들 수 있었다.

Manus를 만들기로 한 결정적 순간이 언제였는지 묻는 질문에 대해 피크는 더 많은 세부 사항을 재현했다. "창업에는 '깨끗한' 전환(pivot)이란 없다. 모든 것은 연속적이며 명확한 경계가 없다."

"제품을 만들면서도 끊임없이 외부 상황을 주의 깊게 살핀다." 당시 몇 가지 일이 있었다. 브라우저를 만들던 중 엣지(edge) 모델을 다뤘는데, 이후 브라우저가 필요한 시나리오가 매우 다양하고 다양한 기능이 필요하다는 것을 알게 되었으며, 개발 과정에서 기반 모델의 강화 속도가 빨라지고 있음을 발견했다. 이 강도는 에이전트와의 차이가 단지 정렬(alignment) 문제일 정도였다. 외부에서는 대형 언어 모델이 점차 수렴하고 벽에 부딪힌 것처럼 보일지라도 말이다.

동시에 외부 환경도 변화하고 있었다. 작년 초 Cursor가 인기를 끌었고, 이후 Windsurf와 Devin이 이어졌다. 이 모든 것은 동일한 맥락을 따른다. 즉, 에이전트가 프로그래밍 분야에서 인기를 끌었으며, 그 경로는 점진적으로 진화했다. Cursor는 프로그래머의 코파일럿(copilot)으로서 프로그래밍 효율을 높였고, Windsurf부터는 자동화된 프로세스가 점차 들어오면서 로컬 머신에서 더 강력한 자동화 능력을 제공했으며, Devin은 자동화의 새로운 고도에 도달했다.

VC의 동향도 일치했다. 작년과 재작년 YC는 두 가지 유형의 회사에 투자했다. 하나는 클라우드 기반 브라우저, 예를 들어 Browser base; 두 번째는 e2b처럼 가벼운 AI 샌드박스(Sandbox) 가상 머신 같은 것이었다.

이것은 '모델 인프라가 빠르게 성숙하고 있으며, Infra 인프라도 빠르게 성숙하고 있다'는 것을 의미한다. 또한 외부 제품들이 점점 더 많은 수용성을 얻고 있는 것을 보면서, 우리는 이것이 올인(all in)할 만한 가치가 있는 방향이라고 생각했다. 매우 점진적이고 부드러운 과정이었으며, 브라우저 개발 중 쌓은 크로미움(chromium) 등의 인프라를 무리 없이 옮길 수 있었기 때문에 클라우드에서 브라우저를 운영할 자신감을 가질 수 있었다.

요약하자면,所谓 '셸(shell)'을 통해 수요와 모델에 대한 민감한 감각과 경험 축적이 Manus를 만들어냈다. Monica의 많은 시나리오는 모델 후속 훈련을 필요로 했으며, AI 브라우저 실천을 통해 'less structure, more intelligence'라는 가장 중요한 교훈을 강화했고, 모델 능력이 에이전트를 만들 수 있을 정도로 도달했지만 문제는 정렬(alignment)에 있다는 것을 발견했다. 이후 Manus는 3개월 동안 빠르게 진화했다.

이전에 '버터플라이 이펙트' 팀은 '셸(shell)'의 가치가 무엇인지에 대해 의문을 제기당한 적이 있었다. 자체 대형 모델을 개발하지 않고 기존 대형 모델을 통합해 Monica를 만들었으며, 채팅, 검색, 독서, 글쓰기, 번역 등의 기능을 통합했고, 하나씩 API를 연결해 많은 작업 실행 시나리오를 통합했다. 작년 말 사용자 수는 천만 명에 달했다.

이제 두바오, 콰커(夸克), 위안바오(元宝)가 각각의 Monica 유사 제품을 대대적으로 홍보하고 있으며, 작은 팀이 기존 기술을 활용해 첫 번째 범용 소비자용 에이전트를 만들었을 때, 이제는 '셸(shell)'을 다시 이해할 때다.

'셸(shell)'이란 과연 무엇인가?

샤오훙의 관점에서 보면, 모든 돌파구는 모델에서 비롯되며, 기본적으로 모델이 주도하고 먼저 나아간다. 셸(shell)은 모델 기술의 혁신 포인트를 사용자가 인지할 수 있는 방식으로 보여주고, 모델의 혁신 능력을 사용자가 가장 잘 느낄 수 있는 형태로 포장하는 것이다.

이 정의에 따르면, DeepSeek App(사고 연쇄 표시 포함)은 DeepSeek-R1의 셸이며, Cursor는 Anthropic Sonnet 3.5의 셸, Perplexity는 GPT-4의 셸, ChatGPT는 InstructGPT의 셸이다.

모델 능력이 빠르게 진화함에 따라 '그 셸'도 진화해야 한다. 매 세대 모델 능력이 진화한 후, 반드시 원제조사가 아니라 제3자 제조사가 사용자가 인지할 수 있는 가치를 표현해낼 수 있다. Cursor가 Claude 3.5 Sonnet의 사용자 인지 가치를 표현해낸 것처럼 말이다.

3월 5일, Monica.im 출시 2주년을 맞아, 왜 이 수십 명의 사람들이 다양한 Deep Research와 OpenAI Operator를 능가하는 제품 경험을 만들어냈는가? 그 답은 바로 셸에 대한 이해와 실천 속에 있다.

에이전트를 만들 수 있는 새로운 모델 아래에서 최고의 셸을 만드는 방법은 무엇인가?

Manus의 건축자로서 장타오는 "백엔드에서 전체 아키텍처를 보면, 우리가 해야 할 완료되지 않은 작업이 각 지점마다 많으며, 그 지점 하나하나가 승패를 좌우하는 핵심이며, 제품의 모습을 다르게 만드는 지점"이라고 말했다.

팀의 관점에서 가장 큰 장점은 혁신 속도(pace of Innovation)다. 애플리케이션이나 모델 모두 현재 상대적으로 포화 상태에 이르렀으며, 진정한 마지막 핵심 능력은 단 하나, 빠르게 달리는 것이다. 비록 '데이터 플라이휠(flywheel)', '네트워크 효과' 등이 검증되었는지는 아직 미지수지만 말이다.

"완전히 새로운 분야에서 모든 것이 결정되지 않았고 모든 것이 미지수일 때, 가장 중요한 것은 혁신 속도다. 다양한 방향에서 탐색하고 실수를 시험하며, 빠르게 올바른 길을 찾는 능력을 겨루는 것이다." Manus 팀은 경영 철학, 조직 구조, 산업 프로세스 측면에서 매우 유연하다. 새로운 기회가 나타나면 제한된 자원 안에서 회사 전체의 자원을 통합할 수 있으며, 매우 높은 의사결정 속도를 가지며 실수에 대한 피드백을 수용할 수 있다.

왼쪽부터 '버터플라이 이펙트' 수석 과학자 피크, CEO 샤오훙, 제품 파트너 장타오｜이미지 출처: 네트워크

Manus에 대한 기대치에 대해 샤오훙은 "윈도우 기간이 있다 하더라도 시도해볼 가치가 있다"고 말했다. 지난 1년간 그의 사고도 격렬하게 변화했다. 예를 들어 지금 그는 "자신이 앞서 있다는 것을 인식하면 더욱 급진적으로, 아주 급진적으로 행동해야 한다. 지금 되돌아보면 23년 Monica는 충분히 급진적이지 않았다. '당신이 혁신하고 있다는 것을 알고, 앞서 있다는 것을 안다면, 급진적이어야 한다'"고 생각한다.

Manus가 샤오훙과 그의 팀에게 1에서 N으로 가는 경험과 도약을 가져다줄 수 있을지는 알 수 없지만, '셸'을 가장 잘 아는 이 팀은 마음과 손이 하나 되는 창조를 믿으며, 창조가 가져오는 버터플라이 이펙트를 믿는다. Manus는 MIT의 모토인 'Mens at manus'에서 유래했으며, 마음과 손의 일치를 강조한다. 배우기만 해서는 안 되고, 실천해야 하며, 현실 세계에 영향을 미쳐야 비로소 진정한 지식이 된다.

앞으로 Manus 이면의 더 많은 내용이 오픈소스로 공개됨에 따라, 더욱 광범위한 버터플라이 이펙트가 추가로 발현될 것이다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

极客公园