
무엇이든 할 수 있고 어디에나 존재하는 AI를 만들기 위해 바이두가 왜 '운영체제'부터 시작하는가?
작가: 라펑의 젯지크

대규모 모델은 중국 5천 년의 역사를 정리할 수 있지만 지금이 몇 시인지 대답하지 못하고, 양자역학이 무엇인지 설명할 수 있지만 그림과 텍스트가 포함된 전문적인 PPT를 만드는 것은 여전히 어렵다.
왜 대규모 모델은 보기에 무소불능한 것 같지만 실제로 사용해보면 늘 뭔가 부족할까?
이유는 간단하다. 똑똑하고 박식하다고 해서 곧잘 일을 할 수 있다는 의미는 아니기 때문이다.
스마트함은 대규모 모델이 방대한 지식을 통해 학습하여 발달된 두뇌를 갖추게 되어 문제에 잘 답할 수 있게 되는 것을 말한다.
반면 스마트함과 실용성을 동시에 충족시키려면 이 똑똑한 두뇌에 유연한 팔다리를 붙여 '심층적 사고+심층적 납품(디리버리)'을 실현해야 한다.
따라서 대규모 모델이 단순히 생각이 깊은 수준에서 벗어나 '스마트하면서도 유능한' 진화를 이루는 방법은 이번 AI 붐이 일시적인 유행에 그칠지, 역사의 판도를 바꿀지 결정하는 핵심 요소가 된다.
바이두가 여기에 대한 모범 사례를 제시했다.
4월 25일, Create 2025 바이두 AI 개발자 컨퍼런스에서 바이두 창립자 리옌홍은 바이두 원코우(문서)와 바이두 왕판(클라우드 저장소)이 공동으로 선보인 세계 최초 콘텐츠 분야 운영체제(OS)—창저우 OS를 발표했다.
창저우 OS는 기존 바이두 원코우와 왕판이 축적한 하위 기술·역량·데이터를 완전히 연계해, 물처럼 다양한 시나리오 속에 스며들어 가장 합리적인 형태와 사용자가 가장 편리하게 이용할 수 있는 인터페이스를 제공하며, 저장벽과 엔드투엔드 고품질 딜리버리를 실현한다.
창저우 OS를 기반으로 바이두 원코우와 왕판이 추구하는 AI의 비전은 언제 어디서든 어떤 단말 기기에서도 진정한 원스톱, 엔드투엔드 서비스를 실현하여 AI가 '무소불능하고 무데오 없이 존재하는' 것이 되는 것이다.
01
창저우 OS, AI를 운영체제 수준으로 진화시키다
기술 산업에는 이런 공감대가 있다. 어떤 기술이 실험실을 벗어나 대중에게 본격적으로 확산되기까지는 긴 가트너 사이클(Gartner Curve)을 거쳐야 한다는 것이다.

이 곡선에서 첫 번째 성장 단계는 기술 발전에 따른 시장의 과열된 기대감에서 비롯된다. 그러나 실제 적용 효과가 기대에 미치지 못하면 성장은 급속히 침체기에 접어든다. 이후 기술이 현실에 적용될 조건이 서서히 성숙해지고, 거의 장벽 없이 누구나 이용 가능하며 무소불능하고 어디에나 존재하는 인프라로 구체화될 때, 두 번째 생태계 폭발 단계가 도래한다.
소프트웨어 산업의 두 번째 단계를 여는 상징 중 하나는 일반적으로 성숙한 운영체제의 등장이다. 예를 들어 PC 산업에 있어서의 Windows, 휴대폰 산업에 있어서의 iOS 같은 것이다.
그렇다면 성숙한 운영체제란 무엇을 의미하는가? 약 15년 전 글로벌 기술 산업에서는 이런 논쟁이 있었다. 터치스크린 조작이 가능하고, 큰 화면을 가진 휴대폰이며, 통화, 사진 촬영, 음악 감상, 문자 전송이 가능한 기기들이 있는데, 왜 애플 즉 스마트폰과 과거의 피처폰은 서로 다른 종(種)의 존재인가?
핵심 이유 중 하나는 iOS가 맥OS(Mac OS)로부터 계승한 커널 수준의 안정성과 멀티태스킹 능력을 기반으로 개방형 생태계를 만들었다는 점이다. 개발자들은 이러한 애플의 하위 레벨 기능들을 자유롭게 통합해 자신만의 혁신 앱을 만들 수 있었다. 이로 인해 휴대폰의 정의는 모토로라, 노키아 같은 소수 기업의 전유물이 아니라 전체 생태계가 함께 참여하는 무한한 가능성을 지닌 거대 산업이 됐고, 이후 10여 년간의 모바일 인터넷 시대의 문을 열었다.
기술은 계속 발전하지만, 비즈니스 스토리는 항상 유사한 리듬을 따라 반복된다. 스마트폰 OS에서 검증된 근본 로직은 대규모 모델 시대의 OS 설계에도 여전히 유효하다.
요약하자면 세 가지다: 완전한 하위 레벨 기능, 유연한 중앙 조정, 번성하는 애플리케이션 서비스 생태계. 이는 바로 창저우 OS의 3단계 구조—하부 인프라, 중추 시스템, 애플리케이션 서비스에 정확히 대응한다. 유일한 차이점은 앱과 중추, 하부 인프라 사이의 연결 고리가 과거의 API에서 더욱 표준화되고 접근성이 높은 MCP(Mobile Content Platform)로 교체되었다는 점이다.

여기서 MCP Server 부분인 하부 인프라는 주로 Chatfile plus를 핵심 구성 요소로 한다. 이는 지식 프레임워크를 통해 다양한 모달리티, 형태, 형식의 콘텐츠를 요소 수준에서 분해 및 파싱 처리하고, 다중 모달 이해·검색, 파일 변환 및 파싱 등의 일련의 도구 프레임워크 컴포넌트를 제공한다.
또한 바이두 원코우와 왕판은 공공 지식베이스(Public Knowledge Base), 개인 지식베이스(Private Knowledge Base), 메모리 베이스(Memory Base)의 '세 가지 베이스'를 구축했다. 구체적으로는 바이두 원코우가 오랜 기간 축적한 공공 영역 지식 데이터(공공 지식베이스), 왕판 사용자가 권한을 부여한 지식 데이터(개인 지식베이스), 사용자가 원코우 또는 왕판에서 수행한 명령, 사용 습관, 생성 기록(메모리 베이스)을 의미한다.
이러한 데이터는 다양한 모달리티, 형태, 형식으로 나타난다. 공공 지식베이스는 일반적인 지식을 제공하고, 개인 지식베이스와 메모리 베이스는 사용자의 개인화된 데이터를 보관한다.
지식 프레임워크 내에서 창저우 OS는 '세 가지 베이스'에 담긴 다중 모달 콘텐츠를 벡터화하고 태깅 처리하는데, 즉 이미지, 텍스트, 동영상, 오디오, 문서 등 비구조화된 데이터를 각각의 전문 모델을 통해 컴퓨터가 이해할 수 있는 다차원 벡터 데이터(토큰 집합)로 변환하는 작업을 수행한다.
중추 시스템에서는 바이두 원코우와 왕판이 자체 개발한 '세 가지 도구'를 활용한다. 즉 문서·PPT 등을 위한 융합 에디터(Fusion Editor), 문서 및 PPT 등의 콘텐츠를 읽는 리더기(Reader), 오디오·비디오 재생을 위한 플레이어(Player) 등이다.
또한 창저우 OS는 '스케줄링 허브(Scheduling Hub)'를 통해 인터랙션 컴포넌트, 의도 모델(Intent Model), 전송 인프라 등과 사용자 메모리 및 프로파일 데이터를 결합하여 사용자 의도를 이해하고 Agent를 효율적으로 배분 및 조정할 수 있다.
가장 위쪽 계층에는 일련의 AI Agent가 위치한다. 창저우 OS는 원코우와 왕판의 PPT, AI 동화책, AI 마인드맵, AI 포스터, AI 노트, AI 스캔, AI 듣고 기록하기 등 수백 가지 AI Agent를 통합하여 이미지, 텍스트, 영상, 음성 등 다양한 생성 모달을 포괄하고, 학습·업무, 생활·오락 등 다양한 시나리오를 아우른다. 또한 융합 에디터의 편집·수정·정밀 조절 기능을 기반으로 검색 및 콘텐츠 생성의 질을 높이고, 실제 맞춤형 작업 요구에 더 부합하도록 한다.
02
창저우 OS 위에서,
더 많은 '스마트하고 유능한' Agent를 만들어내다
상위 계층 애플리케이션 서비스를 중심으로 바이두 원코우 & 왕판은 수억 명의 사용자가 검증한 수백 가지 유용한 AI Agent를 자체 개발했으며, 전문적인 제3자 Agent도 다수 도입해 애플리케이션 생태계를 확장했다.
'원스톱 AI 콘텐츠 획득 및 제작 플랫폼'으로 자리매김한 바이두 원코우는 유료 사용자가 4천만 명을 넘었으며, AI 월간 활성 사용자는 9,700만 명에 달한다. 바이두 왕판 역시 '원스톱 콘텐츠 서비스 플랫폼'으로 진화해 10억 명 이상의 사용자를 서비스하고 있으며, 총 사용 공간은 1,000억 GB를 초과하고, AI 월간 활성 사용자는 8,000만 명을 넘었다. 바이두 원코우와 왕판은 대규모 모델 시대의 진정한 '슈퍼 생산력'이 되었다.
컨퍼런스에서 바이두 원코우와 왕판은 창저우 OS 기반의 새로운 기능도 선보였다. 'GenFlow 슈퍼 파트너(GenFlow Super Partner)'와 'AI 노트(AI Note)'가 그것이다.
GenFlow 슈퍼 파트너는 바이두 원코우 앱이 제공하는 다중 에이전트 협업 기능으로, 창저우 OS의 지원을 받아 콘텐츠 생성 시 복수 작업을 병렬 처리할 수 있으며, 최신 전문 온라인 정보와 사용자의 습관 및 선호도를 기반으로 다양한 작업을 완수할 수 있다.
예를 들어 사용자가 결혼식 기획을 원한다고 하자. 초기 입력은 단순히 "5월 1일에 하이난에서 야외 결혼식을 하고 싶으니 기획안과 초대장을 만들어줘"라는 한 문장뿐이다.
요구사항은 간단해 보이지만, 기존 템플릿에 내용만 채우는 것으로 해결되지 않는다. 사용자가 만족할 수 있도록 하려면 사용자의 미적 취향, 예산 기대치, 절차 선호도를 알아야 하고, 5월 1일 하이난의 날씨, 인파 상황, 장소 분포 등을 파악해야 한다. 이후 이러한 이미지·텍스트 정보를 PPT 도구로 조합해 완전한 기획안을 만들고, 이를 바탕으로 사용자의 미적 취향에 맞춰 결혼식 초대장 포스터를 생성해야 한다.
이 모든 작업을 완료하려면 사용자의 과거 채팅 기록, 탐색 기록을 조회하고, 의도 인식, 전망 검색, PPT 도구를 각각 호출하여 사용자 의도를 분석하고, 선호도를 파악하며, 도구를 자유롭게 조합한 후, 최종적으로 일정, 날짜, 장소, 예산, 주제, 실행 세부사항, 스타일, 인력 배치 등을 포함한 구체적인 기획안을 제공해야 한다.
또한 사용자가 필요한 기획안과 포스터는 서로 어울려야 하므로 모든 정보가 일관되게 유지되어야 하며, 동일한 운영체제를 통해 병렬 출력이 이루어져야 한다.
물론 AI가 처음부터 모든 사람의 마음에 들게 결과물을 생성할 수는 없다. 따라서 기획안이나 포스터 모두 편집 가능해야 하는데, 이를 뒷받침하는 것이 바로 창저우 OS의 융합 에디터 기능이다.
깊이 있는 사고에서 깊이 있는 딜리버리까지, GenFlow 슈퍼 파트너는 거의 시장에서 유일한 진정한 '다중 에이전트 협업' 제품이라 할 수 있다. 다중 에이전트 협업 제품이 지닌 비용이 높고, 생성 시간이 길며, 효율이 낮고, 안정적인 납품이 어렵고, 다중 회차 대화로 최적화하기 어려운 문제를 해결할 뿐 아니라, 기존 제품에 직접 내장되어 사용자가 권한을 부여한 개인정보와 결합함으로써 AI가 진정으로 '무소불능하고 무데오 없이 존재하는' 목표를 실현할 기회를 제공한다.
바이두 왕판의 AI 노트는 수많은 직장인, 대학원 입시 준비생, 공무원 시험 준비생들에게 강력한 지원자가 되었다.
AI 노트는 업계 최초의 다중 모달 AI 노트로, 사용자가 바이두 왕판에 저장한 각종 대학원 입시 학습 동영상과 노트 페이지를 동일한 인터페이스에 중첩시켜 매끄럽게 연동할 수 있으며, 동영상 콘텐츠와 노트는 강하게 연결된다. 동영상 시청 → AI 노트 생성 → AI 마인드맵 요약 → 마지막으로 AI 출제를 통한 학습 성과 검증까지, 사용자의 학습 전주기를 완전히 커버한다.
예를 들어, 영어 대학원 입시가 너무 어렵다는 것이 최근 화제가 된 적 있다. 사용자가 대학원 영어 시험을 위해 집중적으로 복습을 하고자 한다고 가정하자. AI 노트는 먼저 사용자의 왕판에 저장된 관련 자료를 검색하고, 공개 온라인 자료에서 출제 포인트를 찾아 정리한다. 하지만 이 과정은 여기서 멈추지 않는다. AI 노트는 과거 기출문제도 참고하여 스스로 생성한 출제 포인트를 최종 검증한다. 검증을 통과한 포인트에 대해서만 이후 마인드맵 생성과 예측 문제 출제를 진행하여, 사용자의 학습 속도를 가속화한다.
이 과정에서 호출되는 도구의 수는 결혼식 기획보다 적지 않다. 출제 포인트와 기출문제를 찾기 위해서는 전망 검색 기능이 필요하고, 기출문제는 PDF 혹은 이미지 형식으로 존재하며, 유명 강사의 해설은 동영상으로 제공된다. 따라서 다중 모달 콘텐츠를 파싱할 수 있는 능력이 필요하다. 최종 마인드맵 생성과 예측 문제 출제는 대규모 모델의 추론 능력, 다중 모달 콘텐츠 생성 능력, 다양한 콘텐츠 간의 연관 지도 능력이 필요하며, 동시에 콘텐츠 생성의 절대적 정확성도 보장되어야 한다.
이 모든 뒷받침은 바로 '창저우 OS'의 역량이다.
물론 바이두는 개발자들이 전면적으로 MCP를 수용하도록 지원하고 있으므로, 창저우 OS는 바이두 내부 생태에만 국한되지 않는다. 운영체제의 성장과 발전에서 가장 중요한 요소는 개방성이며, 광범위한 개발자들의 혁신 능력을 자극하는 것이다.
따라서 생태계와 애플리케이션이 최대한의 가치를 발휘할 수 있도록 하기 위해 바이두 원코우와 왕판은 창저우 OS를 기반으로 MCP를 제품과 생태계 연결에 우선적으로 활용하여 MCP Server-Client-Host의 3단계 체계를 구축했다. 즉 원코우와 왕판의 기능을 MCP Server 형태로 개방하고, MCP Client SDK를 통해 더 많은 기업 사용자, 개발자, 스마트 에이전트 앱 등 MCP Host가 쉽게 접속할 수 있도록 했다.

이 중 가장 대표적인 사례는 삼성 스마트폰이다. 삼성 스마트폰은 현재 바이두 원코우와 왕판의 파일 업로드·다운로드·검색·공유 및 콘텐츠 이해 등 여러 MCP server를 도입하고 있다.
한편으로, 사용자는 스마트폰 음성 어시스턴트 화면에서 말만으로 파일을 왕판에 업로드하여 백업하거나 클라우드에서 공유하거나, 문서 요약 및 내용 질문 답변 기능을 직접 이용할 수 있다.
다른 한편으로, 이러한 서버들은 삼성 스마트폰 시스템의 클라우드 저장 기능을 풍부하게 하여, 휴대폰 자체가 대용량 파일이나 다수 파일을 일괄 백업하고 공유하기 어려운 문제를 해결한다.
예를 들어 사용자가 스마트폰 갤러리에서 음성 어시스턴트를 불러 "어제 오센에서 찍은 사진들을 바이두 왕판에 백업하고, 샤오밍의 사진은 그에게 보내줘"라고 말하면, 해당 사진들이 사용자가 권한을 부여한 왕판 계정에 업로드되고 공유 링크가 생성된다. 이후 스마트폰 어시스턴트가 주소록을 호출해 그 링크를 문자 메시지로 상대방 휴대폰에 전송한다. 링크를 클릭하면 사용자는 바로 바이두 왕판에서 확인하거나 다시 저장할 수 있다.
의심할 여지 없이, OS 하위 레벨 기능의 신뢰성을 판단하는 기준은 도구의 나열이나 첨단 기술의 수가 아니다. 상위 애플리케이션 서비스 생태계가 얼마나 유용하고 성숙하며 풍부한가가 OS 능력을 검증하는 최고의 기준이다.
03
OS의 이야기에는 끝이 없다
자본 시장에서 투자자들이 가장 인정하는 기업 유형 중 하나는 '시간의 친구(Time's Friend)'라고 불리는 기업이다.
'시간의 친구'란 기업이 올바른 일을 한 번 선택한 후, 그저 계속해서 그것을 실천하기만 하면 실적이 영구기관처럼 성장하고, 생태계 개발자들도 지속적으로 혜택을 받는 기업을 말한다.
운영체제도 바로 그런 전형적인 영구기관 시장이다. 컴퓨터와 스마트폰 시장이 존재하는 한, 마이크로소프트, 애플, 구글의 운영체제 이야기는 끝나지 않는다.
대규모 모델도 마찬가지다. '심층적 사고 + 심층적 납품 + 공공/개인 데이터 + MCP 생태계'가 결합되어 미래에 새로운 시대의 무소불능하고 어디에나 존재하는 AI가 된다면, 캄브리아기 시대처럼 새로운 종의 대폭발이 끊임없이 발생할 것이다.
이 과정에서 아래를 보면 바이두 원코우, 왕판 등이 자신의 기능을 개방하는 모습이 있고, 적극적으로 생태계에 동참해 대규모 모델 시대의 새로운 종을 창조하고 새 규칙을 정립하는 주체가 된다.
위를 보면 수많은 새로운 Agent들이 창저우 OS를 기반으로 탄생하고 발견되며, 방대하고 격렬한 새로운 애플리케이션 서비스 생태계를 구성한다.
하지만 현재 이 모든 이야기는 이제 겨우 시작됐을 뿐이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News










