
문심 4.5 터보 출시, 그러나 리옌훙은 "응용 프로그램이 진정한 승자"라고 말해

머리말 이미지 출처: 바이두
AI 기술의 진화 속도가 예상을 훨씬 뛰어넘는 2025년, 개발자와 기업들이 직면한 핵심 과제는 바로 모델 능력이 급격히 발전하는 상황에서 어떻게 하면 애플리케이션의 가치가 기술의 물결에 휩쓸리지 않도록 할 수 있는가 하는 점이다.
바이두는 4월 25일 개최된 Create 개발자 컨퍼런스에서 이 질문에 대한 답을 제시했다. 이번 행사에서 문심 대규모 모델 4.5 Turbo와 X1 Turbo가 공개되었으며, 콘텐츠 분야 운영체제인 창저우OS(沧舟OS)가 동시에 발표되고, 범용 슈퍼 에이전트 앱 '신샹(Xin Xiang)'도 정식 출시되었다. 바이두는 기술적 돌파구를 선보이는 동시에, 시나리오 기반의 실용화와 MCP(Model Context Protocol) 생태계 전방위 구축을 통해 업계가 AI 가치 실현에 거는 높은 기대에 응답했다.
리옌홍(李彦宏)은 현장에서 개발자들에게 "적절한 시나리오를 찾고, 적합한 기초 모델을 선택하며, 때로는 모델 튜닝 방법을 조금 배운다면 그 위에서 만들어낸 애플리케이션은 결코 낡지 않을 것"이라고 말했다. 그는 또 "애플리케이션이 없다면 칩도, 모델도 아무 가치가 없다. 모델은 많겠지만 미래에 세상을 지배할 것은 결국 애플리케이션이며, 애플리케이션이 진정한 왕좌를 차지할 것"이라고 강조했다.
문심 대규모 모델 4.5 Turbo: 멀티모달, 저비용, 강력한 추론 능력
현재 AI 대규모 모델 경쟁은 이미 백열화 단계에 접어들었지만, 여전히 모달의 단일성, 추론 환각, 운영 비용 고가 등 문제들이 업계를 골치 아프게 하고 있다. 이러한 문제들을 해결하기 위해 바이두는 각각 멀티모달 역량, 저비용, 강력한 추론 능력을 핵심으로 하는 문심 대규모 모델 4.5 Turbo와 X1 Turbo를 출시하며, 기술과 가성비의 균형을 입증했다.
문심 4.5 Turbo는 멀티모달 능력에서 한층 더 발전했으며, 처리 속도도 빨라졌고 가격은 크게 낮아졌다. 백만 토큰당 입력 가격은 단 0.8위안, 출력 가격은 3.2위안으로, DeepSeek-V3보다 최대 40% 저렴하다. 여러 벤치마크 테스트에서 4.5 Turbo는 평균 77.68점으로 GPT-4o의 72.76점을 앞질렀다. 반면 X1 Turbo는 4.5 Turbo의 심층 사고 최적화를 기반으로 하여, 백만 토큰당 입력 1위안, 출력 4위안으로 DeepSeek-R1의 25% 수준에 불과하며, 질의응답, 콘텐츠 제작, 논리적 추론, 도구 호출 등의 시나리오에서 두각을 나타내고 있다.
리옌홍은 현장에서 "모델은 빠르게 업데이트되지만 애플리케이션의 가치는 사라지지 않는다. 올바른 시나리오를 찾고, 적절한 모델을 선택하며, 튜닝을 잘 활용하면 AI 애플리케이션은 지속적으로 가치를 창출할 수 있다"고 언급했다. 이 견해는 개발자들에게 강력한 자신감을 부여한다. 즉 대규모 모델의 진정한 가치는 시나리오와의 심층적 융합에 있다는 것이다.
문심 대규모 모델이 바이두 AI의 '심장'이라면, 새롭게 발표된 창저우OS는 콘텐츠와 애플리케이션을 연결하는 '신경계통'이다. 콘텐츠 운영 체제로서 창저우OS는 Chatfile Plus를 중심으로 공공 지식고(공유지식), 개인 지식고(사유지식), 메모리 데이터베이스인 '삼고(三库)'와 리더기, 에디터, 플레이어인 '삼기(三器)'를 통합하고, 대규모 모델의 동적 호출을 통해 멀티모달 콘텐츠의 분석 및 처리를 실현한다.

창저우OS|이미지 출처: 바이두
창저우OS를 기반으로 바이두 원문(Baidu Wenku)과 바이두 넷디스크(Baidu Wangpan)는 공동으로 'AI 노트' 기능을 출시했다. 사용자가 넷디스크에서 영상을 시청할 때, 일클릭으로 구조화된 노트와 AI 마인드맵을 생성할 수 있으며, 영상 내용을 기반으로 시험 문제까지 만들 수 있어 영상과 노트 간 원활한 연동이 가능하다. 현재까지 바이두 원문의 AI 유료 사용자는 4천만 명을 넘어섰으며, AI 월간 활성 사용자는 9,700만 명에 달한다. 바이두 넷디스크의 AI 월간 활성 사용자도 8천만 명을 넘었다. 이 수치들은 창저우OS의 생산성을 보여줄 뿐 아니라 콘텐츠 분야에서 AI 애플리케이션의 거대한 잠재력을 시사한다.
멀티모달 능력의 또 다른 적용 사례는 바이두가 선보인 고설득력 디지털 휴먼이다. 전자상거래 라이브 방송 시나리오에서 기존 디지털 휴먼은 종종 대본이 지루하고 동작이 경직되는 문제가 있었으나, 바이두의 고설득력 디지털 휴먼은 멀티모달 대규모 모델을 통해 음성과 외형의 초현실적 표현, 전문적인 콘텐츠, 유연한 인터랙션을 실현했다. '시나리오 생성' 기능은 대사를 기반으로 실시간으로 표정, 어조, 동작을 조정할 수 있으며, 'AI 두뇌'는 라이브 방송의 실시간 인기도에 따라 보조 진행자, 장내 관리자 등의 역할을 동적으로 배치함으로써 진정한 의미에서 '한 사람이 팀 전체'가 되는 것을 가능하게 한다. 바이두 혜파싱(Hui Bo Xing) 플랫폼은 또한 '원클릭 클로닝' 기능을 출시하여, 사용자가 2분 분량의 영상만 업로드하면 전용 디지털 휴먼을 생성할 수 있게 함으로써 '누구나 방송자(MC)가 될 수 있다'는 현실을 만들어냈다.
에이전트와 MCP: AI 애플리케이션 생태계의 엔진을 점화하다
에이전트(Agent)가 업계의 주목을 받는 가운데, 바이두 역시 '신샹(Xin Xiang)' 앱을 출시하며 시장에 진입했다.
'AI 작업 수행 엔진'을 핵심으로 하는 신샹 앱은 자연어 상호작용을 통해 복잡한 작업을 분해하고 실행하며 결과를 제공한다. 현재 신샹은 심층 연구, 스마트 차트, 게임 개발 등 10개 시나리오에 걸쳐 200개 이상의 작업을 지원하며, 향후 10만 개 이상으로 확장할 계획이다.
신샹은 '다중 에이전트 협업' 메커니즘을 지원한다. 건강 상담 시나리오에서는 시스템이 여러 명의 '의사 AI 분신'을 동원해 공동 진단을 수행하며, 법률 서비스에서는 '변호사 자문단'이 협력하여 답변을 제공한다. 이러한 메커니즘은 기존 도구 호출의 한계를 뛰어넘어 전문 시나리오에 더욱 효율적인 솔루션을 제공한다. 신샹의 무료 공개와 안드로이드 버전 출시(iOS 버전은 곧 출시 예정)는 더 많은 사용자들이 AI 에이전트의 매력을 경험할 수 있도록 하고 있다.
다중 에이전트 협업의 가능성은 바이두가 작년에 출시한 무코드 프로그래밍 도구 '먀오다(Miao Da)'에서도 확인된다. '먀오다'는 한 마디의 문장만으로 애플리케이션을 생성할 수 있으며, 그 이면에는 제품 매니저, 아키텍트, 디자이너 등 여러 에이전트가 협력하고, 클라우드 저장소, 데이터베이스, 지도 내비게이션 등의 도구 구성 요소를 호출한다. '먀오다'를 이용해 한 대학생 팀이 과거에는 일주일이 걸렸던 마케팅 도구를 단 몇 분 만에 개발했으며, 모델 호출 비용은 고작 5위안이었다.
리옌홍은 "전 세계에 80억 명의 인간이 있는데, 기술 장벽이 사라진다면 누구나 프로그래머의 능력을 가질 수 있다"고 말했다. '먀오다'의 사회 전면 개방은 AI 애플리케이션 개발 장벽을 더욱 낮추고 있다.
MCP(Model Context Protocol)는 AI 생태계의 새로운 성장 동력으로, 개발자와 대규모 모델 간의 상호작용 방식을 재편하고 있다. 바이두는 이번 컨퍼런스에서 MCP 수용을 전면 선언하고, 세계 최초의 전자상거래 거래 MCP, 검색 MCP 등의 서비스를 출시했으며, 문심 대규모 모델의 MCP 작업 계획 및 스케줄링 능력을 최적화했다.
동시에 바이두 인텔리전트 클라우드 천번(Qianfan) 플랫폼은 이미 MCP와 호환되어 개발자가 MCP 서버를 생성하고 게시할 수 있도록 지원하고 있다. 바이두 검색은 전망 좋은 서비스를 색인하는 MCP 서버 발견 플랫폼을 구축했으며, 문심 코드는 MCP 서버를 지원하는 국내 첫 번째 스마트 코딩 보조 도구가 되었다. 또한 바이두 원문, 넷디스크, 맵 등 애플리케이션도 전면적으로 MCP 서버 서비스를 개방했으며, 바이두 전자상거래가 출시한 MCP 서비스는 상품 검색, 거래, 파라미터 비교 등의 기능을 포함해 국내에서 처음으로 전자상거래 거래를 지원하는 MCP 서비스가 되었다. 이러한 포괄적인 전략은 개발자의 접근 장벽을 낮출 뿐 아니라 MCP 생태계의 번영에 새로운 추진력을 부여하고 있다.

바이두 '문심컵' 창업 대회 출범|이미지 출처: 바이두
기술과 제품의 돌파 외에도, 바이두는 AI 인재 양성과 창업 지원에도 상당한 투자를 하고 있다. 5년 전 제안된 500만 명 AI 인재 양성 계획은 이미 조기에 달성되었으며, 리옌홍은 회의에서 향후 5년간 바이두가 추가로 1,000만 명의 AI 인재를 양성하겠다고 발표했다. 또한 제3회 '문심컵' 창업 대회에서는 단일 프로젝트 당 최대 투자액을 7,000만 위안으로 상향 조정하여 창업가들에게 더욱 강력한 지원을 제공할 예정이다.
하드웨어 측면에서 바이두는 국내 최초의 전면 자체 개발 3만 카드 클러스터를 가동했다. 이 클러스터는 동시에 여러 개의 천억 규모 파라미터 대규모 모델 학습을 처리할 수 있으며, 1,000명의 고객이 백억 파라미터 모델의 미세 조정을 수행할 수 있도록 지원한다. 이 클러스터는 고성능 네트워크와 혁신적인 냉각 솔루션을 통해 학습 작업의 안정성과 에너지 효율성을 보장한다.
바이두가 이번에 공개한 기술 포트폴리오는 AI 발전의 세 가지 주요 흐름을 보여준다. 즉, 멀티모달이 기본 역량이 되고(문심 대규모 모델), 에이전트가 인간-컴퓨터 협업을 재구성하며(신샹 앱), MCP 프로토콜이 서비스 인터페이스를 통합하는 것(MCP 생태계)이다. 모델 능력이 임계점을 돌파하고, 도구 호출이 표준화되며, 컴퓨팅 비용이 지속해서 하락함에 따라 AI 애플리케이션의 새로운 시대가 다가오고 있다. 리옌홍의 말처럼 "시나리오에 깊이 침투하고 실제 가치를 창출하는 AI 애플리케이션은 개발자들에게 진정한 기회가 된다."
"이 모든 발표는 개발자들이 모델 능력이나 비용, 개발 도구와 플랫폼을 걱정하지 않고도 안심하고 애플리케이션 개발에 집중하여 최고의 애플리케이션을 만들 수 있도록 하기 위한 것"이라고 리옌홍은 현장에서 밝혔다.
국내 AI 산업에 있어 바이두의 일련의 움직임은 단순한 기술력의 과시를 넘어, 시나리오 기반의 실용화와 생태계 협업에 대한 깊은 통찰을 보여준다. 이 변화 속에서 바이두는 기술 혁신과 생태계 구축을 통해 개발자들에게 모델에서 애플리케이션으로 가는 '고속도로'를 열어주고 있다. 문심 대규모 모델, 창저우OS, 신샹 앱의 지속적인 업데이트와 함께 AI의 '슈퍼 생산력'이 더 빠르게 모두의 일과 삶에 스며들 것으로 기대된다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News










