왜 Qwen3가 나로 하여금 AI 응용의 실질적 적용에 있어 큰 이점을 보게 했는가?

2025.05.20

왜 Qwen3가 나로 하여금 AI 응용의 실질적 적용에 있어 큰 이점을 보게 했는가?

개발자와의 '정렬(alignment)'은 사실 Qwen3이 명시하지 않은 핵심 전략이다.

2025.05.20 - 13:18:52

Qwen3AI

Web3 심층 보도에 집중하고 흐름을 통찰

개발자와의 '정렬(alignment)'은 사실 Qwen3이 명시하지 않은 핵심 전략이다.

작가:

여러분, 요즘 대규모 모델에 대해 사람들이 다소 무감각해진 것 같지 않나요? 저는 관련 주제의 기사 트래픽이나 소셜 플랫폼에서의 관심도를 보면 모델에 대한 관심이 분명히 줄어든 것을 느낍니다.

예를 들어 최근 Qwen3, Gemini 2.5, GPT-4.1 및 Grok-3 등 눈에 띄는 발전을 보인 우수한 모델들이 이렇게 밀집해서 출시되었지만, 만약 2년 전만 해도 이런 한 달은 확실히 폭발적인 반응을 얻었을 겁니다.

하지만 개발자 커뮤니티에 물어본 결과, 실제로 사람들이 '무감각'해졌다는 것이 아니라 '관찰하는 흥분'이 '행동의 가속화'로 바뀌었다는 것을 알게 되었습니다. 즉, 개발자들은 이제 모델을 단순히 '보는' 입장에서 '활용하는' 입장으로 전환되었고, 그들의 관심도 '모델 능력의 진전 여부'를 넘어서, 해당 모델이 자신의 작업에 명확한 성능 향상을 가져다주는지, 다시 말해 모델과 개발자 사이의 '정렬(alignment)' 정도가 어떻게 되는지를 중요한 시각으로 삼기 시작했습니다.

예를 들어 Qwen3 출시 전 많은 창업자와 개발자들은 Qwen 팀이 큰 프로젝트를 준비 중임을 알고 있었으며, 이미 한 달 이상 전부터 기대하며 대기했고, 모델 출시 직후 자신들이 개발 중인 AI 애플리케이션의 백엔드 모델을 곧바로 Qwen3로 교체했습니다. 최근 이들과 모델 측면의 새로운 변화에 대해 이야기 나눠보니 Qwen3 언급이 점점 더 많아지고 있음을 알 수 있었습니다.

그들에 따르면 지난 2년간처럼 단순히 벤치마크 점수로 모델 성능을 평가하는 것은 더 이상 큰 의미가 없습니다. 왜냐하면 모델 능력 향상의 경로가 명확해졌기 때문입니다—즉, 사전 학습 + 후속 학습 + 강화 학습을 통해 코드 작성, 글쓰기 등의 특정 분야에서 각 업체 간의 성능 격차가 좁혀지고 있기 때문입니다. 더욱이 이러한 평가 기준은 실제 환경에서 모델을 사용하는 현실적인 시나리오를 반영하지 못합니다. 특히 올해 AI 에이전트(Agent) 애플리케이션의 가속화가 본격화된 이후 더욱 그렇습니다.

이런 관점에서 볼 때, Qwen3는 기본 모델 성능 향상 외에도 개발자의 실제 요구와 시나리오에 맞춰 많은 '정렬(alignment)'을 수행했다고 할 수 있으며, 개발자와 기업이 쉽게 채택할 수 있도록 설계되고 정교하게 다듬어졌다고 볼 수 있습니다.

예를 들어, 기업들에게 가장 인기가 있었던 Qwen 모델 크기는 사실 72B였지만, 개발자들로부터 "72B는 두 장의 H800이 필요해 실행하기 불편하다"는 피드백을 받은 후 Qwen 팀은 더 효율적인 32B 버전을 개발하여 개발자들이 훨씬 더 잘 활용할 수 있게 되었습니다.

Qwen3가 선택한 이 경로는 상당한 시사점을 제공합니다. 실제 시나리오에서 개발자에게 '정렬(alignment)'되도록 지속적으로 최적화함으로써 Qwen3는 기업과 개발자 모두에게 'AI 애플리케이션 실용화의 최적 해법'으로 자리매김하고 있습니다. 이러한 기대 아래, 모델의 지속적이고 포괄적인 반복 업데이트에 따라 AI 애플리케이션 개발도 자연스럽게 수위를 높이는 것이 올해 개발자와 기업들에게 가장 확실한 전략이 되었습니다.

개발자에게 ‘정렬(alignment)’하는 방법

사실 최근 OpenAI 연구원 요 순위(姚顺雨, Deep Research 및 Operator의 핵심 저자)는 "AI의 후반전"이라는 글에서 모델 측면의 변화를 포괄적으로 설명했으며, 이는 창업자와 개발자 커뮤니티 내에서도 올해 들어 가장 널리 공감을 불러일으킨 내용이었습니다.

그의 견해에 따르면 강화 학습이 마침내 특정 영역에 국한되지 않고 일반화 가능한 경로를 확보함으로써, 인간 체스 선수를 꺾었던 AlphaGo와 같은 특수 분야를 넘어 소프트웨어 엔지니어링, 창의적 글쓰기, IMO 수준의 수학 문제, 마우스 및 키보드 조작 등 다양한 분야에서 인간 수준에 근접한 성과를 낼 수 있게 되었습니다.

이러한 상황에서는 단순히 리더보드 점수를 겨루거나 더 복잡한 리더보드에서 더 높은 점수를 얻는 것이 쉬워집니다. 즉, 이러한 평가 방식은 이미 구시대적이며, 현재 중요한 것은 문제를 정의하는 능력입니다.

이 관점에서 본다면 Qwen3의 진정한 가치가 드러납니다. 벤치마크 평가에서는 모든 모델이 강력하지만, 벤치마크에서 상위권을 차지하는 모델이라도 개발자 입장에서는 반드시 최선의 선택이 아닐 수 있습니다.

이러한 상황에서 개발자는 실제 시나리오에서 모델에 무엇을 더 중요하게 여기게 될까요?

큰 차원에서 보면 모델 성능, 비용, 배포 용이성 등 몇 가지 측면이 있습니다. 그러나 구체적인 시나리오에서는 서로 다른 모델과 도구의 기술적 구현 방식이 중요해집니다. 그래서 Qwen이 일관되게 전 규모, 전 모달 방식으로 지능의 한계를 탐색하고, 다양한 양자화 정밀도의 모델 버전을 출시하여 개발자가 선택의 자유를 가질 수 있도록 하는 이유입니다.

한 개발자가 Qwen3를 분석해주었는데, Qwen3 시리즈에는 MoE(혼합 전문가) 모델 2종과 밀집 모델 6종 등 총 8개의 모델이 포함되어 있어 다양한 시나리오의 다양한 요구를 만족시킬 수 있다고 했습니다.

밀집 모델 중 0.6B 및 1.7B 모델은 연구자에게 특히 적합하며, GPU 없이 독립형 그래픽카드 없이도 데이터셋 검증이나 데이터 비율 작업 등을 수행할 수 있을 정도입니다.

4B 및 8B 모델은 소비전자 및 자동차 산업에 적합합니다. 이 두 모델은 엣지 디바이스에 적합한데, 4B 모델은 스마트폰에, 8B 모델은 AIPC 및 스마트 콕핏에 적용 가능합니다.

32B 모델은 기업의 대규모 배포에서 널리 사랑받고 있습니다. 또한 MoE의 두 모델은 서버를 통해 대규모 배포가 가능하여 이용 효율을 높이면서도 더 큰 규모의 시나리오에 적용할 수 있습니다.

그는 이렇게 세분화된 접근이 옳다고 생각합니다. 오직 이렇게 다양한 세부 요구 조건을 고려해야 모든 시나리오에서 다른 제품을 개발하는 개발자들이 바로 사용 가능한 최적의 실천 모델을 가질 수 있기 때문이며, 후속 작업에서 자체 DIY가 필요하더라도 마찬가지입니다.

이번 Qwen3는 국내 최초의 혼합 추론 모델로서 빠르고 간결한 응답을 제공하는 '빠른 사고'와 더 깊은 사고 체인 추론 능력을 단일 모델 안에 통합함으로써 추론 모델과 비추론 모델의 통합을 실현했습니다. 개발자는 다양한 작업 요구에 맞춰 '사고 예산(thinking budget)'을 직접 선택할 수도 있습니다.

기업 시나리오에서는 거의 항상 오픈소스 모델을 기반으로 자체 데이터를 활용해 미세 조정을 수행합니다. 예를 들어 Qwen3는 이번 업그레이드를 통해 119개 언어를 지원하게 되었으며, 일본 시장에서는 Qwen3 출시 후 불과 반달 만에 Claude, GPT-4o 등보다 더 큰 인기를 얻고 있습니다. 왜냐하면 기업들이 오픈소스인 Qwen3 기반에 일본어 시나리오 데이터를 주입하면 단순히 일본어를 지원하는 폐쇄형 모델보다 훨씬 유연하게 작동하여 효과를 배가할 수 있기 때문입니다.

물론 이것 외에도 개발자들이 Qwen에 긍정적인 태도를 갖는 이유는 대부분 그들이 반복해서 말하는 한 가지—'베이스 모델이 좋다(base model is good)'는 점 때문입니다.

베이스 모델이 좋다는 것은 기반 모델 위에서 증류, 미세 조정 학습, 강화 학습 등을 수행할 때 더 나은 결과를 얻을 수 있다는 의미입니다. 특히 강화 학습의 Scaling Law는 고품질의 사전 학습 모델을 필요로 하며, 이는 모델의 일반화 가능성 여부를 결정짓는 핵심 요소 중 하나입니다. 제가 기억하기로 DeepSeek-R1 논문에서 제시된 증류 소형 모델도 Qwen을 베이스 모델로 선택했으며, DeepSeek-R1이 생성한 추론 데이터를 활용해 Qwen-7B 기반 모델을 미세 조정함으로써 DeepSeek-R1의 추론 능력을 지식 증류 방식으로 Qwen-7B에 전달하였고, 모델 성능이 매우 우수했습니다.

GeekPark 팀은 알리클라우드 Tongyi 대규모 모델 사업 총괄 매니저 쉬둥(Xu Dong)과 개발자 입장에서 '베이스 모델이 좋다'는 것이 정확히 무엇을 의미하는지, 그리고 어떻게 이를 달성하는지에 대해 심도 있게 논의했습니다.

쉬둥은 매번 모델 성능 향상은 반드시 두 가지 측면에서 나타난다고 말합니다: 지식 밀도와 명령 준수 능력입니다. 이로 인해 과거에는 불가능하거나 성공률이 낮았거나 운에 맡겼던 AI 응용 시나리오에서 모델이 훨씬 더 '말을 잘 듣게' 되었습니다. Qwen3는 데이터 엔지니어링과 알고리즘 반복을 통해 지식 밀도와 명령 준수 능력에서 한층 더 향상된 성과를 거두었습니다.

현재 Qwen3는 데이터 마이닝 작업에서 강력한 지식 밀도와 SFT 단계의 정교한 훈련 덕분에 600페이지 분량의 입찰 문서에서 정확히 88개 필드를 추출할 수 있습니다. 의견 모니터링 시나리오에서는 소비자 평가를 '소형 차량', '승용차' 등 표준화된 태그로 추상화하여 과적합이나 포괄적인 일반화를 피할 수 있습니다. 보다 일반적인 인공지능 고객 서비스 시나리오에서는 사용자 니즈를 정확히 파악하고 상품 추천 타이밍을 유도함으로써 고객 이탈률을 낮출 수 있습니다.

올해 전체 업계가 본격적으로 에이전트(Agent) 분야로 뛰어들고 있는 가운데, Qwen3는 시의적절하게 에이전트 시나리오에서 요구되는 능력을 크게 향상시켰으며, 에이전트 도구 호출 및 코드 작성 능력을 최적화하고 MCP(Multi-Agent Collaboration Protocol) 지원도 강화했습니다. 도구 호출 템플릿과 도구 호출 파서를 패키징한 Qwen-Agent 프레임워크와 결합함으로써 코딩의 복잡성이 크게 감소했으며, 모바일 및 컴퓨터 에이전트 작업 등 다양한 작업이 점점 더 실현 가능해지고 있습니다.

이러한 최적화는 계속 진행 중이며, 지난주 QwenChat 공식 웹사이트에서는 Deep Research(딥 리서치) 및 WebDev(웹페이지 생성) 기능이 추가되었습니다. 이 기능들은 Qwen 기반 에이전트 프레임워크를 통해 구현된 것입니다. Qwen3는 에이전트의 도구 호출을 지원하며 MCP 프로토콜도 기본적으로 지원하여 BFCL(Benchmark for Function Calling and Language) 평가에서 최고 수준 모델 중에서 가장 우수한 성과를 보였습니다.

Qwen3의 에이전트 강화 기능은 다양한 산업 분야의 고객 시나리오에서도 효과를 발휘하고 있습니다. 예를 들어 레노버의 Baiying 지능형 플랫폼은 Qwen3 출시 직후 곧바로 플랫폼의 대규모 모델 엔진을 Qwen3로 전환했습니다. IT 솔루션으로서 Baiying 플랫폼은 Qwen3의 오픈소스 특성과 에이전트 도구 호출, MCP 지원 기능, 그리고 더 강력한 추론 능력을 활용하여 IT 운영(AI 서비스), AI 사무, AI 마케팅 등의 시나리오 솔루션을 업그레이드하였습니다. 이를 통해 중소기업은 AI 시대에 자체적으로 수직적 시나리오에서 다양한 에이전트를 DIY할 수 있게 되었으며, 생산 도구 제공에서 직접 '디지털 직원' 생산력 공급으로의 도약을 실현함으로써 비용 절감과 효율성 향상을 동시에 이루고 있습니다.

개발자 시나리오 중심으로 모델을 추가 반복 업데이트하고 개발자에게 정렬하는 것은 최근 대규모 모델 업체들이 집단적으로 전환해야 할 방향이기도 합니다.

최근 OpenAI GPT-4.1 핵심 연구원 미셸 포크래스(Michelle Pokrass)도 언급한 바와 같이, 때때로 벤치마크 테스트 최적화를 위해 모델을 조정하면 결과는 좋아 보이지만 실제 사용 시 명령을 따르지 않거나 형식이 이상하거나 컨텍스트가 너무 짧은 등의 문제가 발생한다고 지적했습니다. 이러한 피드백을 통해 고객이 실제로 중점적으로 최적화해야 할 평가 지표가 무엇인지가 확인됩니다. 그녀의 관점에서 GPT-4.1의 목표는 개발자가 사용할 때 기분 좋은 경험을 제공하는 것이며, GPT-5의 최적화 목표는 모델 스스로 언제 채팅을 시작하고 언제 깊은 사고를 시작할지 판단하게 하여 OpenAI 모델이 개발자에게 주는 복잡성과 낭비를 줄이는 것입니다.

미국과 중국의 우수한 모델들이 점차 이러한 공감대를 형성하며 개발자에게 '정렬(alignment)'되려는 의식을 가지기 시작했습니다. 따라서 향후 AI 가치 실현은 분명 긍정적인 신호입니다.

'무조건 선택'하기 전, 알리바바의 COT(사고 연쇄)를 이해하자

Qwen을 사용하는 개발자들과 점차 교류하면서, Qwen이 어느새 팬덤과 같은 신뢰를 형성하기 시작했다는 것을 알게 됩니다. 이 신뢰는 근본적으로 장기간의 '정서적 안정성'을 가진 성장을 통해 생긴 것입니다.

Qwen은 한 달에 한 번씩 업데이트되며, Qwen3 출시 후 불과 반달 만에 Qwen 패밀리가 또 여러 개의 모델을 업데이트하는 것을 볼 수 있는데, 이는 Llama보다 훨씬 '성실한' 모습입니다.

Hugging Face 중국 지역 책임자 왕티에전(王铁震)은 Hugging Face 오픈소스 커뮤니티에서 Qwen이 인기 있는 이유를 다음과 같이 요약했습니다. "양이 많고, 배부르게 하고, 업데이트가 빠르며, 베이스 모델이 좋다"는 점인데, 이 확실성은 개발자들로 하여금 항상 최신, 최고, 가장 빠른 모델을 지속적으로 사용할 수 있다는 믿음을 갖게 합니다.

이 현상은 흥미롭습니다. AI 애플리케이션은 적어도 다음 10년 동안은 비교적 장기적이고 복잡한 구축 과정을 겪을 것이며, 지속적인 투자를 보장하는 모델이 있다는 확신은 너무나 중요합니다. 우리는 모두 AI 애플리케이션 개발을 '물이 차오르면 자연스럽게 배가 떠오르듯' 해야 한다고 말합니다. AI 애플리케이션 개발자는 분명히 수량이 많고, 수위가 빠르게 상승하며, 물이 끊이지 않기를 원할 것입니다. 그래야 안심하고 애플리케이션 개발을 할 수 있으니까요.

그래서 Qwen이 전 세계에서 가장 많은 파생 모델을 보유한 오픈소스 모델이 되어 글로벌 영향력을 구축한 이유이기도 할 것입니다. 아마도 Llama는 일관되게 오픈소스를 고수하지만 업데이트 속도와 성능이 동시에 출시된 폐쇄형 모델과 차이가 있다는 점을 본 것이겠죠. Qwen이 계속해서 지속적이고 빠르게 최고의 '총(gun)'을 제공하며, 전 모달, 전 규모의 SOTA 모델을 지속적으로 오픈소스로 공개한다면, 이 오픈소스 깃발은 Qwen이 들고 나가는 것이 마땅합니다.

모든 '가정' 뒤에는 반드시 논리적 연결고리가 존재해야 합니다. 그렇다면 알리바바가 Qwen이 지속적이고 전면적으로 SOTA 모델을 오픈소스로 공개하도록 지지할 것인지, 이 기대와 알리바바 자체의 COT(Chain-of-Thought)가 부합하는지 살펴볼 필요가 있습니다.

저의 이전 글에서 정리한 바와 같이, 알리바바自身的 시나리오에 기반하여 지능의 한계를 지속적으로 탐색할 수밖에 없습니다. AI 시대에 알리바바가 '세상에 어렵지 않은 장사'라는 슬로건을 계승한다면, 결국 수많은 산업 분야의 AI 혁신과 전환을 위한 인프라를 제공해야 합니다. 이는 컴퓨팅 파워에서부터 모델, 애플리케이션에 이르는 모든 계층의 플랫폼 기회—알리클라우드, Qwen 모델 패밀리 및 그 오픈소스 생태계, 애플리케이션 플랫폼—가 지속적으로 진화해야 함을 의미합니다. 그 핵심 목표는 AGI 실현을 추구함으로써 기존 비즈니스의 AI 전환·업그레이드 및 AI 네이티브 애플리케이션을 돌파하는 것입니다.

또한 Meta 뒤에 있는 Llama와는 달리, 알리바바는 연구개발 비용이 높은 SOTA 모델을 오픈소스로 공개하더라도 알리클라우드를 통해 비즈니스 클로저를 실현할 수 있습니다. 아시아태평양 지역 최대의 클라우드 업체로서 이것이 알리바바가 단단히 오픈소스를 밀고 나갈 수 있는 자신감입니다. GeekPark 커뮤니티의 많은 창업자와 개발자들이 저와 공유했는데, 오픈소스 모델은 수익이 나지 않고 기술 브랜드만 추구하는 것처럼 보이지만, 사실 Qwen 시리즈의 오픈소스 모델은 알리클라우드에 실질적인 수익 증가를 가져왔으며, 지난 1년 이상 동안 알리클라우드의 최고의 영업 성과라고 할 수 있습니다. Qwen 오픈소스 모델을 선택하면, 자연스럽게 알리클라우드를 구매하게 되는데, 통의(Tongyi) 및 그 파생 모델을 알리클라우드에서 실행할 때 가장 높은 효율을 발휘하기 때문입니다.

"알리클라우드는 전 세계에서 기초 대규모 모델을 적극적으로 개발하고 전방위적으로 오픈소스화하며 전방위적으로 기여하는 유일한 클라우드 컴퓨팅 업체다"라는 이 문장은 실제로 그들의 목표를 반영하고 있습니다.

왜냐하면 MaaS(Model as a Service)는 이미 알리클라우드의 비즈니스 모델에서 매우 중요한 부분이 되었기 때문입니다. 알리클라우드의 지난 7개 분기 성장 추이를 보면, 통의 API를 사용하는 고객은 다른 클라우드 제품 사용도 크게 유도하며, 이는 매우 명확한 고객 연계 판매 효과입니다. 알리바바 입장에서는 향후 모델 역량과 AI 애플리케이션이 어떻게 진화하든 AI와 클라우드 컴퓨팅 인프라에는 매우 명확한 비즈니스 모델—클라우드 컴퓨팅 네트워크가 존재합니다.

Qwen이 지속적으로 SOTA를 오픈소스로 공개하는 것은 개발자와 고객의 이익뿐 아니라 생태계 전후방의 이익과도 일치합니다. 그래서 Qwen3 출시 당일 수많은 단말기 및 칩 기업들이 Qwen3 모델을 지원하겠다고 발표한 것이며, NVIDIA, MediaTek, AMD 등도 포함됩니다. 어떤 면에서 보면 오픈소스의 가장 큰 동맹은 NVIDIA와 서버 제조업체들입니다. 최고의 오픈소스 모델이 있으면 그들은 통합 시스템과 더 많은 GPU를 팔 수 있기 때문입니다.

모든 생태계 전후방의 번영을 촉진해야만 Qwen 자체의 가치도 알리바바의 더 큰 비즈니스 클로저 안에서 가치 클로저를 이룰 수 있습니다. 이 논리 아래 Qwen은 '굳이 채찍질하지 않아도 스스로 나아가며' 오픈소스 SOTA 깃발을 들어야 하며, 이는 더 안심되는 논리적 연결고리입니다.

결국 개발자가 '무조건 선택', 무리 없이, '혜택 누리기'에 부담 없이, 오픈소스 모델을 상업 세계에서 안정적인 기술 기반으로 삼을 수 있게 된 것은 매우 중요합니다. 또한 AI 애플리케이션 가치 실현이 본격적으로 가속화되는 중대한 호재이기도 합니다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

极客公园