
20억 달러의 가치 정점에서, '유럽판 OpenAI'는 어떻게 GPT 최강의 경쟁자가 되었나
글: MetaverseHub
「ChatGPT는 인터넷의 발명과 동일하게 중요한 존재며 세상을 바꿀 것이다.」 빌 게이츠가 대규모 모델에 대해 한 예측은 점차 현실로 다가오고 있다.
지난 1년간 OpenAI는 AI(인공지능) 분야에서 두각을 나타내 왔으며, ChatGPT의 보급이나 내부 파동 등이 모두 업계의 주목을 받았다.
그러나 Mistral AI의 부상으로 인해 이러한 구도는 전례 없는 변화를 겪고 있다.
OpenAI의 강력한 경쟁자로서, Mistral AI는 기술 및 제품 측면에서 눈에 띄는 돌파구를 보여주며 AI 분야의 돋보이는 존재가 되었으며, 「유럽판 OpenAI」라 불리고 있다.
OpenAI와 비교해 Mistral AI는 기술의 실제 응용에 더욱 집중하며 최첨단 AI 기술을 실제 문제 해결에 적용하려 노력하고 있다.

투자 측면에서도 Mistral AI는 창립 초기부터 1.13억 달러의 시드 펀딩을 유치하였으며 Lightspeed Venture Partners, Salesforce, BNP 파리바 등 유명 투자기관들의 관심을 받았다.
불과 몇 개월 만에 또 4.15억 달러의 A라운드 펀딩을 성사시켰으며, 기업 가치는 무려 20억 달러에 달했다. 이는 AI 스타트업 중 매우 드문 규모로, 자본시장이 Mistral AI에 높은 평가와 기대를 하고 있음을 보여줄 뿐 아니라 향후 발전에 강력한 자금 지원을 제공하고 있다.
Mistral AI의 부상은 OpenAI에게 도전장을 내민 것뿐 아니라, 전체 AI 분야에 새로운 활력을 불어넣으며 산업 전반에 더 많은 혁신과 진전을 가져왔다.
01. 인공지능 혁명을 선도하는 혁신적 세력
Mistral AI(Mistral Artificial Intelligence)는 온라인 챗봇, 검색엔진 및 기타 AI 기반 제품 개발 기술에 특화된 인공지능 연구개발 및 응용 회사이다.
창립 이후 Mistral AI는 항상 인간 중심의 철학을 고수하며, 보다 지능적이고 인간적인 AI 시스템을 개발함으로써 사람들의 생활과 업무 방식을 개선하고, 더 많은 편의와 복지를 제공하며, 첨단 AI 기술을 활용해 각 산업 분야에 효율적이고 지능적인 솔루션을 제공하는 것을 목표로 한다.
비록 스타트업이지만, Mistral AI의 창립진은 모두 실력 있는 인물들로 구성되어 있다.
Arthur Mensch는 과거 구글 계열 인공지능 기업 딥마인드(DeepMind)의 연구원으로 활동했으며, Timothée Lacroix와 Guillaume Lample은 메타(Meta)에서 관련 기술 직책을 맡았다.
이들의 과거 경험은 멀티모달, RAG, 알고리즘 최적화 등의 기술에 대한 깊은 이해를 가능하게 했으며, 모델 추론, 사전 학습, 모델 임베딩 등 분야에 대한 심층적인 연구를 수행할 수 있었다.

Mistral AI 공식 웹사이트의 다음 문장은 그들의 야심을 잘 보여준다. "우리의 미션은 오픈 커뮤니티와 기업 고객을 위해 AI를 발전시키는 것입니다. 우리는 독점 솔루션과 맞먹는 성능을 가진 오픈형 웨이트 모델을 개발함으로써 AI 혁명을 추진하고자 합니다."
현재 Mistral AI는 여전히 소규모 팀이지만, 높은 과학적 기준을 유지하며 혁신적인 방법으로 효율적이고 유용하며 신뢰할 수 있는 AI 모델을 개발하고 있다. 이것이 바로 Mistral AI가 각광받는 이유 중 하나일지도 모른다.
02. 대규모 언어 모델의 중대한 도약
Mistral AI가 가장 주목받는 제품은 단연 Mixtral 8x7B이며, 현재 시장에서 가장 경쟁력 있는 오픈형 대규모 모델 중 하나로 여러 가지 특별한 기능을 갖추고 있으며, 성능이 다른 대규모 모델들을 명백히 앞서고 있다.
Mixtral 8x7B의 핵심은 혁신적인 MoE(Mixture of Experts) 아키텍처에 있다. MoE 아키텍처는 게이트웨이 네트워크를 통해 입력 데이터를 '전문가'라 불리는 특정 신경망 구성요소에 할당한다. Mixtral 8x7B에는 총 8개의 전문가가 있으며, 각각은 70억 개의 모델 매개변수를 가지고 있다.
8개의 '전문가'를 탑재했음에도 불구하고 실제 연산 시 각 데이터 처리는 오직 2개의 '전문가'만 필요로 한다. 이러한 데이터 자원 할당 알고리즘은 모델 성능을 유지하면서 처리 속도를 크게 최적화한다.

훈련 및 파인튜닝 측면에서 Mixtral AI는 영어, 프랑스어, 이탈리아어, 독일어, 스페인어를 포함한 다국어 데이터로 사전 훈련을 진행했다. Instruct 모델은 감독 파인튜닝과 직접 선호도 최적화(DPO)를 통해 훈련되었으며 MT-Bench 등의 벤치마크 테스트에서 높은 점수를 기록했다.
Mixtral 8x7B를 심층적으로 연구하는 과정에서 Mistral AI는 특히 지시를 따르는 버전의 일부 기능을 파인튜닝하여 모델이 보다 정교하고 개인화된 방향으로 발전하도록 했다.
뛰어난 자체 성능 외에도, Mixtral 8x7B가 널리 칭찬받는 또 다른 중요한 이유는 그것이 상징하는 개방성에 있다.
Mistral AI는 이 대규모 모델을 발표함과 동시에 모델의 가중치 데이터를 공개했는데, 이러한 전략은 AI 커뮤니티의 주목을 효과적으로 끌어냈으며, 학술적·상업적 용도로의 광범위한 접근성을 보장했다. Mixtral AI의 개방성은 다양한 응용 프로그램의 출현을 장려하며, 대규모 모델 및 언어 이해 분야에서 새로운 돌파구를 마련할 가능성이 있다.
Mixtral 8x7B의 혁신적인 접근법과 뛰어난 성능은 이를 대규모 모델 분야의 산업 표준으로 만들었으며, 이미 큰 성과를 거두었음에도 Mixtral AI는 계속해서 전진하며 이 모델의 관련 성능을 적극적으로 최적화하고 있다.
03. Mistral AI의 이정표적 발전
Mixtral 8x7B의 탄생은 모델 구조와 효율성 측면에서의 혁신을 통해 AI 기술의 중요한 돌파구를 의미한다. 그렇다면 다른 대규모 모델들과 비교했을 때 어떤 성과를 보여주는가?
거인들을 능가할 수 있을까?
ChatGPT 출시 이후 OpenAI는 대규모 언어 모델의 금자탑으로 여겨져 왔다. 그러나 Mistral AI는 완전히 오픈소스화된 오픈 가중치 모델을 도입하여 광범위한 벤치마크 테스트에서 뛰어난 성능을 보였으며, 일부 지표에서는 OpenAI의 GPT-3.5 모델과 메타의 Llama 2 13B 모델까지 초월하기도 했다.

구체적으로, 수학, 미국 역사, 컴퓨터 과학, 법률 등 57개 과목을 포함하는 대규모 다중 작업 언어 이해(MMLU) 테스트에서 Mistral AI는 60.1%의 정확도를 기록했으며, 반면 Llama 2 7B와 Llama 2 13B는 각각 약 44%, 55% 이상의 정확도를 기록했다.
마찬가지로 상식 추론 및 독해력을 요구하는 테스트에서도 Mistral 7B는 두 Llama 모델보다 우수한 성과를 보이며 각각 69%, 64%의 정확도를 기록했으며, 깊이 있는 언어 이해 분야에서의 우위를 입증했다.
Mistral 7B가 깊이 있는 언어 이해 분야에서 뛰어난 성능을 발휘하는 이유는 훈련 과정에서 복잡하고 다양했던 방대한 텍스트 데이터에 노출되면서 맥락 인식 능력과 추론 능력이 강화되었기 때문이다. 덕분에 테스트 시 텍스트의 내재 논리와 의미 정보를 더 잘 이해하고 파악할 수 있어 보다 정확하고 심층적인 답변을 제공할 수 있다.
GPT-3과 비교하면, Mistral AI는 빠른 추론과 더 긴 시퀀스 처리에 집중하고 있다. 그룹화된 질의(GQA)와 슬라이딩 윈도우 어텐션 메커니즘—어텐션 모델 기반의 일종의 어텐션 패턴—을 활용하여 지연 시간을 줄이고 처리량을 극대화하는 최적화를 이루었다. 이는 대량의 데이터를 빠르게 처리하는 저비용 고효율 응용 시나리오에 적합하게 하며 비용 효율성 측면에서 최상의 선택이 된다.

반면 GPT-3은 심층적인 언어 이해 능력과 다중 작업 처리 능력으로 유명하며, 짧은 시퀀스 처리에 최적화되어 있다. 예를 들어 질문 응답 시스템 작업에서 뛰어난 성능을 발휘하며 정확한 답변을 이해하고 생성할 수 있다. 강력한 언어 이해 능력을 바탕으로 긴 텍스트를 빠르게 요약할 수 있으며, 텍스트 완성, 언어 번역, 감성 분석 등을 수행할 수도 있다.
고성능 소형 모델, 그러나 '안전 장치' 부족
Mistral 7B는 고성능과 강력한 적응성으로 주목받고 있으며, '작은 숫자 지문(small digital footprint)' 특성을 지닌다. 즉, 실행 시 필요한 계산 자원과 저장 공간이 적다는 의미이다.
강력한 하드웨어에 의존하는 다른 모델들과 달리 Mixtral 7B는 독립형 GPU가 없는 소형 개인 컴퓨터에서도 작동할 수 있다. 이를 통해 vLLM 추론 서버, skypilot 오픈소스 프레임워크 등의 배포 도구를 유연하게 사용하여 AWS, GCP, Azure 등 모든 클라우드 플랫폼에 배포할 수 있으며, 개발자가 제공하는 참조 구현과 로컬에서 공동 활용하는 것도 가능하다.

비록 고성능과 유연한 배포 능력이 두드러지지만, 보안은 Mistral AI의 취약점이 되고 있다.
GPT-3와 Llama 2 같은 대규모 언어 모델(LLM)은 엄격한 콘텐츠 필터링 기능을 갖추고 있어, 모회사가 유해하다고 판단되는 메시지 생성을 거부할 수 있지만, Mixtral 7B는 이러한 '안전 장치'가 부족하다. 실제로 사용자가 Mistral AI의 질문 응답 모델에 폭탄 제조법이나 살인 실행 방법을 묻자, 채팅 로봇이 섬뜩할 정도로 상세한 지침을 제공한 사례도 있었다.
Mistral AI 팀이 기술의 개방적 공유를 추구하지만, 이는 오히려 AI 제품의 양날의 검이 될 수 있다. 규제 당국이 전통적인 콘텐츠 필터가 없다는 이유로 이 모델에 대해 더 엄격한 조치를 취할 가능성도 있기 때문이다.
한편, Mistral AI의 CEO 아서 멘쉬(Arthur Mensch)는 AI 안전 정상회담에서 다음과 같이 말했다. "오픈소스는 위험과 이익 사이의 균형이 존재한다. 우리는 역동적인 대화를 통해 최적의 해결책을 찾아야 한다."
알려진 바에 따르면, 회사는 모듈화된 필터와 메커니즘을 갖춘 플랫폼을 구축 중이며, 모델 네트워크를 관리할 예정이다. 아마도 회사는 모델 내부 구조 차원에서 AI 보안 및 보호 문제를 해결하려는 전략을 취할 것이다.
현재 치열한 경쟁을 벌이고 있는 대규모 언어 모델 시장에서 Mistral AI는 뛰어난 성능과 탁월한 적응성으로 두각을 나타내고 있다. 그러나 잠재적인 AI 보안 문제에 직면해 산업 종사자들은 오픈소스와 보안 사이에서 어떻게 균형을 맞출지 고민하고 있다.
04. 구글 클라우드와 함께하는 지능형 미래
众所周히, 구글 클라우드는 글로벌 클라우드 컴퓨팅 분야에서 뛰어난 존재이며, AI 분야의 블랙 호스인 Mistral AI와 만나 무한한 가능성을 지닌 미래가 우리 앞에 펼쳐지고 있다.
지난달, 구글 클라우드는 Mistral AI와 글로벌 파트너십을 체결한다고 발표했으며, Mistral AI는 구글 클라우드의 인프라를 활용해 대규모 언어 모델을 배포하고 상용화할 예정이다.

구글 클라우드의 강력한 클라우드 컴퓨팅 및 빅데이터 기술을 활용함으로써 Mistral AI는 모델 추론, 사전 훈련 등 분야에서 전례 없는 돌파구를 마련할 것으로 기대된다. 이는 AI 기술 발전을 더욱 가속화할 뿐 아니라 각 산업에 보다 지능적이고 효율적인 솔루션을 제공할 것이다.
동시에 양사의 협력은 Mistral AI의 각 산업 분야에서의 실질적 적용을 가속화할 것이다. 전자상거래, 금융, 의료, 교육 등 어느 분야에서든 Mistral AI는 인류에게 더 많은 편의와 복지를 가져올 것이다.
물론 Mistral AI의 부상은 결코 우연이 아니다. 활력과 혁신 정신이 넘치는 회사로서 Mistral AI는 항상 AI 기술의 경계를 탐색하고 이를 실제 문제 해결에 적용하려 노력하고 있다.
탁월한 성과와 혁신 능력을 보여온 Mistral AI에 대해 사람들은 이 스타트업이 OpenAI를 넘어설 수 있을지, 유럽 AI 분야의 선두주자가 될 수 있을지 궁금해하고 있다. 그 결과를 지켜보자.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












