
머스크의 Grok3는 아직 '지구에서 가장 똑똑한' 존재는 아니지만, 분명히 가장 부유한 존재다

이미지 출처: 무계 AI 생성
머스크가 말한 "지구에서 가장 똑똑한 AI", Grok 3가 등장했다.
수백만 명이 시청한 라이브 방송에서 머스크는 Grok 3를 발표했으며, 함께 발표에 참여한 두 명의 중국계 연구원은 xAI 공동 설립자인 Tony Wu와 Jimmy Ba였다. 벤치마크 테스트 결과에 따르면 Grok 3는 놀라울 정도로 강력하며, 자본 투입 측면에서도 뒷받침하는 20만 개의 GPU로 구성된 컴퓨팅 클러스터는 혀를 내두르게 한다.
Grok 3의 출시에는 Grok 3, Grok 3 mini, 그리고 추론 모드(Think), DeepSearch, Big Brain 등의 업데이트가 포함된다.
#01, "가장 똑똑한 AI"란 타이틀은 순위표에서 왔지만, 실제 성능은 어떨까

벤치마크 평가에서 Grok 3는 수학적 추론, STEM 및 과학 분야의 다양한 기준 테스트에서 GPT-4o, Gemini-2 Pro, Claude3.5 Sonnet, DeepSeek-V3 등 다른 모델들을 능가한다. 소형 버전인 Grok 3 Mini조차도 최정상급 수준이다.

Grok 3 초기 버전은 대규모 모델 경연장(Chatbot Arena)에서도 높은 점수를 받았다. 이 플랫폼은 다양한 AI 모델들이 서로 경쟁하고 사용자가 최고 답변을 선택하는 크라우드소싱 테스트 장소이며, Grok-3는 1400점을 돌파한 첫 번째 모델로서 모든 카테고리에서 1위를 차지했다.

Grok은 2023년 출시 이후 MMILU 점수에서 급속히 상승했으며 특히 2024년 Grok 2에서 눈에 띄는 돌파구를 마련하며 GPT 시리즈와 비교해도 빠르게 따라잡는 진보를 보여주었다.

"Grok 3는 매우 강력한 추론 능력을 갖추고 있으며, 지금까지 우리가 수행한 테스트에서 Grok 3는 우리가 알고 있는 어떤 출시 제품보다 우수한 성과를 보였다. 이는 좋은 신호다."라고 머스크는 지난주 두바이에서 열린 세계 정부 정상 회담에서 화상 통화를 통해 밝혔다.
Grok 3는 DeepSeek-R1 등의 추론 모델처럼 사고할 수 있는 추론 모드(Think)도 도입했다. Grok 3 모델은 가능한 모든 해결책을 고려하고 자기 비판을 하며, 솔루션을 검증하고 백트래킹하며, 근본 원리에서부터 생각하는 방식으로 복잡한 문제를 해결할 수 있다. 다만 증류 방지를 위해 Grok 3의 일부 추론 과정은 흐릿하게 처리되었다.

Grok 3 Reasoning은 o3-mini의 최고 버전인 o3-mini-high를 여러 인기 벤치마크 테스트에서 능가했으며, 새로운 수학 벤치마크 AIME2025도 포함된다.

팀은 Grok 3의 Think 모드를 이용해 지구에서 화성으로 발사 후 다시 지구로 돌아오는 애니메이션 3D 그래프를 생성하며 다음 발사 창의 궤도를 시연했다.
데모에서 Grok 3는 Matplotlib을 사용하는 Python 스크립트를 제공하고 코드를 설명했다. 코드는 케플러 법칙을 수치적으로 푸는 것으로 보인다. 코드 실행 후 Grok은 지구와 화성 두 행성을 애니메이션화하고 녹색 공으로 우주선의 여정을 표현했다.

시연은 현장에서 실시간 생성되었기 때문에 해법이 완전히 정확한지는 검증되지 않았으나, 지구-화성 이동 궤도 펜던트를 착용한 머스크는 실제 해법과 유사하다고 언급했다.

Grok 3를 조기에 체험한 Andrej Karpathy는 Grok 3의 Think 모드가 DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude는 달성하지 못한 작업을 수행했다고 말했지만, 최정상급 OpenAI 모델인 o1-pro 역시 동일하게 가능하다고 덧붙였다.

OpenAI, Gemini, perplexity에 이어 Grok도 자체 심층 검색 기능인 Deep Search를 출시했다. xAI 팀은 Deep Search를 "차세대 검색 엔진"으로 위치 지정하며 Grok Agent의 1세대 제품이라고 설명했다. 단순 정보 검색 도구를 넘어 프로그래밍, 연구 및 일상 문제 해결을 돕는 것을 목표로 한다.
시연 내용에 따르면 Grok 3의 Deep Search는 특별히 독창적인 점은 없었으며, 전통적 검색엔진의 키워드 매칭 방식과 차별화되면서 사용자 질의의 의미와 의도를 깊이 이해하고 다수 정보 출처에서 콘텐츠를 수집하여 교차 검증함으로써 정확성을 확보한다는 점을 강조했다. 또한 전통 검색엔진보다 조작성이 뛰어나며 사용자가 출처를 직접 지정할 수 있다.
xAI 팀은 특히 Deep Search의 검색 과정이 사용자에게 투명하게 공개되어 AI의 '사고' 과정을 확인할 수 있다고 언급했다.
Andrej Karpathy는 Grok 3의 DeepSearch가 Perplexity의 DeepResearch와 거의 비슷하지만, 최근 OpenAI가 발표한 Deep Research 수준에는 아직 미치지 못한다고 평가했다.
#02, 풀파워 "Big Brain" 모드
더 복잡한 질의에는 더 많은 컴퓨팅 리소스를 활용해 추론하는 "Big Brain" 모드를 사용한다. xAI는 이러한 추론 모델을 수학, 과학, 프로그래밍 문제에 가장 적합하다고 설명하며, 일종의 '풀버전'이라는 의미로 받아들일 수 있다.

xAI 팀은 Grok 3가 Big Brain 모드에서 테트리스(Tetris)와 비주엘드(Bejeweled)를 융합한 완전히 새로운 게임을 창조하는 것을 시연했다. 라이브 방송 중 즉흥적으로 생성된 것이기 때문에 Grok이 일부 작은 코딩 오류를 범해 게임이 예상대로 완벽하게 작동하지 않을 수도 있다고 xAI 팀은 설명했다. 라이브 테스트에서는 생성된 게임이 정상적으로 구동되었으나 색상 표시에 문제가 있었고, 테트리스의 한 줄 제거 메커니즘이 실제로 구현되었는지 불분명했다.
xAI 팀은 라이브 방송에서 AI 게임 스튜디오 출범 계획을 사실상 확인했으며, 머스크도 전날 X에서 관련 트윗을 올렸다.

#03, 돈이 많으면 자유롭겠지만, "최강"이 되려면 해야 할 일이 많다

Grok 3는 xAI의 Colossus 클러스터를 기반으로 하며, 1단계 10만 장의 GPU 클러스터는 122일 만에 건설되었고, 추가 92일 만에 20만 장으로 확장되었으며, Grok 3 훈련에는 약 20만 개의 GPU가 사용되었으며, 1월 초에 사전 훈련을 완료했다. 이전에 머스크는 X 플랫폼에서 Grok 3 개발에 사용된 컴퓨팅 리소스가 전작 Grok 2보다 "10배" 많았다고 밝혔으며, 데이터셋도 확장되어 법정 사건 문서 등을 포함했다고 전해진다. 라이브 방송에서 그는 Grok 3의 컴퓨팅 리소스가 Grok 2보다 약 15배 정도 많다고 밝혔다.
머스크는 또 xAI가 현재 클러스터보다 출력이 5배 큰 새로운 AI 클러스터를 건설 중이라고 밝혔다.

음성 모드에 대해서는 구체적인 출시일을 공개하지 않았으나, 머스크는 "약 일주일 정도 후에 출시될 것"이라고 말했다.
세부적으로 음성은 Grok과 유사한 모델이 직접 생성하며, 말하는 내용을 이해하고 바로 오디오를 생성할 수 있다. 이를 통해 AI가 세부사항을 기억하고 더욱 자연스럽게 대화를 이어갈 수 있게 된다. 음성 모드 기능은 앱과 API 모두에서 제공될 예정이다.
xAI는 향후 몇 주 안에 Grok-3의 API를 출시할 계획이다. 이 API는 Grok-3의 추론 모델과 Deep Search 기능을 포함한다. xAI 팀은 기업용 애플리케이션 시나리오에 큰 기대를 갖고 있으며, Grok-3의 강력한 기능과 Deep Search의 도입이 기업 고객에게 큰 가치를 제공할 것이라고 본다.

주목할 점은 xAI가 최근 사용자가 데이터 공유에 동의하면 최소 충전 5달러에 150달러 상당의 API 할당량을 무료로 제공하는 프로모션을 진행 중이라는 것이다. 명백히 xAI는 이런 작은 이득을 포기하는 것을 아쉬워하지 않으며, 오히려 이를 통해 사용자와 데이터를 확보하는 데 더 큰 가치를 두고 있다.
오픈소스 계획에 대해 머스크는 기존 전략을 유지하겠다며, Grok 3가 성숙하고 안정되면(몇 달 안에 달성될 것으로 예상됨) Grok 2를 오픈소스로 공개하겠다고 밝혔다.

현재 사용자는 X와 Grok 웹사이트, 앱을 통해 체험할 수 있으나, Grok 3의 모든 모델 및 관련 기능이 이미 출시된 것은 아니다(일부는 테스트 단계). Grok 3는 먼저 X 플랫폼의 Premium+ 구독자에게 제공되며, Grok 사용자에게 최첨단 기능과 우선 접근 권한을 제공하는 별도의 Super Grok 구독 서비스도 출시될 예정이다. 가격은 월 30달러 또는 연간 300달러이며, SuperGrok은 DeepSearch에서 더 많은 조회 횟수를 제공하고 무제한 이미지 생성 서비스도 제공한다.
Grok 3의 출시는 xAI가 AI 분야에서 치열한 경쟁을 벌이고 있음을 나타낸다. 이는 OpenAI와 구글뿐 아니라 중국의 신생 기업들로부터도 압박을 받고 있다. 예를 들어 DeepSeek는 전 세계 AI 기업들이 전략을 재조정하게 만들었으며, 심층 사고 모델을 "표준"으로 만들었고, OpenAI가 최근 추론 모델을 무료로 공개하도록 유도했으며, 오픈소스 신호도 보내게 했다.

머스크에게 있어 OpenAI는 xAI의 가장 큰 라이벌이다. 머스크는 2023년 OpenAI의 대안이 되기 위해 xAI를 설립했으며, OpenAI가 자신을 영리 기업으로 재편하려는 계획을 공개적으로 비판했다.
머스크는 OpenAI를 상대로 두 건의 소송을 제기하며 초기 설립 원칙에서 벗어났다고 주장했으며, OpenAI의 비영리 부문을 974억 달러에 인수하겠다는 제안을 했지만, 이 제안은 지난주 OpenAI 이사회에서 거절당했다. 샘 알트먼은 이 인수 제안이 "우리를 늦추기 위한 전략"이라고 말했다. 머스크는 OpenAI 창립에 참여했지만 2018년 이사회를 떠난 이후로 회사를 계속 비판해왔다.
두 회사는 모두 놀라운 수준의 자금 조달을 진행 중이며, 기업 가치는 계속해서 치솟고 있다. 블룸버그가 지난주 보도한 바에 따르면, 머스크의 xAI는 약 100억 달러 규모의 투자 유치 협상을 진행 중이며, 투자 완료 후 기업 가치는 750억 달러에 이를 것으로 예상된다. xAI의 직전 평가액은 510억 달러였다. 한편 OpenAI는 최대 4000억 달러의 자금 조달을 협의 중이며, 기업 가치는 3000억 달러로 상승할 것으로 예상된다.
양사가 자본에서 비롯된 '돈 많은' 특징은 매우 뚜렷하다. 소프트뱅크, OpenAI, 오라클 및 아부다비가 지원하는 MGX는 1월 미국에 1000억 달러를 투자하고 궁극적으로 5000억 달러를 투입해 데이터센터 및 기타 인공지능 인프라를 건설하겠다고 공동 발표했다. 동시에 델 테크놀로지는 xAI에 인공지능 최적화 서버를 제공하기 위한 50억 달러 이상의 거래를 거의 마무리 지은 상태다.
현재 상황을 보면 OpenAI는 분명 xAI의 주요 경쟁자다. 양사는 기술, 시장 포지셔닝, 투자 전략 측면에서 직접적인 경쟁 관계에 있다. OpenAI는 성숙한 제품 라인과 강력한 시장 점유율로 여전히 선두를 달리고 있다. Grok 3의 출시가 일부 지표에서 우위를 보였지만 전체 시연 내용을 보면 크게 혁신적이진 않으며, 업계 선두 기업들을 따라잡기 위한 보완 중심이라는 느낌이 강하다. Grok 3를 뒷받침하는 핵심은 20만 개의 GPU와 끊임없이 이어지는 자본 지원이지, 실제 기술적 돌파구는 아닌 듯하다. 이번 출시는 머스크가 말했던 "아마도 AI가 Grok을 능가할 마지막 기회일지도 모른다"는 말에도 미치지 못한다.
Grok 3 출시 행사 초반, 머스크는 다시 한번 xAI와 Grok의 사명을 소개했다. 우주의 본질을 이해하고, 현재 일어나는 일을 파악하며, 외계 생명체의 흔적을 찾고, 삶의 의미를 탐구하며, 우주의 기원을 이해하고 종말 방식을 결정하는 것. xAI는 진실 탐구를 동력으로 삼아 궁극의 진실 탐구형 인공지능이 되겠다는 것이다.
그러나 이러한 거대한 비전을 실현하거나 현실적인 경쟁에 직면하든 간에, 단지 '돈의 힘'과 순위표의 '최강' 타이틀만으로는 부족하다. 진정한 "지구에서 가장 똑똑한 AI"가 되기 위해서는 머스크와 그의 xAI가 가야 할 길이 아직 멀다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News










