
구글, 멀티모달 '게임 체인저' 공개, 진정으로 GPT-4를 압도할 수 있을까?
글쓴이: 무무
「최대」「가장 유능한」「최고」「가장 효율적인」이라는 수식어를 구글은 12월 7일 새롭게 발표한 멀티모달 대규모 모델 Gemini에 붙였다. OpenAI의 GPT-4와 비교하며 우월감을 드러내는 경쟁심리가 여과없이 드러난다.
Ultra, Pro, Nano 세 가지 크기로 나뉜 Gemini는 각종 'AI 시험'에서 고득점을 받았다고 자랑할 뿐 아니라, 공개된 데모 영상에서는 말하기·듣기·읽기·쓰기 모든 것을 소화하는 '초능력 도구'처럼 보인다.
공식 설명에 따르면, Gemini Ultra는 가장 강력한 성능을 지녔으며 다중모달 능력과 전문성, 정확도를 모두 갖췄다. 텍스트와 음성을 입력·출력할 수 있을 뿐 아니라 수학 숙제 채점, 운동선수의 동작과 자세 교정, 복잡한 차트 작성, 코딩 작업 등 다양한 과업을 수행할 수 있으며, MMLU(대규모 다중과제 언어 이해) 평가에서 심지어 '인간 전문가를 능가했다'고 한다.
현재 일반 사용자가 체험할 수 있는 것은 Gemini Pro 버전으로, 공식적으로 '다양한 과업을 확장하는 최적의 모델'로 정의되며, 이전에 구글이 발표한 챗봇 Bard에 통합되어 있다. 기기에 내장되어 작업을 수행하는 '가장 효율적인 모델' Gemini Nano는 구글 스마트폰 Pixel 8 Pro에 탑재될 예정이며, '가장 크고 유능해 고도로 복잡한 과업에 적합한' Gemini Ultra는 내년 초 개발자 및 기업 사용자를 대상으로 점진적으로 공개될 계획이다.
그렇다면, Gemini는 정말 GPT-4보다 더 나은가?
일부 네티즌들은 구글이 제시한 Gemini Ultra의 '시험 성적'이 자체적으로 개발한 평가 방법(시험지)을 사용했다는 점을 지적했다. 또한 블룸버그는 Gemini의 데모 영상이 실시간이 아니며, 편집 흔적이 있다고 지적했다.
매체 메타버스 데일리 폭발이 Bard의 수학 능력을 직접 테스트한 결과, 이미 미세 조정된 Gemini Pro 모델이 탑재되었음에도 불구하고 복잡한 수학 문제를 이해하는 데 여전히 오류가 있었으며, 특히 이미지 인식 부분에서 문제가 있었다.
구글, Gemini의 ‘청문독서’ 능력 선보여
Gemini는 구글이 처음부터 새로 구축한 멀티모달 인공지능 대규모 모델이다. 시간상으로 GPT-4에 비해 상당히 늦었지만, 구글은 이를 '가장 강력한 모델'이라 소개하며 그 강점으로 멀티모달 기능을 강조한다.
Gemini는 텍스트, 이미지, 오디오, 비디오, 코드 등 다양한 형태의 데이터를 동시에 처리하고 분석할 수 있다. 즉, 사용자는 다양한 형식의 정보를 입력할 수 있으며, Gemini는 이를 이해할 뿐 아니라 분석하고 요구에 따라 과업을 수행할 수 있다.
현재 Gemini는 1.0 버전이며, 규모에 따라 Ultra, Pro, Nano 세 가지로 나뉜다. Ultra는 고도로 복잡한 과업에 적합하고, Pro는 다양한 과업 처리에 집중하며, Nano는 모바일 기기용 애플리케이션에 특화되어 있다. 각각의 버전은 서로 다른 시나리오에 맞춰 설계되었으며, 여러 벤치마크 테스트에서 뛰어난 성능을 보여주었다.
구글이 공개한 홍보 영상은 Gemini의 뛰어난 멀티모달 능력을 보여준다. 영상을 본 사람이라면 감탄하지 않을 수 없을 것이다.
'슈퍼 모델' Gemini Ultra의 성능은 구글이 발표한 테스트 데이터로 뒷받침된다. 대규모 언어 모델(LLM)을 평가하는 데 널리 사용되는 32개의 학술 벤치마크 중 30개에서 현재 기술 수준을 능가했다.
Gemini Ultra는 MMLU(대규모 다중과제 언어 이해) 평가에서 90.0%의 점수를 받아 '인간 전문가를 처음으로 능가한 모델'이 되었다고 주장한다. 이 평가는 수학, 물리, 역사, 법률, 의학, 윤리학 등 57개 과목의 조합을 사용하여 세계 지식과 문제 해결 능력을 측정한다. Gemini는 텍스트와 코딩을 포함한 여러 벤치마크에서 현재 기술 수준을 앞질렀다.
MMLU는 대규모 모델의 언어 이해 능력을 평가하는 방식으로, 초등 수학, 미국 역사, 컴퓨터 과학, 법률 등 인간 지식의 57개 분야에 걸친 객관식 문항으로 구성되며, 난이도는 고등학교 수준에서 전문가 수준까지 다양하다. 현재 주요 대규모 모델의 의미이해 능력을 평가하는 표준 테스트 중 하나다.
구글이 제공한 테스트 결과를 보면, Gemini는 복잡한 데이터 이해 및 고급 과업 수행 측면에서 GPT-4에 강력한 경쟁자가 될 것으로 보인다.

구글, Gemini가 MMLU 평가에서 인간 전문가 처음으로 능가
처음부터 멀티모달 학습을 기반으로 설계된 만큼, Gemini Ultra는 이론적으로 텍스트, 이미지, 음성, 비디오, 코드 등 다양한 형태의 정보를 모두 이해할 수 있어 AI 애플리케이션과 활용 가능성이 더욱 확대된다.
예를 들어 교육 분야에서 Gemini Ultra의 멀티모달 추론 기술을 활용하면, 어지럽게 쓰인 필기 노트도 이해할 수 있고, 학생이 문제를 풀다가 잘못된 단계도 찾아낼 수 있으며, 올바른 해답과 풀이 과정을 제시할 수 있다. 이렇게 되면 교사들을 완전히 대체하진 못하더라도, 적어도 교사들에게 매우 강력한 AI 조수가 생기는 셈이다.

Gemini, 학생들의 숙제 채점 가능
영상 이해 및 추론 측면에서도 Gemini Ultra는 마치 '축구 코치' 같은 역량을 보여주며, 운동선수의 동작과 힘의 가하는 방식을 분석하고 구체적인 개선 조언까지 제공할 수 있다.

Gemini, 영상 내용 이해해 운동선수에게 지도 조언 제공 가능
복잡한 이미지 이해, 코드 생성, 명령 수행 등에서도 Gemini Ultra는 문제없다. "왼쪽 위 하위 이미지에 묘사된 함수를 가져와 1000배 곱한 후 왼쪽 아래 하위 이미지에 묘사된 함수에 더해 matplotlib 코드로 단일 결과 그래프를 생성하라"는 지시를 입력하면, Gemini Ultra는 역그래픽 과업을 완벽히 수행하여 그래프 생성 코드를 추론하고, 추가적인 수학 변환을 실행하며 관련 코드를 생성할 수 있다.
구글이 제시한 사례들만 보면, Gemini Ultra는 거의 '지구상에서 가장 강력한' 대규모 모델처럼 보인다. 관객들이 궁금한 것은, 이 '슈퍼 사이어인' 같은 대규모 모델을 언제쯤 우리가 실제로 사용할 수 있느냐는 점이다.
구글의 발표에 따르면, 12월 6일부터 Bard에 Gemini Pro의 미세 조정 버전이 탑재되어 고급 추론, 계획 수립, 이해 등의 기능이 향상되었으며, 이는 Bard 출시 이후 최대 규모의 업데이트다.
단, Gemini Pro가 통합된 Bard는 영어만 지원하며, 전 세계 170여 개국에서 이용 가능하다. 향후 점차 다른 모달리티와 새로운 언어, 지역으로 확장될 예정이므로, 현재로서는 중국어 사용자가 Gemini Pro를 완벽하게 체험하기 어렵다.
Gemini Nano는 먼저 구글의 스마트폰 Pixel 8 Pro에 적용되며, WhatsApp에서 시작해 내년에는 더 많은 메신저 앱을 지원할 계획이다.
앞으로 몇 달 안에 Gemini는 검색(Search), 광고(Ads), Chrome, Duet AI 등 더 많은 제품과 서비스에도 도입될 예정이다. 즉, 구글 검색 엔진에도 Gemini의 기능이 통합될 것이다.
가장 강력한 버전인 Gemini Ultra는 일반 사용자들이 사용하기까지는 아직 기다려야 한다. 구글은 현재 신뢰성과 보안성 검사를 진행 중이며, 출시 전 인간의 피드백을 통한 미세 조정과 강화 학습(RLHF)을 통해 추가로 개선할 예정이라고 밝혔다.
이 과정에서 Gemini Ultra는 일부 고객, 개발자, 파트너, 보안 및 책임 전문가들에게 초기 실험용으로 제한적으로 제공되며, 피드백을 수집한 후 내년 초 개발자 및 기업 고객에게 공개될 예정이다.
Ultra의 MMLU '시험지', 구글판이라는 의혹
가장 강력한 Gemini Ultra를 선보였지만, 실제 출시와 사용은 느리게 진행되고 있다. 이러한 구글의 행보는 곧바로 의심을 불러일으켰다. 진짜로 GPT-4보다 강한가?
블룸버그는 바로 반박에 나섰다. 구글의 모델은 OpenAI에 비해 여전히 격차가 있으며, 지금의 능력은 데모에 의존한 것일 뿐, 게다가 영상 데모는 녹화된 것이며 실시간이 아니어서 '정교하게 조정된 텍스트 프롬프트와 정지된 이미지'일 가능성이 크다고 지적했다. 블룸버그는 또한 Gemini의 답변이 다른 정보의 보조를 필요로 하며, 실제 상호작용에서는 매우 강한 암시를 요한다는 점도 지적했다.
데모 영상을 본 네티즌들도 영상에 뚜렷한 편집 흔적이 있으며, '강력한 능력에는 물이 끼었다'고 생각했다.
또한 구글이 Gemini Ultra의 MMLU 평가에서 사용한 시험이 자체 개발한 '시험지'라는 점이 네티즌들에 의해 지적되었다. 57개 과목의 객관식 시험에서 90점을 받은 Ultra의 점수 아래에는 분명히 'CoT@32*'라는 표기가 있는데, 이는 구글이 자체적으로 조정한 평가 방식이다. GPT-4와 동일한 기준을 적용할 경우, 해당 점수는 83.7점으로, GPT-4의 86.4점보다 낮다.

Gemini Ultra, 구글이 조정한 평가 방식에서 90점 획득
학술적인 일은 너무 전문적이지만, 다행히 구글은 이미 Gemini를 Bard에 통합했다. 비록 최상위 버전 Ultra가 아닌 저사양 버전 Pro를 사용하고 있지만, 다양한 과업을 처리할 수 있다고 주장하므로, 일반인이 Gemini를 직접 테스트할 수 있는 가장 현실적인 방법이다.
매체 메타버스 데일리 폭발은 수학 문제를 직접 선택해 테스트했다. ChatGPT가 수학에 약하기로 알려져 있으며, 유일한 정답을 요구하는 수학은 OpenAI가 AGI(일반 인공지능)에 도달하는 기반이라고 보기 때문이다. 따라서 Gemini가 탑재된 Bard가 수학에 능한지 확인해보기로 했다.
통일된 영어로 질문을 진행했으며, 문제 1은 원뿔의 부피를 구하는 것이고, 문제 2는 다소 어려운 기하 증명 문제였다.
테스트 결과, Gemini Pro는 이미지와 이미지 내 텍스트를 정확히 인식할 수 있었으며 간단한 수학 문제도 정확히 해결할 수 있었다. 그러나 복잡한 수학 문제를 처리할 때는 여전히 명백한 오류가 있었다. 문제 2에서 Bard는 2단계에서 EG와 AB 두 선분을 잘못 판단하여 서로 수직이라고 증명했다.

Gemini Pro 탑재한 Bard, 수학 문제 해결 완벽하지 않아
이는 혹시 Bard가 Gemini Ultra가 아닌 Pro 버전을 사용하기 때문에 충분히 강력하지 못한 것인가? 그렇다면 Ultra 버전이 도입된 후 다시 테스트해봐야 할 것이다.
스마트폰 Pixel 8 Pro에 탑재될 Gemini Nano는 '녹음 요약'과 'Gboard 스마트 회신' 두 가지 기능에 적용될 예정이다.
구글에 따르면, 기기가 인터넷에 연결되지 않아도 녹음기 기능을 통해 대화, 인터뷰, 발표 등의 내용을 요약할 수 있으며, 스마트 회신 기능은 전화 종료 후 자동 회신과 유사하게 작동한다. Gemini Nano는 수신 메시지를 인식하고 이에 맞는 회신을 생성할 수 있다. 다만 현재 이 두 기능 모두 영어 텍스트 인식만 지원한다.
딥마인드(DepMind)가 이전에 제시한 AGI 평가 프레임워크에 따르면, AGI-1 단계에서는 인공지능이 다양한 분야와 모달리티를 넘나들며 학습하고 추론할 수 있어야 하며, 질문 응답, 요약, 번역, 대화 등 여러 분야와 과업에서 지능을 보여주고, 인간과 다른 AI와 기본적인 의사소통과 협업을 할 수 있으며, 단순한 감정과 가치를 인식하고 표현할 수 있어야 한다.
구글의 공식 발표와 실제 테스트 경험을 종합하면, 여전히 공개되지 않은 Ultra 버전이 GPT-4를 뛰어넘을 가능성이 있으며, 가장 기대되는 존재다. 만약 이 버전의 멀티모달 기능이 데모에서 보여준 것처럼 진정으로 실현된다면, 구글은 자신이 정의한 AGI에 한층 더 가까워질 것이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














