OpenAI의 범용 모델 GPT-4o가 실시간 상호작용으로 전 세계를 놀라게 했으며, 사이파이 시대가 이미 도래했다.

2024.05.14

OpenAI의 범용 모델 GPT-4o가 실시간 상호작용으로 전 세계를 놀라게 했으며, 사이파이 시대가 이미 도래했다.

채팅GPT가 등장한 지 겨우 17개월 만에 OpenAI는 공상과학 영화에 나올 법한 초지능 AI를 내놓았으며, 완전히 무료로 누구나 사용할 수 있게 되었다.

2024.05.14 - 01:43:08

OpenAI

Web3 심층 보도에 집중하고 흐름을 통찰

채팅GPT가 등장한 지 겨우 17개월 만에 OpenAI는 공상과학 영화에 나올 법한 초지능 AI를 내놓았으며, 완전히 무료로 누구나 사용할 수 있게 되었다.

글 작성: 머신 하트

정말 충격적이다!

다른 기술 기업들이 대규모 모델의 다중 모달 기능을 따라잡고 텍스트 요약, 이미지 편집 등의 기능을 스마트폰에 넣는 데 주력하고 있을 때, 선두를 달리는 OpenAI는 바로 초강력 신제품을 공개했다. 자사 CEO 샘 알트먼조차 "영화 속 같은 느낌"이라고 감탄할 정도다.

5월 14일 새벽, OpenAI는 처음으로 '봄철 신제품 발표회'를 열고 차세대 플래그십 생성 모델 GPT-4o와 데스크톱 앱을 공개하며 일련의 새로운 기능들을 시연했다. 이번에는 기술이 제품 형태 자체를 뒤흔들었으며, OpenAI는 전 세계 기술 기업들에게 실질적인 교훈을 제공했다.

이날 행사 진행은 OpenAI 최고기술책임자(CTO) 미라 무라티가 맡았으며, 그녀는 오늘 세 가지 핵심 사항을 발표한다고 밝혔다:

첫째, 앞으로 OpenAI의 제품 개발 방침은 무료 우선이며, 더 많은 사람들이 사용할 수 있도록 한다는 것이다.
둘째, 따라서 OpenAI는 이번에 데스크톱 프로그램과 개선된 UI를 출시했으며, 사용이 더욱 간편하고 자연스럽다.
셋째, GPT-4 이후 새롭게 등장한 대규모 모델은 GPT-4o라는 이름을 갖는다. GPT-4o의 특별함은 극도로 자연스러운 상호작용 방식을 통해 누구나 GPT-4 수준의 지능을 이용할 수 있다는 점이며, 이는 무료 사용자에게도 적용된다.

이번 ChatGPT 업데이트 이후 대규모 모델은 텍스트, 오디오, 이미지를 임의로 조합해 입력받을 수 있으며, 실시간으로 텍스트, 오디오, 이미지의 임의 조합을 출력할 수 있게 되었다. 이것이야말로 미래형 상호작용 방식이다.

최근 ChatGPT는 회원 가입 없이도 사용 가능하게 되었으며, 오늘 데스크톱 프로그램까지 추가되었다. OpenAI의 목표는 사람들이 언제 어디서든 자연스럽게 ChatGPT를 사용할 수 있도록 하고, 이를 사용자의 작업 흐름(workflow)에 통합하는 것이다. 이제 AI는 곧 생산력 그 자체다.

GPT-4o는 미래 인간-기계 상호작용 패러다임을 위한 완전히 새로운 대규모 모델로, 텍스트, 음성, 이미지 세 가지 모달리티를 이해할 수 있으며 반응이 매우 빠르고 감정 표현도 가능하며 인간 친화적이다.

현장에서 OpenAI 엔지니어는 아이폰을 들고 새 모델의 주요 기능들을 시연했다. 가장 중요한 것은 실시간 음성 대화였다. 마크 첸은 말했다. "처음으로 생방송 발표회에 나와서 긴장됩니다." 그러자 ChatGPT는 "한 번 깊게 숨을 쉬어보는 건 어때요?"라고 답했다.

좋아요, 깊게 숨을 쉬겠습니다.

ChatGPT는 즉시 답했다. "이건 아니네요, 숨소리가 너무 큽니다."

만약 여러분이 이전에 Siri 같은 음성 비서를 사용해봤다면 여기서 확실한 차이점을 느낄 수 있다. 첫째, AI가 말하는 도중에도 언제든지 중단하고 다음 대화를 시작할 수 있다. 둘째, 대기할 필요 없이 모델의 반응이 극도로 빠르며, 인간보다도 더 빠르다. 셋째, 모델은 인간의 감정을 충분히 이해할 수 있고 스스로 다양한 감정을 표현할 수 있다.

다음은 시각 능력 시연이다. 다른 한 엔지니어가 종이에 방정식을 직접 쓰고, ChatGPT에게 바로 정답을 말하라는 것이 아니라 단계별로 어떻게 풀어야 하는지 설명해달라고 요청했다. 보다시피 문제 해결법을 가르치는 데 큰 잠재력을 보여준다.

ChatGPT가 말한다. 수학 문제로 고민할 때마다 나는 항상 너의 곁에 있어

다음은 GPT-4o의 코드 이해 능력을 테스트해본다. 컴퓨터 데스크톱 버전의 ChatGPT를 열고 음성으로 소통하며, 특정 코드가 무엇을 하는지, 어떤 함수가 어떤 역할을 하는지 물어본다. ChatGPT는 모두 유창하게 답변한다.

코드 실행 결과는 온도 변화 곡선도인데, ChatGPT에게 이 그래프와 관련된 모든 질문을 한 문장으로 요약해서 답해달라고 요청한다.

가장 더운 달은 언제인지, Y축이 섭씨인지 화씨인지 모두 정확하게 대답한다.

OpenAI는 또한 X/Twitter에서 실시간으로 제기된 네티즌들의 질문들에도 답변했다. 예를 들어 실시간 음성 번역 기능인데, 스마트폰을 번역기처럼 사용해 스페인어와 영어를 왕복 번역할 수 있다.

또 누군가 묻는다. "ChatGPT가 당신의 표정을 인식할 수 있나요?"

보이는 바와 같이, GPT-4o는 실시간 영상 이해까지 가능하다.

자, 이제 OpenAI가 오늘 발표한 핵폭탄급 신제품에 대해 좀 더 자세히 알아보자.

멀티태스킹 모델 GPT-4o

우선 소개할 것은 GPT-4o이며, o는 Omnimodel(만능 모델)을 의미한다.

처음으로 OpenAI는 하나의 모델 안에 모든 모달리티를 통합하여 대규모 모델의 실용성을 크게 향상시켰다.

OpenAI CTO 미라 무라티는 "GPT-4o는 'GPT-4 수준'의 지능을 제공하지만, GPT-4 기반에서 텍스트, 시각, 오디오 기능을 개선했으며, 향후 몇 주 내에 점진적으로 회사 제품에 적용될 것"이라고 말했다.

"GPT-4o는 음성, 텍스트, 시각을 넘나드는 추론이 가능합니다,"라고 미라 무라티는 말했다. "우리는 이러한 모델들이 점점 더 복잡해지고 있음을 알고 있지만, 상호작용 경험은 더욱 자연스럽고 간단해져야 합니다. 사용자가 인터페이스에 신경 쓰지 않고 GPT와의 협업에만 집중할 수 있기를 바랍니다."

GPT-4o는 영어 텍스트 및 코드 성능이 GPT-4 Turbo와 동등하며, 비영어 텍스트 성능은 현저히 향상되었고 API 속도도 빨라졌으며 비용은 50% 절감되었다. 기존 모델들과 비교하면, 특히 시각 및 오디오 이해 분야에서 두드러진 성과를 보인다.

오디오 입력에 대한 응답 시간은 최단 232밀리초이며 평균 응답 시간은 320밀리초로 인간과 유사하다. GPT-4o 출시 이전, ChatGPT 음성 대화 기능을 체험한 사용자는 평균 지연 시간이 2.8초(GPT-3.5) 및 5.4초(GPT-4)였음을 인지할 수 있었다.

기존 음성 응답 방식은 세 개의 독립 모델로 구성된 파이프라인이었다. 첫 번째 모델이 오디오를 텍스트로 변환하고, 두 번째 모델(GPT-3.5 또는 GPT-4)이 텍스트를 입력받아 출력하고, 세 번째 모델이 다시 출력 텍스트를 오디오로 변환하는 식이었다. 그러나 OpenAI는 이 방법이 GPT-4가 음조, 다수 화자, 배경 잡음 등을 직접 인식하지 못하게 만들며, 웃음소리, 노래, 감정 표현 등도 출력할 수 없다는 결함이 있음을 발견했다.

반면 GPT-4o에서는 OpenAI가 텍스트, 시각, 오디오를 포괄하는 단일 신경망을 엔드투엔드(end-to-end)로 훈련시켰으므로 모든 입력과 출력이 동일한 신경망에 의해 처리된다.

"기술적으로 보면, OpenAI는 오디오를 오디오로 직접 매핑하는 일급 모달리티로 삼고 비디오를 실시간으로 트랜스포머에 전송하는 방법을 찾아냈습니다. 토큰화 및 아키텍처 설계에 일부 새로운 연구가 필요했지만, 전반적으로는 데이터 및 시스템 최적화 문제입니다(대부분의 일이 그렇듯이요)."라고 엔비디아 과학자 짐 판이 평가했다.

GPT-4o는 텍스트, 오디오, 비디오를 넘나들며 실시간 추론이 가능하며, 이는 보다 자연스러운 인간-기계 상호작용(심지어 기계-기계 상호작용)으로 나아가는 중요한 한 걸음이다.

OpenAI 사장 그렉 브록맨도 현장에서 재미있는 실험을 했다. 두 개의 GPT-4o가 실시간으로 대화를 나누도록 하고 즉석에서 노래까지 창작하게 했다. 멜로디는 다소 '감동적'이었지만, 가사는 방의 인테리어 스타일, 인물의 복장 특징, 그리고 그 사이 발생한 소소한 사건들을 포함하고 있었다.

또한 GPT-4o는 기존 모델보다 이미지 이해 및 생성 능력이 훨씬 뛰어나며, 이전에는 불가능했던 많은 작업들이 이제 '손쉬운 일'이 되었다.

예를 들어, OpenAI 로고를 컵받침에 인쇄해달라고 요청할 수 있다.

이번 기술 개발을 통해 OpenAI는 ChatGPT의 글꼴 생성 문제를 완벽하게 해결한 것으로 보인다.

동시에 GPT-4o는 3D 시각 콘텐츠 생성 기능도 갖추고 있으며, 6개의 생성된 이미지로부터 3D 재구성을 수행할 수 있다.

이 시를 입력하면 GPT-4o는 필체 스타일로 배치할 수 있다.

더 복잡한 레이아웃도 가능하다.

GPT-4o와 협업하면 단지 몇 줄의 텍스트 입력만으로 연속 만화 장면을 얻을 수 있다.

다음과 같은 기능들은 많은 디자이너들을 놀라게 할 것이다.

두 장의 일상 사진에서 진화된 스타일화된 포스터다.

또한 '텍스트를 아트 폰트로 변환'하는 소수 기능들도 있다.

GPT-4o 성능 평가 결과

OpenAI 기술 팀원은 X(트위터)를 통해, 최근 LMSYS Chatbot Arena에서 큰 논란을 일으킨 신비한 모델 'im-also-a-good-gpt2-chatbot'이 GPT-4o의 한 버전이라고 밝혔다.

특히 코딩 분야를 포함한 어려운 프롬프트 세트에서 GPT-4o는 OpenAI의 기존 최고 모델 대비 성능 향상이 특히 두드러졌다.

구체적으로 여러 벤치마크 테스트에서 GPT-4o는 텍스트, 추론, 코딩 지능 측면에서 GPT-4 Turbo 수준의 성능을 달성했으며, 다국어, 오디오, 시각 기능에서도 새로운 정점을 찍었다.

추론 성능 향상: GPT-4o는 5-shot MMLU(상식 문제)에서 87.2%의 신기록을 달성했다. (참고: Llama3 400b는 아직 훈련 중)

오디오 ASR 성능: GPT-4o는 Whisper-v3 대비 모든 언어에서 음성 인식 성능이 현저히 향상되었으며, 특히 저자원 언어에서 효과가 크다.

GPT-4o는 음성 번역 분야에서 새로운 SOTA 수준을 달성했으며, MLS 벤치마크에서 Whisper-v3를 능가했다.

M3Exam 벤치마크는 다국어 평가이자 시각 평가 벤치마크로, 여러 국가 및 지역의 표준화 시험 선택 문제들로 구성되며 그래픽과 차트도 포함한다. 모든 언어 벤치마크에서 GPT-4o는 GPT-4보다 강력하다.

향후 모델 기능의 발전을 통해 보다 자연스럽고 실시간 음성 대화가 가능해지며, 실시간 영상을 통해 ChatGPT와 대화할 수 있게 될 것이다. 예를 들어 사용자가 ChatGPT에게 실시간 스포츠 경기를 보여주며 규칙을 설명해달라고 요청할 수 있다.

ChatGPT 사용자, 고급 기능 무료 제공

매주 1억 명 이상이 ChatGPT를 사용하고 있다. OpenAI는 GPT-4o의 텍스트 및 이미지 기능을 오늘부터 ChatGPT에서 무료로 제공하며, Plus 사용자에게는 최대 5배의 메시지 한도를 제공한다고 밝혔다.

지금 ChatGPT를 열어보면 GPT-4o를 이미 사용할 수 있다.

GPT-4o 사용 시 ChatGPT 무료 사용자는 다음 기능을 이용할 수 있다. GPT-4 수준의 지능을 체험할 수 있으며, 모델 및 웹 검색 결과를 활용해 응답을 받을 수 있다.

또한 무료 사용자는 다음과 같은 기능도 선택할 수 있다.

데이터 분석 및 차트 생성:

사진과 대화하기:

파일 업로드하여 요약, 글쓰기, 분석 지원 받기:

GPTs 및 GPT 앱 스토어 탐색 및 사용:

메모리 기능을 활용해 더욱 유용한 경험을 만들기.

다만 사용량과 수요에 따라 무료 사용자의 GPT-4o 메시지 전송 횟수는 제한된다. 제한에 도달하면 ChatGPT는 자동으로 GPT-3.5로 전환되어 사용자가 계속 대화할 수 있도록 한다.

또한 OpenAI는 향후 몇 주 내에 ChatGPT Plus에서 새로운 음성 모드 GPT-4o 알파 버전을 출시하고, API를 통해 일부 신뢰할 수 있는 파트너에게 GPT-4o의 새로운 오디오 및 비디오 기능을 제공할 예정이다.

물론 여러 차례의 모델 테스트와 반복을 거쳐 GPT-4o는 모든 모달리티에서 여전히 일부 제한점을 가지고 있다. 이러한 미흡한 부분에 대해 OpenAI는 현재 GPT-4o 개선을 위해 노력 중이라고 밝혔다.

예상할 수 있듯이, GPT-4o의 음성 모드 공개는 다양한 새로운 리스크를 가져올 것이다. 보안 문제와 관련해 GPT-4o는 훈련 데이터 필터링과 후처리 훈련을 통해 모델 행동을 정제하는 기술을 사용하며, 모달리티 간 설계에 보안을 내장했다. OpenAI는 또한 음성 출력을 위한 새로운 보안 시스템을 구축했다.

새로운 데스크톱 앱, 사용자 작업 흐름 단순화

무료 및 유료 사용자를 위해 OpenAI는 macOS용 새로운 ChatGPT 데스크톱 애플리케이션을 출시했다. 간단한 키보드 단축키(Option + Space)로 즉시 ChatGPT에 질문할 수 있으며, 앱 내에서 바로 스크린샷을 캡처하고 논의할 수도 있다.

이제 사용자는 컴퓨터에서 직접 ChatGPT와 음성 대화를 할 수 있으며, GPT-4o의 오디오 및 비디오 기능은 향후 데스크톱 앱 우측 하단의 헤드폰 아이콘 클릭으로 시작할 수 있다.

오늘부터 OpenAI는 Plus 사용자에게 macOS 앱을 제공하며, 향후 몇 주 내에 보다 광범위하게 배포할 예정이다. 또한 올해 말쯤 윈도우 버전도 출시할 계획이다.

알트먼: 너희는 오픈소스, 우리는 무료

발표 후, OpenAI CEO 샘 알트먼은 오랜만에 블로그 포스트를 게시하며 GPT-4o 개발 과정에서의 심정을 밝혔다.

오늘 발표에서 두 가지를 강조하고 싶습니다.

첫째, 우리의 미션 중 중요한 부분은 강력한 인공지능 도구를 사람들에게 무료(또는 저렴한 가격)으로 제공하는 것입니다. 제가 자랑스럽게 말씀드릴 수 있는 것은, 우리는 ChatGPT에서 세계 최고의 모델을 무료로 제공하고 있으며, 광고나 그와 유사한 것도 없습니다.

우리가 OpenAI를 설립했을 때, 우리의 초기 구상은 인공지능을 만들어 세상에 다양한 이익을 창출하는 것이었습니다. 그런데 지금 상황은 우리가 인공지능을 만들고, 다른 사람들이 그것을 이용해 놀라운 것들을 만들어내며, 우리 모두가 그 혜택을 누리게 될 것 같습니다.

물론 우리는 기업이므로 유료 제품도 많이 만들 것이며, 이는 수십억 명에게 무료로 훌륭한 인공지능 서비스를 제공하는 데 도움이 될 것입니다(희망컨대).

둘째, 새로운 음성 및 비디오 모드는 제가 사용해본 최고의 컴퓨팅 상호작용 인터페이스입니다. 영화 속 인공지능 같아서 아직도 실제로 존재한다는 사실이 믿기지 않을 정도입니다. 인간 수준의 응답 시간과 표현력에 도달한 것이 정말 큰 도약임을 알 수 있습니다.

초기 ChatGPT는 언어 인터페이스의 가능성을 암시했지만, 이 새로운 것(GPT-4o 버전)은 본질적으로 다르게 느껴집니다. 빠르고, 똑똑하며, 재미있고, 자연스럽고 도움이 됩니다.

제 입장에서 컴퓨터와의 상호작용은 결코 자연스럽지 않았습니다. 하지만 (선택적으로) 개인화, 개인정보 접근, AI가 사람을 대신해 행동하는 기능 등을 추가하면, 컴퓨터로 이전보다 훨씬 더 많은 일을 할 수 있는 흥미로운 미래를 실제로 볼 수 있습니다.

마지막으로, 이 목표를 달성하기 위해 큰 노력을 기울인 팀원들에게 진심으로 감사드립니다!

참고로 지난주 알트먼은 인터뷰에서 보편적 기본소득(UBI)은 실현하기 어렵지만 '보편적 기본 컴퓨팅(universal basic compute)'은 실현 가능하다고 말했다. 미래에는 모두가 GPT의 컴퓨팅 파워를 무료로 얻어 사용하거나 재판매, 기부할 수 있게 될 것이다.

"AI가 점점 더 진보하고 우리 삶의 모든 곳에 스며들면서, GPT-7 같은 대규모 언어 모델의 단위가 돈보다 더 가치 있을 수 있습니다. 여러분은 일부 생산력을 갖게 되는 것이죠,"라고 알트먼은 설명했다.

GPT-4o의 출시는 OpenAI가 이러한 방향으로 나아가는 첫걸음일지도 모른다.

네, 이것은 아직 시작일 뿐입니다.

마지막으로 한 마디 하자면, 오늘 OpenAI 블로그에서 공개한 '5월 13일 발표 내용 추측하기' 비디오는 구글의 내일 I/O 컨퍼런스 예고 영상과 거의 완전히 겹친다. 이는 구글에 대한 일종의 직격탄이라 할 수 있다. 오늘 OpenAI의 발표를 본 구글이 얼마나 큰 압박감을 느꼈을지 궁금하다.