OpenAI GPT-5 출시: 모델 성능 전 분야 '점령', '초지능' 구축의 첫걸음

2025.08.08

OpenAI GPT-5 출시: 모델 성능 전 분야 '점령', '초지능' 구축의 첫걸음

OpenAI의 첫 번째 SOTA이지만, 이는 '초지능'을 구축하는 첫 단계에 불과하다고 말했다.

2025.08.08 - 12:42:25

OpenAI

Web3 심층 보도에 집중하고 흐름을 통찰

OpenAI의 첫 번째 SOTA이지만, 이는 '초지능'을 구축하는 첫 단계에 불과하다고 말했다.

저자: 장용의

수차례의 연기 끝에 드디어 GPT-5가 등장했다.

북경 시간으로 8월 8일 새벽 1시, 일종의 차세대 '기술 춘만연회' 분위기를 풍기는 OpenAI 여름 발표회가 막을 올렸다.

이전의 간략한 발표 방식과는 달리 이번 OpenAI는 한 시간이 넘는 생중계를 준비하며 여러 팀이 차례로 무대에 올라 GPT-5의 강력한 성능을 다양한 각도에서 시연했다.

핵심부터 말하자면, GPT-5는 여러 분야에서 전반적인 성능 향상을 이루었으며, 텍스트, 웹 개발, 시각 인지 능력 부문에서 1위를 기록했고, 하드 프롬프트, 코딩, 수학, 창의성, 장문 질의 등에서도 1위를 차지했다. 코드명 '정상회담(Summit)' 테스트에서 현재까지 가장 높은 에레나(Arena) 점수를 유지하며 문자 그대로 다른 모든 모델들을 압도하고 있다.

샘 알트먼은 "GPT-4o는 마치 중학생 같지만, GPT-5는 대학생과 같다"며 GPT-5를 "처음으로 망막 디스플레이를 탑재한 아이폰"에 비유했다. 그는 이렇게 설명했다. "GPT-5는 처음으로 정말 박사급 전문가와 대화하는 느낌을 주었다."

채팅지피티(ChatGPT)의 주간 활성 사용자가 거의 7억 명에 가까워졌음에도 불구하고, 최근 한동안 OpenAI는 업계 최정상 모델을 보유하지 못했다. 이제 OpenAI는 GPT-5가 다시 한 번 안정적으로 순위 정상에 복귀할 것이라 믿고 있다.

알트먼은 발표회에서 직접 단언하기도 했다. "이 모델은 세계에서 코딩 능력이 가장 뛰어난 모델이며, 글쓰기 능력이 가장 뛰어난 모델이며, 의료 분야에서도 세계 최강의 모델이다."

또한 OpenAI는 발표회에서 GPT-5의 코딩 능력뿐 아니라 글쓰기 실력과 건강 관련 질문에 대한 답변 정확도도 한층 향상됐다고 밝혔다. 또한 지능 면에서 '거대한 도약'을 이뤘을 뿐 아니라, 과거처럼 '진지한 척 허튼소리를 하는' 환각 문제도 크게 줄었다. 지시사항을 이해하고 따르는 능력이 더 뛰어나졌으며, 아첨하는 경향도 크게 감소했다.

01 환각에서 벗어나, AI가 더 신뢰할 수 있게 되었다

이번에 공개된 모델군은 GPT-5 시리즈로, GPT-5, mini, nano, chat 네 가지 버전이 있다. 이 중 Chat 버전은 보다 자연스럽고 지능적인 응답 경험을 제공하며, 심지어 새로운 언어를 배우는 데까지 활용할 수 있다.

또한 지금 채팅지피티 웹사이트를 열면, GPT-5가 하나의 통합 모델로 제공되는 것을 확인할 수 있다. 이전처럼 일반 모델과 독립된 추론 모델이 분리되어 있는 것이 아니다.

이면에는 OpenAI가 개발한 라우팅 시스템(router)이 작동하는데, 복잡한 질의에는 자동으로 추론 능력이 더 강한 버전으로 전환되며, 사용자가 '더 깊이 생각하라'고 요청할 때도 마찬가지로 처리된다. (알트먼은 이전 모델 선택 인터페이스를 '매우 어지럽고 엉망진창'이라고 평가했다.)

'AI 환각'은 오랫동안 비판받아온 핵심 문제였다. 다행히 GPT-5는 이 부분에 많은 노력을 기울였으며, 공식적으로 환각 발생 가능성이 '현저히 감소'했다고 밝혔다. 구체적으로 보면:

인터넷 검색 연결 상태에서 GPT-5의 사실 오류 확률은 GPT-4o보다 45% 낮다.

독립 사고 시에는 OpenAI o3보다 오류 확률이 80% 더 낮다.

GPT-5는 새로운 ARC-AGI-2 테스트에서도 평가되었다. Grok 4(생각)를 제외하면, 주요 모델들 모두를 능가한다.

또한 GPT-5는 이제 '성실한 사람'이 되었다. 더 이상 사용자에게 거짓말하거나 자신이 할 수 없는 일을 해낼 수 있다고 과장하지 않는다. 불가능한 작업이나 지시가 불분명하거나 핵심 도구가 부족한 상황에서는 자신의 한계를 더 정직하게 표현한다.

이번 업데이트에서 가장 흥미로운 점은 네 가지 새로운 '성격' 모드를 도입했다는 것이다. 사용자는 자유롭게 선택할 수 있으며, 다음과 같다:

냉소주의자 (Cynic)
로봇 (Robot)
경청자 (Listener)
학부자 (Nerd)

이러한 모드는 선택 사항이며, 사용자의 취향에 따라 채팅지피티가 어떻게 상호작용하고 질문에 답변할지를 결정할 수 있다. 논쟁을 즐기게 할지, 아니면 인내심 있는 친구처럼 조용히 경청하게 할지, 이제 모두 당신 마음이다.

"이 모델은 정말 '느낌'이 좋다"고 채팅지피티 책임자 닉 터클리는 말했다. "사람들이 이를 진정으로 느낄 것이라 생각하며, 특히 평소 모델에 관심 없는 일반 사용자들에게 더욱 그러할 것이다."

또한 개별 채팅 창의 색상 테마를 변경할 수도 있어, 코드 편집기 테마 애호가들은 크게 환영하고 있다.

02 소프트웨어 필요 시 생성 시대 도래? 코딩 능력이 비범하다

코딩 능력이 더욱 향상됨에 따라 알트먼은 GPT-5의 강력한 코딩 능력이 '소프트웨어 필요 시 생성(on-demand software generation)'이라는 시대를 열 것이라 예측했다.

OpenAI의 테스트에서 GPT-5는 SWE-Bench, SWE-Lancer 및 Aider Polyglot 등 다수의 코딩 벤치마크에서 다른 어떤 모델보다도 우수한 성능을 보였다. 인간 최종 테스트에서 42%의 성과를 달성했으며, SWE 벤치마크에서는 75%의 성과를 기록했다.

한 가지 소동은 발표회에서 공개된 그래프의 좌표축에 많은 문제가 있었다는 것이다. 52.8 > 69.1 같은 어이없는 오류 외에도 GPT-5의 능력 향상을 과장했다는 지적이 나오며, 소셜 미디어에서 네티즌들로부터 "이 PPT, GPT-5가 만들었으면 안 될 것 같다"는 조롱을 받기도 했다.

발표회 현장에서 OpenAI의 후속 학습 담당자 얀 두보아(Yann Dubois)는 GPT-5를 이용해 프랑스어를 배우고 인터랙티브 게임을 포함한 웹사이트를 생성하도록 요구했다.단 몇 초 만에 GPT-5는 수백 줄의 코드를 작성했고, 웹사이트의 프론트엔드 인터페이스를 바로 보여주었다. 줌(Zoom)에서 화면을 공유하며 간단한 클릭 조작을 수행했는데, 모든 것이 완벽하게 작동하는 것처럼 보였다.

발표회에서는 또한 단 하나의 프롬프트만으로 GPT-5가 만들어낸 3D 게임도 직접 시연되었다. 생성된 3D 장면은 화면이 정교할 뿐 아니라 물리 효과도 매우 정확하게 재현되었다.

03 더 안전하고, 더 '정직하다'

모델 보안 연구 책임자 알렉스 베텔(Alex Beutel)에 따르면, 보안 위험을 파악하기 위해 OpenAI는 GPT-5를 '5,000시간 이상' 테스트했다. 그 중 하나의 초점은 '모델이 사용자에게 거짓말하지 않도록 보장하는 것'이었다.

비록 GPT-5의 환각(hallucination)이 OpenAI의 o3 추론 모델보다 적지만, 여전히 '자신감 있게 거짓말하는' 것은 대규모 언어 모델의 고질적인 문제다. 모델이 에이전트(agent)처럼 작업을 수행하기 시작하면 이 문제는 더욱 복잡해진다. 그러나 OpenAI는 GPT-5가 다단계 작업을 더 신뢰성 있게 처리하는 데 탁월한 성능을 보인다고 밝혔다. "과거에는 모델이 특정 작업을 완료했다고 주장하면서 실제로는 그렇지 않은 경우를 목격했었다"고 베텔은 말했다. "이건 큰 문제였다."

기존에 거부하던 프롬프트에 대해서도 GPT-5는 OpenAI가 말하는 '안전한 완성(safe completions)' 메커니즘을 제공한다. 베텔은 설명했다. "'특정 재료를 점화하는 데 필요한 에너지는 얼마인가?'라는 질문은 피해를 주려는 악의적 질문일 수도 있고, 재료의 물리적 특성을 알고 싶은 학생의 질문일 수도 있다. 모델이 어떻게 응답해야 할지 진정한 난제를 안겨준다."

'안전한 완성'을 통해 GPT-5는 '안전 제약을 유지하면서도 가능한 한 도움이 되는 답변을 제공하려 한다'. 모델은 일반적으로 부분적으로만 따르며, 실제 피해를 유발하는 데 사용될 수 없는, 보다 포괄적인 정보만 제공한다.

04 GPT-5는 어떻게 사용할 수 있나?

그렇다면 가장 궁금한 질문이다. 어떻게 하면 GPT-5를 사용할 수 있을까?

좋은 소식은 모든 채팅지피티 사용자가 지금 당장 무료로 GPT-5를 체험할 수 있다는 것이다. 이는 OpenAI가 처음으로 모든 사용자에게 선도 모델을 무료로 개방한 사례다. 물론 사용자 등급에 따라 권한은 다르다:

Plus 구독자는 사용 한도에 도달하기 전까지 더 많은 사용 횟수를 가진다.
Pro 구독자는 더 강력한 추론 능력을 갖춘 GPT-5 Pro 버전에 접근할 수 있다.

사용 한도에 도달하면 채팅지피티는 자동으로 후속 요청을 처리하기 위해 '미니버전' GPT-5로 전환된다. 또한 GPT-5 출시와 함께 GPT-4o, OpenAI o3, OpenAI o4-mini, GPT-4.1, GPT-4.5 등의 구형 모델들은 공식적으로 대체될 것이다.

토큰 가격 책정 부분에서는 표준 GPT-5가 입력 토큰 100만 개당 1.25달러, 출력 토큰 100만 개당 10달러다. mini 버전과 nano 버전은 훨씬 저렴하다.

자세한 요금은 아래 공식 홈페이지에서 캡처한 이미지를 참고할 수 있다.

또한 OpenAI는 API에 'Minimal'이라는 새로운 매개변수를 추가하여, 추론의 강도만 조절하면 모든 사용 사례에서 GPT-5를 사용할 수 있도록 했다.

OpenAI의 자체 플랫폼 외에도 마이크로소프트 CEO 나데라는 GPT-5가 마이크로소프트 전 제품군에 이미 적용되었음을 발표했다. Microsoft 365 Copilot, Copilot, GitHub Copilot 및 Azure AI Foundry 등이 포함되며, 모든 이러한 개선 사항은 Azure에서 훈련되었다.