
OpenAI의 최강 모델 GPT-5 출시, 무료 사용 가능
글: 리단, 월스트리트저널
올해 OpenAI가 일반 대중에게 가장 기대받는 제품이 출시됐다.
미국 동부 시간으로 8월 7일 목요일, OpenAI는 차세대 플래그십 인공지능(AI) 모델인 GPT-5를 발표했다. 이는 OpenAI 최초의 '통합형' AI 시스템으로, o 시리즈 모델의 추론 능력과 GPT 시리즈 모델의 빠른 응답 능력을 결합한 첫 번째 산물이다.
OpenAI CEO 샘 알트먼은 신규 모델 발표회에서 GPT-5를 "세계에서 가장 우수한 모델"이라 평가하며, 이전 모델 대비 "중대한 업그레이드"라고 강조하고, 이를 통해 OpenAI가 범용 인공지능(AGI) 실현을 향한 여정에서 "중요한 한 걸음"을 내디뎠다고 밝혔다.
OpenAI에 따르면, GPT-5는 다양한 벤치마크 테스트에서 뛰어난 성능을 보이며 프로그래밍, 수학, 헬스케어 분야 등에서 최첨단 수준에 도달했다. SWE-bench Verified 코드 테스트에서 정확도는 74.9%를 기록하여, 금요일 앤트로픽이 발표한 새 모델 클로드 오퍼스 4.1보다 다소 앞선다. 또한 GPT-5의 환각 문제는 크게 개선되어 오류 정보 비율이 단 4.8%에 불과하며, 이는 이전 세대 모델인 GPT-4o의 20.6%보다 현저히 낮은 수치다.
금일 목요일부터 GPT-5는 ChatGPT 무료 사용자 및 Plus, Pro, Team 유료 구독자를 포함한 모든 사용자에게 기본 모델로 제공되며, 일주일 이내에 Enterprise 및 Edu 요금제에도 적용될 예정이다.
GPT-4o와 마찬가지로 GPT-5의 무료 및 유료 버전 간 차이는 사용량에 있다. Plus 사용자는 더 높은 사용 제한을 가지며, Pro 사용자는 무제한 이용이 가능하고 강화된 버전인 GPT-5 Pro를 이용할 수 있다. 무료 사용자의 경우 완전한 추론 기능은 며칠 내에 점진적으로 제공될 예정이며, GPT-5 사용량 제한에 도달하면 OpenAI는 자동으로 더 작고 경량화된 모델인 GPT-5 mini로 전환한다.
또한 OpenAI는 수요일, 미국 연방 정부 기관에 대해 연간 1달러라는 상징적인 비용으로 ChatGPT 제품을 제공하겠다고 밝혔다. 구체적으로는 강화된 보안 및 개인정보 보호 기능을 갖춘 기업용 ChatGPT 버전이다.
OpenAI가 막 GPT-5를 공식 발표하자마자 마이크로소프트는 목요일부터 GPT-5를 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry 등 광범위한 제품군에 통합한다고 발표하며 즉시 기업 및 소비자 사용자가 GPT-5의 고급 추론 능력과 프로그래밍 장점을 체험할 수 있도록 했다.
GPT-5, 프로그래밍·창의적 글쓰기·헬스케어 분야 세 가지 핵심 강점
OpenAI의 GPT-5 발표문 서두에서는 GPT-5를 "내장된 사고 능력을 갖춘 OpenAI 최고로 지능적이며 빠르고 실용적인 모델로, 누구나 전문가 수준의 지혜를 가질 수 있게 한다"고 소개한다.
OpenAI에 따르면, GPT-5는 '최강 모델'로서 세 가지 핵심 분야에서 눈에 띄는 발전을 이루었다.
첫 번째는 프로그래밍 능력이다. GPT-5는 지금까지 OpenAI가 개발한 가장 강력한 코딩 모델로, 복잡한 프론트엔드 생성 및 대규모 코드베이스 디버깅에서 두각을 나타내며, 하나의 프롬프트만으로도 시각적으로 매력적이고 반응성이 뛰어난 웹사이트, 애플리케이션, 게임을 생성할 수 있다. 초기 테스터들은 간격 조절, 타이포그래피, 여백 처리 등 디자인 선택 측면에서의 개선점을 주목했다.
실제 GitHub에서 수집한 현실 세계 코딩 과제 기반 벤치마크 테스트인 SWE-bench Verified에서 GPT-5는 사고 후 첫 시도 정확도가 74.9%로, OpenAI의 추론 모델 o3의 69.1%, GPT-4o의 30.8%를 모두 상회한다.

논평에 따르면, 이는 GPT-5의 성능이 화요일 앤트로픽이 출시한 클로드 오퍼스 4.1과 구글 딥마인드의 제미나이 2.5 프로보다 다소 우수하다는 의미다. 후자의 SWE-bench Verified 테스트 점수는 각각 74.5%와 59.6%였다.
다만, 수학, 인문학, 자연과학 분야의 모델 성능을 측정하는 종합 전문가 능력 평가 테스트 Humanity's Last Exam에서는 확장 추론 기능을 갖춘 강화 버전 GPT-5 Pro가 도구를 사용할 경우 42%의 점수를 받았다. 이는 44.4%를 기록한 xAI 모델 그록 4 헤비비에 비해 다소 낮은 수치다.

알트먼은 GPT-5가 AI가 자연어 프롬프트에 따라 기능 코드를 생성함으로써 개발 속도를 가속화하는所谓 '분위기 코딩(atmosphere coding)'처럼 전체 소프트웨어 앱을 필요 시 바로 시작하는 데 특히 뛰어나다고 말했다.
예시로 OpenAI 연구진은 영어 사용자가 프랑스어를 배우는 웹 앱을 만들도록 GPT-5에 요청했는데, 이 앱은 매력적인 테마를 가져야 하며 플래시카드, 퀴즈, 고전적인 스네이크 게임, 일일 학습 진도 추적 기능을 포함해야 했다.
연구진은 동일한 프롬프트를 두 개의 GPT-5 창에 제출했고, 몇 분 안에 서로 다른 두 앱이 생성됐다. OpenAI 담당자는 이러한 앱들이 "일부 결함이 존재하지만", 사용자가 배경 변경이나 탭 추가 등을 통해 AI가 생성한 소프트웨어를 개인 취향에 맞게 조정할 수 있다고 설명했다.
창의적 글쓰기 측면에서 GPT-5는 운율 없는 오십보 얌풋(iambic pentameter) 시 또는 자연스럽게 흐르는 자유시 등 구조적으로 복잡한 글쓰기 작업을 수행할 수 있다. OpenAI의 ChatGPT 사업 부사장 닉 터리(Nick Turley)는 GPT-5가 창작 과제에서 "더 나은 감각(taste)"을 보여주며, 응답도 더욱 자연스럽다고 말했다.

헬스케어 컨설팅은 세 번째 중요한 향상 분야다.
GPT-5는 잠재적인 건강 문제를 더 적극적으로 표시하고 사용자가 의료 결과를 해석하도록 돕지만, OpenAI는 ChatGPT가 의료 전문가를 대체할 수 없다고 강조한다.
HealthBench Hard Hallucinations 테스트에서 사고 기능을 갖춘 GPT-5의 환각 오류 정보 비율은 단 1.6%에 불과하다. 이는 GPT-4o와 o3 모델의 15.8% 및 12.9%보다 훨씬 낮은 수치다.

환각 가능성 크게 감소, 새로운 안전성 훈련 방식 도입
OpenAI는 GPT-5가 이전 모델보다 더 신뢰성 있고 실용적이며, 현실 세계 질문에 대해 더 정확하게 답변하고 환각 가능성도 현저히 낮아졌다고 밝혔다.
ChatGPT 실제 트래픽을 대표하는 익명화된 프롬프트에 웹 검색 기능을 적용한 결과, GPT-5 응답의 사실 오류 가능성은 GPT-4o보다 약 45% 낮았으며, 사고 후 GPT-5의 사실 오류 가능성은 o3보다 약 80% 낮았다. 아래 그래프에서 확인할 수 있듯이, GPT-5 응답의 오류 정보 비율은 4.8%이며, GPT-4o는 20.6%, o3는 22%다.

또한 OpenAI는 GPT-5에 '안전한 완성(safe completions)'이라는 새로운 형태의 안전성 훈련 방식을 도입했다. 이는 모델이 가능한 한 도움이 되는 답변을 제공하되, 동시에 안전 범위 내에서 행동하도록 교육하는 것이다. 때때로 이는 사용자 질문에 부분적으로 답변하거나 개괄적인 수준의 응답만 제공하는 것을 의미할 수도 있다.
거절이 필요한 경우, 훈련된 GPT-5는 거절 이유를 투명하게 알려주고 안전한 대안을 제시한다.
제어된 실험 및 OpenAI의 실제 운영 모델에서 회사는 이러한 '안전한 완성' 방법이 더 섬세하고, 이중 목적 문제를 더 잘 유도하며, 모호한 의도에 대한 강인성을 강화하고, 불필요한 과도한 거절을 줄이는 효과가 있음을 발견했다.
OpenAI의 포스트 트레이닝 책임자 미셸 포크라스(Michelle Pokrass)는 "GPT-5는 작업을 수행할 수 없는 상황을 인식하고 추측을 피하며, 한계를 더 명확하게 설명하도록 훈련되어 이전 모델 대비 근거 없는 주장이 줄어들었다"고 말했다.
채팅 성격 설정 네 가지 옵션 제공
OpenAI는 GPT-5가 명령 수행 능력에서 향상되었으며, 맞춤형 명령 실행 능력도 함께 향상되었다고 밝히며, 모든 ChatGPT 사용자에게 새로운 연구용 프리뷰 버전으로 네 가지 사전 설정된 성격 옵션을 출시한다고 발표했다.
처음 제공되는 네 가지 성격 옵션—냉소주의자(Cynic), 로봇(Robot), 경청자(Listener), 괴짜(Nerd)—은 모두 선택 사항이며, 사용자는 설정에서 언제든지 조정하여 ChatGPT와 자신의 의사소통 스타일을 맞출 수 있다.
이 네 가지 성격은 처음에는 텍스트 채팅에 적용되며, 이후 음성 채팅으로 확장되어 사용자가 별도의 맞춤형 프롬프트를 작성하지 않고도 ChatGPT의 상호작용 방식을 간결하고 전문적인 스타일, 세심하고 지원적인 스타일, 혹은 다소 풍자적인 스타일 중에서 선택할 수 있게 된다.
OpenAI는 이 모든 새로운 성격들이谄媚 행동 감소에 관한 내부 평가 기준을 달성하거나 초과했다고 밝혔다.
알트먼, 역사적 돌파구라 극찬…GPT-4로 돌아가자 매우 형편없음
목요일 브리핑에서 알트먼은 GPT-5를 극찬하며, 이를 AGI 달성을 향한 중요한 이정표로 규정했다. 그는 다음과 같이 말했다.
"역사상 어느 시기에도 GPT-5 같은 것을 가졌다는 것은 상상할 수 없었다. 이것은 마치 어떤 분야의 전문가와 대화하는 느낌이 처음으로 드는 순간이다."
브리핑에서 알트먼은 GPT-4를 깎아내림으로써 GPT-5를 부각시키기까지 했다. 그는 말했다.
"나는 다시 GPT-4를 사용해봤는데, 그 결과가 정말 형편없었다."
GPT-5는 통합된 시스템 아키텍처를 채택하고 실시간 라우터를 갖추어 대화 유형, 복잡성, 도구 요구 사항에 따라 빠른 응답 또는 심층적인 '사고' 중 어떤 방식을 선택할지를 자동으로 결정한다. 이는 사용자가 적절한 설정을 직접 선택할 필요를 없애 ChatGPT를 더욱 쉽게 사용할 수 있게 한다.
경제적 가치 창출 작업 관련 내부 벤치마크 테스트에서 추론 모드를 사용한 GPT-5는 법률, 물류, 판매, 엔지니어링 등 40개 이상 직종에서 약 절반의 사례에서 전문가 수준에 맞서거나 오히려 더 나은 성과를 냈다. OpenAI 부사장 닉 터리(Nick Turley)는 "이 모델의 느낌이 정말 좋다"고 말했다.
알트먼은 GPT-5 사용을 박사학위를 모두 소지한 전문가 팀을 항상 곁에 두는 것에 비유했다. 그는 또 "많은 새로운 분야에서 사람들은 아이디어의 제약을 받지만, 실제로는 실행 능력이 부족하다"고 덧붙였다.
마이크로소프트, 선제적 통합으로 시장 선점
마이크로소프트는 GPT-5 발표 당일 즉시 이를 광범위한 제품군에 통합한다고 발표했다. 기업용 애플리케이션 측면에서 Microsoft 365 Copilot은 GPT-5를 활용해 복잡한 문제 해결, 긴 대화 유지 집중력 향상, 사용자 맥락 이해를 더 잘 수행할 수 있게 된다. 기업 사용자는 추론 기능을 통해 이메일, 문서, 파일을 처리할 수 있다.
소비자용으로 Microsoft Copilot의 새로운 지능형 모드는 GPT-5를 활용해 사용자에게 최적의 솔루션을 제시한다. 사용자는 copilot.microsoft.com 또는 Windows, Mac, Android, iOS 기기의 Copilot 앱을 통해 GPT-5를 무료로 체험할 수 있다.

개발자는 GitHub Copilot과 Visual Studio Code를 통해 GPT-5의 지원을 받아 코드 작성, 테스트, 배포를 할 수 있으며, Azure AI Foundry 플랫폼은 모든 GPT-5 모델을 제공하고 AI 기반 모델 라우터를 갖춰 각 작업의 복잡성, 성능 요구사항, 비용 효율성에 따라 최적의 모델을 선택한다.
마이크로소프트 AI 레드팀은 엄격한 보안 프로토콜을 사용해 GPT-5 추론 모델을 테스트한 결과, 악성 소프트웨어 생성, 사기 자동화 등 다양한 공격 패턴에서 OpenAI 역대 모델 중에서도 가장 강력한 AI 보안 구성 중 하나를 보여줬다고 밝혔다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














