
GPT-5.5 한눈에 알아보기: 오늘부터 OpenAI는 토큰을 ‘판매하지 않음’
저자: 헬렌
현지 시간 4월 23일, OpenAI는 차세대 플래그십 모델 GPT-5.5를 정식으로 발표했다. 공식 입장에 따르면 이 모델은 “실제 업무를 위한 새로운 지능 수준”으로 정의되며, 완전히 새로운 컴퓨터 작업 방식으로 나아가는 데 있어 중요한 한 걸음이다.
이번 발표의 핵심 초점은 두 가지다.
첫째, 효율성 측면에서의 돌파구: 동일한 지연 시간(latency) 하에서 모델 규모는 커졌지만 속도는 느려지지 않았다. GPT-5.5의 컨텍스트 윈도우는 100만 토큰에 달하지만, 이는 단순히 GPT-5.4의 능력 향상이 아니라 동일한 지연 시간 내에서 더 높은 지능을 실현한 효율성 개선의 결과다.
둘째, GPT-5.5는 자체 추론 인프라 최적화 과정에 훈련 단계부터 직접 참여했다. 간단히 말해, AI가 처음으로 스스로 파라미터를 조정하는 법을 배운 것이다.
복잡한 명령어 라인 워크플로우를 평가하는 Terminal-Bench 2.0 벤치마크에서 GPT-5.5는 82.7%의 점수를 기록했으며, Claude Opus 4.7의 69.4%보다 13%p 이상 높다. 실제 컴퓨터 환경에서 AI가 독립적으로 작업할 수 있는지를 평가하는 OSWorld-Verified에서는 성공률 78.7%를 달성해 인간 기준선을 넘어섰다. 44개 직업 분야의 지식 작업을 평가하는 GDPval 벤치마크에서는 84.9%의 과제에서 산업 전문가 수준 이상의 성과를 보였다.
다만, GPT-5.5의 가격도 눈에 띄게 상승했다.
API 가격은 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 30달러로, GPT-5.4(입력 100만 개당 2.50달러, 출력 100만 개당 15달러)의 두 배 수준이다. 그러나 공식 입장에 따르면 GPT-5.5는 동일한 작업을 수행하는 데 필요한 토큰 수가 대폭 감소하므로, 종합적인 비용 증가폭은 크지 않을 수 있다고 강조했다. GPT-5.5 Pro API 가격은 입력 토큰 100만 개당 30달러, 출력 토큰 100만 개당 180달러이다. 일괄 처리 및 탄력적 가격 책정 시 50% 할인 혜택을 받을 수 있으며, 우선 처리 서비스는 표준 가격의 2.5배이다.
ChatGPT에서는 GPT-5.5가 “GPT-5.5 Thinking” 형태로 출시되어 기존 버전을 점진적으로 대체한다.
새롭게 추가된 작은 기능 하나는: 모델이 사고를 시작하기 전에 먼저 전체 사고 흐름을 요약해 제시한다는 점이다. 사용자는 실행 과정 중 언제든지 개입해 방향을 조정할 수 있다.
GPT-5.5의 의미를 한 마디로 요약하자면: 이전 모델은 단순한 능력의 집합체였다면, GPT-5.5는 계획하고, 검토하며, 지속적으로 추진하는 작업 시스템에 훨씬 가까워졌다.
01 84.9%의 과제에서 전문가 수준 달성
GPT-5.5와 경쟁 모델들이 Terminal-Bench 2.0, GDPval, OSWorld-Verified 등 주요 벤치마크에서의 비교 결과
먼저 실제 직업 현장에서의 모델 성능을 살펴보자. OpenAI는 ‘GDPval’이라는 벤치마크를 활용해 모델이 직업별 과제 전반을 수행하도록 테스트했다. 이 테스트는 재무 모델링, 법률 분석, 데이터 과학 리포트, 운영 계획 등 44개 직업 분야를 아우른다.
결과는 다음과 같다: GPT-5.5는 84.9%의 과제에서 산업 전문가 수준 또는 그 이상의 성과를 달성했다. 비교 대상으로, GPT-5.4는 83.0%, Claude Opus 4.7은 80.3%, Gemini 3.1 Pro는 67.3%에 불과하다.
이 격차는 단순한 총점 차이로 설명되지 않는다. 스프레드시트 모델링 과제에서 GPT-5.5는 내부 테스트에서 88.5%의 점수를 기록했으며, 투자은행 수준의 복잡한 모델링 과제에서도 이전 세대를 앞질렀다. 초기 테스트 참가자들의 피드백도 일관되게 나타났다: GPT-5.5 Pro의 응답은 전반성, 구조성, 실용성 면에서 GPT-5.4 Pro보다 명확히 향상되었으며, 특히 비즈니스, 법률, 교육, 데이터 과학 분야에서 그 차이가 두드러졌다.
숫자만 보면 쉽게 무감각해질 수 있으므로, OpenAI는 이번에 자사의 실제 업무 공간을 공개했다.
OpenAI는 자사 내 85% 이상의 직원이 매주 Codex를 사용하고 있으며, 재무, 커뮤니케이션, 마케팅, 제품, 데이터 과학 등 다양한 부서가 이를 활용한다고 밝혔다. 커뮤니케이션 팀은 6개월간의 연설 요청 데이터를 분석해 자동화된 등급 분류 프로세스를 구축했고, 재무 팀은 24,771건의 K-1 세금 신고서(총 71,637페이지)를 검토해 작년보다 2주나 빠르게 업무를 완료했다. 마케팅 확장 팀은 자동화된 주간 보고서 생성 덕분에 팀원 각자가 매주 5~10시간을 절약했다.
이는 실험실 데모가 아니라 이미 현실화된 업무 일상이다.
02 최강의 자율 프로그래밍 모델
OpenAI는 GPT-5.5가 현재까지 자사가 개발한 최강의 자율 프로그래밍 모델이라고 밝혔다.
복잡한 명령어 라인 워크플로우를 평가하는 Terminal-Bench 2.0에서 GPT-5.5는 82.7%의 점수를 기록했으며, GPT-5.4의 75.1%보다 약 8%p 향상됐다. 동시에 토큰 소비량은 줄었다. 실제 GitHub 이슈 해결 능력을 평가하는 SWE-Bench Pro에서는 58.6%의 점수를 얻었고, 장기 프로그래밍 과제를 평가하는 내부 Expert-SWE 테스트(중위 인간 완료 시간 약 20시간)에서도 GPT-5.4를 능가했다.
Terminal-Bench 2.0 및 Expert-SWE 산점도
GPT-5.5가 구동하는 Codex는 이제 단 한 문장의 프롬프트만으로도 코드 생성, 기능 테스트, 시각적 디버깅에 이르기까지 완전한 개발 프로세스를 독립적으로 수행할 수 있다.
OpenAI가 공개한 데모 사례에 따르면, 우주 임무 애플리케이션은 NASA의 실제 궤도 데이터를 기반으로 구축되어 3D 상호작용 조작을 지원하며, 궤도 역학 시뮬레이션은 실제 물리 정밀도를 달성했다. 또 지진 추적기는 실시간 데이터 소스와 연결돼 시각화를 완료했는데, 이는 모델이 외부 API 호출, 동적 데이터 처리, 실시간 렌더링까지 가능한 완전한 역량을 갖추고 있음을 보여준다.
사용자 피드백 측면에서는 Every 창립자이자 CEO인 댄 쉽퍼(Dan Shipper)가 공유한 경험담이 주목된다. 그는 이전에 출시 후 발생한 버그를 여러 날 동안 스스로 해결하지 못해 결국 회사 최고 수준의 엔지니어에게 전면적인 시스템 재작성이 필요했던 사례를 언급했다. 이후 GPT-5.5가 출시되자, 그는 버그가 아직 수정되지 않은 상태로 모델을 다시 테스트해 동일한 해결책을 도출할 수 있는지 실험했다. 결과는 GPT-5.4는 불가능했으나 GPT-5.5는 가능했다. 그는 “이것이 내가 지금까지 사용해 본 첫 번째 진정한 개념적 명료성을 갖춘 프로그래밍 모델”이라고 평가했다.
한 영상 엔지니어의 평가는 더욱 직설적이다: “GPT-5.5 접근 권한을 잃는 건 마치 절단술을 당한 것 같았다.”
커서(Cursor) 공동 창립자이자 CEO인 마이클 트루엘(Michael Truell)은 이에 대해 보완 설명을 덧붙였다: “GPT-5.5는 GPT-5.4보다 더 똑똑하고, 더 끈기 있으며, 복잡하고 장기적인 과제에서 미리 멈추지 않고 더 오랫동안 집중할 수 있다—그리고 바로 이것이 공학적 업무에서 가장 필수적인 특성이다.”
03 지식 노동: AI가 비로소 진정으로 ‘컴퓨터를 사용’하게 되다
실제 컴퓨터 환경에서 모델이 독립적으로 작업할 수 있는지를 평가하는 OSWorld-Verified 테스트에서 GPT-5.5는 78.7%의 성공률을 기록했으며, 이는 GPT-5.4의 75.0%와 Claude Opus 4.7의 78.0%를 모두 넘어서는 수치다.
이는 단순한 스크린샷 분석이 아니라 진짜 화면 조작을 의미한다: 화면을 보고, 클릭하고, 입력하고, 여러 도구 사이를 전환하며 마지막까지 과제를 완료하는 것이다. GPT-5.5는 사람과 동일한 컴퓨터를 함께 사용할 수 있다는 느낌을 처음으로 주는 AI다.
재무 모델링 데모 영상
통신 고객센터 워크플로우를 평가하는 Tau2-bench 테스트에서 GPT-5.5는 프롬프트 조정 없이도 98.0%의 정확도를 달성했으며, GPT-5.4는 92.8%에 그쳤다.
이는 모델이 작업 의도를 충분히 깊이 있게 이해하고 있다는 것을 의미하며, 복잡한 다단계 대화 프로세스를 처리하기 위해 정교하게 설계된 프롬프트 없이도 충분히 대응할 수 있음을 보여준다.
도구 검색 능력 측면에서는 BrowseComp 테스트에서 GPT-5.5가 84.4%의 점수를, GPT-5.5 Pro는 90.1%의 점수를 기록했는데, 이는 다수 정보 출처를 종합해 추론해야 하는 연구형 과제에서 모델이 매우 강력한 지속적 검색 및 정보 통합 능력을 보유함을 의미한다.
04 과학 연구: 수학적 새 증명 발견 보조
이번 발표에서 GPT-5.5가 과학 연구 분야에서 보인 성과는 아마도 가장 예상치 못한 부분일 것이다.
지금까지 AI가 과학 연구를 수행한다는 말은 주로 문헌 검색, 코드 작성, 데이터 정리 등 ‘보조 도구’로서의 역할을 의미했다. 그러나 이번에는 역할이 분명히 전진하여, 복잡한 추론은 물론 ‘발견’ 자체에도 직접 참여하기 시작했다.
유전학 및 정량 생물학 다단계 데이터 분석을 평가하는 GeneBench에서 GPT-5.5는 25.0%의 점수를 기록했으며, GPT-5.4는 19.0%였다. 이러한 과제들은 일반적으로 과학 전문가가 며칠간 작업해야 하는 분량이며, 모델은 거의 감독 없이 오류가 있을 수 있는 데이터를 추론하고 숨겨진 혼란 변수에 대응하며 현대 통계 방법을 올바르게 적용해야 한다.
그래프 곡선을 보면, 출력 토큰 수가 증가함에 따라 GPT-5.5의 점수 향상 폭은 항상 GPT-5.4를 앞서며, 약 15,000토큰 지점에서 차이가 급격히 벌어지는 것을 확인할 수 있다—이는 심층 추론이 요구되는 장기 과제에서 GPT-5.5의 강점이 과제 복잡도 증가에 따라 더욱 확대됨을 의미한다.
실제 세계 바이오인포매틱스 및 데이터 분석 벤치마크인 BixBench에서도 GPT-5.5는 80.5%의 점수로 GPT-5.4의 74.0%를 앞질렀으며, 현재 공개된 점수를 기준으로 모든 모델 중 상위권에 속한다.
진정한 관심을 끈 사례는 구체적인 하나의 사건이다: 맞춤형 도구 프레임워크가 탑재된 GPT-5.5 내부 버전이 램지 수(Ramsey number) 관련 새로운 수학적 증명을 발견하는 데 기여했으며, 이는 형식적 증명 도구 Lean에서 검증되었다. 램지 수는 조합론의 핵심 연구 대상이며, 해당 분야의 성과는 극히 드물고 기술적 난이도가 매우 높다. 이는 단순히 코드나 설명을 제공하는 것이 아니라, 진정한 수학적 논증 자체를 기여한 것이다.
실제 응용 측면에서도 설득력 있는 사례가 있다. 잭슨 연구소(Jackson Laboratory)의 면역학 교수인 데리야 운툼アジ(Derya Unutmaz)는 GPT-5.5 Pro를 이용해 62개 샘플, 약 28,000개 유전자로 구성된 유전자 발현 데이터셋을 분석해 상세한 연구 보고서를 작성하고, 핵심 발견 및 연구 질문을 도출했다. 그는 이 작업이 일반적으로 팀이 수 개월간 소요하는 작업이라고 언급했다.
포즈난 아담 미츠키에비츠 대학교(Adam Mickiewicz University in Poznań) 수학과 조교수 바르토슈 나스크렌키(Bartosz Naskręcki)는 단 하나의 프롬프트만으로 Codex 내 GPT-5.5를 활용해 11분 만에 대수기하학 애플리케이션을 구축했다. 이 애플리케이션은 두 개의 이차 곡면의 교선을 시각화하고, 얻어진 곡선을 바이어스트라스(Weierstrass) 모델로 변환한다. 우측에 실시간으로 표시되는 방정식 계수는 바로 후속 수학 연구에 활용할 수 있으며, 프롬프트 입력부터 실행 가능한 연구 도구까지 전 과정이 모델에 의해 독립적으로 완성됐다.
바르토슈 나스크렌키 교수의 대수기하학 애플리케이션 캡처—이차 곡면 교차 시각화 및 바이어스트라스 방정식 실시간 계산 인터페이스
액시엄 바이오(Axiom Bio) 공동 창립자 브랜든 화이트(Brandon White)는 더욱 직설적으로 평가했다: “만약 OpenAI가 이 흐름을 유지한다면, 올해 안에 신약 발견의 기반이 바뀔 것이다.”
05 추론 효율성: AI가 처음으로 자신을 위한 인프라를 최적화하다
이번 발표에는 쉽게 간과되기 쉬운 하나의 세부 사항이 있는데, 이는 기술적으로 가장 주목할 만한 진전일 수 있다.
GPT-5.5는 더 크고 강력한 모델이지만, 실제 서비스 환경에서의 단일 토큰 지연 시간은 GPT-5.4와 동일하다. 더 높은 성능을 유지하면서도 동일한 지연 시간을 달성하기 위해 OpenAI는 추론 시스템 전체를 재설계했으며, 이 과정에 Codex와 GPT-5.5 자체가 직접 최적화에 참여했다.
Artificial Analysis 지능 지수 그래프를 보면 이 사실을 직관적으로 확인할 수 있다: 가로축은 출력 토큰 총량(로그 스케일), 세로축은 종합 지능 점수이다. GPT-5.5의 곡선은 GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro Preview를 전반적으로 능가할 뿐 아니라, 특히 다른 모델들이 더 많은 토큰을 소비해야만 도달할 수 있는 점수 수준을 GPT-5.5는 훨씬 적은 토큰 소비로 이미 달성한다는 점에서 결정적인 차이를 보인다—즉, 더 높은 능력과 더 낮은 비용, 이것이 바로 ‘효율성 향상’의 직관적 표현이다.
Artificial Analysis 지능 지수 선 그래프
구체적으로 말하면, 팀이 직면한 문제는 로드 밸런싱이었다: 이전에는 요청을 고정된 크기의 블록으로 분할해 GPU 작업량을 균등하게 분배했지만, 정적 블록 분할은 모든 트래픽 패턴에 최적화되지 않았다. Codex는 수주간의 실제 서비스 트래픽 데이터를 분석해 맞춤형 휴리스틱 알고리즘을 작성함으로써 토큰 생성 속도를 20% 이상 향상시켰다.
GPT-5.5는 NVIDIA GB200 및 GB300 NVL72 시스템과 공동 설계·공동 훈련·공동 배포됐다. 즉, 이번 세대 모델은 자신의 서비스 인프라, 즉 추론 아키텍처 자체를 최적화하는 데 직접 참여했다—이것은 은유가 아니라 문자 그대로 “AI가 자신을 실행하는 시스템을 개선했다”는 의미이다.
06 사이버 보안: 능력 향상과 관리 강화 동시 진행
GPT-5.5는 사이버 보안 역량 측면에서 명확한 향상을 보였다. CyberGym 테스트에서 GPT-5.5는 81.8%의 점수를 기록했으며, GPT-5.4는 79.0%, Claude Opus 4.7은 73.1%였다. 내부 ‘캡처 더 플래그(Capture the Flag, CTF)’ 도전 과제에서는 GPT-5.5가 88.1%의 점수를, GPT-5.4는 83.7%의 점수를 기록했다.
CyberGym 막대그래프 및 CTF 도전 과제 산점도
OpenAI는 GPT-5.5의 사이버 보안 및 생물·화학 역량을 비상 대비 프레임워크 하에서 ‘고위험’ 등급으로 분류했으며, 아직 ‘핵심’ 등급에는 도달하지 않았지만 이전 세대에 비해 명확한 향상이 있었다고 밝혔다. 동시에, 새로 배포된 보다 엄격한 위험 분류기(risk classifier)로 인해 “일부 사용자는 초기에 다소 불편함을 느낄 수 있다”고 솔직히 인정했으며, 지속적인 조정을 약속했다.
방어 수요와 접근 제한 사이의 균형을 맞추기 위해 OpenAI는 ‘사이버 보안 신뢰 접근(Trust Access) 프로그램’을 도입했다: 자격을 갖춘 보안 연구자 및 핵심 인프라 방어 담당자들은 고급 사이버 보안 기능을 보다 원활하게 활용할 수 있도록 완화된 접근 권한을 신청할 수 있다.
그 이면에 있는 논리는 이렇다. 사이버 보안이나 생물학 관련 역량 같은 경우, 기술 확산은 사실상 되돌릴 수 없는 추세다. 따라서 모든 사람의 사용을 완전히 제한하려는 시도보다는, 오히려 다른 관점으로 접근하는 것이 낫다—즉, 진정한 방어 활동을 수행하는 사람들에게 최신 기술을 우선적으로 제공하는 것이다. 간단히 말해, 이는 “과연 개방할 것인가?”가 아니라 “누구에게 먼저 개방할 것인가?”라는 질문이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News











