OpenAI이 새로 출시한 o1 모델을 통해 우리는 정식으로 다음 시대로 진입하게 되었다

2024.09.13

OpenAI이 새로 출시한 o1 모델을 통해 우리는 정식으로 다음 시대로 진입하게 되었다

우리가 AGI를 향한 길에서 더 이상 걸림돌은 없다.

2024.09.13 - 02:28:27

OpenAIo1

Web3 심층 보도에 집중하고 흐름을 통찰

우리가 AGI를 향한 길에서 더 이상 걸림돌은 없다.

저자: 카즈크

심야에 OpenAI가 무려 거의 반년간 숨겨온 새로운 모델을 발표했다.

어떤 예고도 없이, 정식으로 등장한 것이다.

정식명칭은 '딸기'가 아니다. '딸기'는 단지 내부 코드명일 뿐이다. 이들의 공식 이름은 다음과 같다:

왜 o1이라고 이름 지었는지에 대해 OpenAI는 이렇게 말했다:

복잡한 추론 작업에서 이것은 중요한 진전이며 인공지능 능력의 새로운 수준을 의미한다. 따라서 우리는 카운터를 다시 1로 재설정하고 이 시리즈를 OpenAI o1이라 명명한다.

즉 다음과 같이 해석할 수 있다:

복잡한 추론 과제에서 이는 중대한 진전이며 AI 역량의 새로운 차원을 나타낸다. 이에 따라 계수기를 1로 되돌리고, 이를 OpenAI o1 시리즈라 부르기로 했다.

이번 모델의 강력함은 OpenAI가 기존 GPT 시리즈의 명칭 체계까지 버리고 o라는 새로운 시리즈를 시작하게 만들었다.

완전히 폭발적이다. 진짜로.

지금 나는 머리끝까지 전율을 느낀다. 이번 OpenAI o1의 출시는 정말로 AI 산업이 완전히 새로운 시대로 진입했음을 상징한다.

"우리가 AGI(일반형 인공지능)에 도달하는 길목에는 더 이상 장애물이 없다."

논리 및 추론 능력 측면에서 우선 바로 그림부터 보여주겠다. 보면 이 모델이 얼마나 어마어마한지 한눈에 알 수 있을 것이다.

AIME 2024는 고난도 수학 경시대회인데, GPT-4o의 정확도는 13.4%였지만, 이번 o1 프리뷰 버전은 56.7%, 아직 출시되지 않은 o1 정식판은 83.3%에 달한다.

코딩 대회에서는 GPT-4o가 11.0%의 정확도를 보인 반면, o1 프리뷰는 62%, o1 정식판은 89%이다.

그리고 가장 놀라운 것은 박사 수준의 과학 문제(GPQA Diamond)에서인데, GPT-4o는 56.1, 인간 전문가 수준은 69.7이지만, o1은 무려 78%라는 공포스러운 수치를 기록했다.

Claude에게 o1의 그래프를 번역해달라고 했는데, 디자인은 좀 별로지만 각 항목의 의미는 이해할 수 있다.

무엇이 완전한 압도인지, 바로 이것이다.

특히 화학, 물리, 생물학 전문 지식을 테스트하는 GPQA-diamond 벤치마크에서 o1은 인간 박사 전문가들을 완전히 능가했으며, 이는 역사상 최초로 이 업적을 달성한 모델이기도 하다.

이 모델이 이런 성과를 낼 수 있었던 핵심은 Self-play RL(자가 플레이 강화 학습)에 있다. 이 개념을 모르는 사람은 며칠 전 내가 쓴 예측 글을 참고하라: 새 모델 '딸기'란 대체 무엇인가?

Self-play RL을 통해 o1은 자신의 사고 흐름을 다듬고 사용 전략을 완성하는 법을 배웠다. 스스로 오류를 인식하고 수정하는 법도 익혔다.

또한 복잡한 단계를 더 간단한 단계로 분해하는 법도 배웠다.

그리고 현재 방법이 통하지 않을 때는 다른 접근 방식을 시도하는 법도 학습했다.

이렇게 학습한 것이 바로 우리 인간이 가진 가장 핵심적인 사고 방식인 '느린 사고(slow thinking)'이다.

노벨경제학상을 수상한 다니엘 카너먼(Daniel Kahneman)은 저서 『생각에 관하여: 빠르고 느리게』에서 인간의 두 가지 사고 방식을 매우 자세히 설명하고 있다.

첫 번째는 빠른 사고(시스템 1)로, 빠르고 자동적이며 직관적이며 무의식적이라는 특징이 있다. 예를 들면:

웃는 얼굴을 보고 상대가 기분이 좋다는 것을 아는 것.
1+1=2 같은 간단한 계산.
운전 중 위험 상황 발생 시 즉시 브레이크를 밟는 것.

이것들이 바로 빠른 사고이며, 전통적인 대규모 언어 모델이 학습한 기억 기반의 빠른 반응 능력과 동일하다.

두 번째는 느린 사고(시스템 2)로, 느리고 노력이 필요하며 논리적이며 의식적으로 작동한다. 예를 들면:

복잡한 수학 문제 해결하기
세금 신고서 작성하기
이득과 손해를 따져 중요한 결정 내리기

이것이 느린 사고다. 인간이 강력한 이유의 핵심이자, AI가 다음 단계 AGI로 나아가는 데 있어 필수적인 기반이다.

이제 드디어 o1이 견고한 한 걸음을 내딛으며 인간의 '느린 사고' 특성을 갖추게 되었다. 답변하기 전에 반복적으로 사고하고, 분해하며, 이해하고, 추론한 후 최종 답을 제시한다.

솔직히 말해, 이러한 향상된 추론 능력은 과학, 코딩, 수학 등 복잡한 문제를 다룰 때 절대적으로 유용하다.

예를 들어 o1은 의료 연구자들이 세포 염기서열 데이터를 주석 처리하는 데 사용될 수 있고, 물리학자들이 양자광학에 필요한 복잡한 수학 공식을 생성하는 데 활용될 수 있으며, 다양한 분야의 개발자들이 다단계 워크플로우를 구축하고 실행하는 데에도 쓰일 수 있다.

o1은 또한 완전히 새로운 세대의 데이터 피드백 루프(data flywheel)이기도 하다. 만약 답변이 올바르다면, 전체 논리 사슬은 작은 규모의 훈련용 데이터셋이 되며, 여기에는 정·부 reward가 포함된다.

OpenAI의 사용자 규모를 고려하면, 미래의 진화 속도는 더욱 공포스러울 것이다.

이 글을 쓰면서 문득 한숨이 나왔다. 일 년 후의 o1과 비교하면 나는 완전한 쓰레기처럼 느껴질지도 모른다.

현재 o1 모델은 점차적으로 모든 ChatGPT Plus 및 Team 사용자에게 공개되고 있으며, 향후 무료 사용자에게도 공개를 검토하고 있다.

두 종류의 모델로 나뉘는데, o1 프리뷰와 o1-mini이다. o1-mini는 더 빠르고 작으며 저렴하고, 추론 능력도 꽤 좋은데, 다만 세계 지식은 많이 부족하다. 추론은 필요하지만 광범위한 세계 지식이 필요 없는 시나리오에 적합하다.

o1 프리뷰는 주당 30회, o1-mini는 주당 50회 사용 가능하다.

기존처럼 3시간 단위 제한이 아니라 주당 30회라는 점에서도 o1 모델이 얼마나 비싼지를 짐작할 수 있다.

개발자들에게는 이미 1000달러를 결제한 레벨 5 개발자에게만 제공되며, 분당 20회로 제한된다.

모두 다소 적은 편이다.

또한 기능적으로 많은 부분이 제한되어 있지만, 초기 단계이므로 이해할 만하다.

API 가격은 o1 프리뷰 기준 입력 100만 건당 15달러, 출력 100만 건당 60달러이며, 이는 추론 비용이 상당하다는 의미다.

o1-mini는 더 저렴해서 입력 100만 건당 3달러, 출력 100만 건당 12달러이다.

출력 비용은 모두 추론 비용의 4배이며, GPT-4o의 경우는 각각 5달러와 15달러였다.

o1-mini는 어느 정도 경제성은 있으나, 여전히 초기 단계이므로 앞으로 OpenAI가 가격을 대폭 낮출 것으로 기대된다.

o1이 이미 Plus 사용자에게 공개되었다고 했으니, 바로 내 계정을 확인해봤다. 운 좋게도 사용 권한을 받았다.

당연히 바로 첫 시험을 진행했다.

현재까지 지원했던 기능들(이미지 이해, 이미지 생성, 코드 인터프리터, 웹 검색 등)은 모두 불가능하며, 오직 순수한 대화형 모델만 제공된다.

먼저 아주 치명적이었던 질문 하나를 던졌다:

"농부가 늑대, 양, 배추를 모두 강 건너편으로 옮기려 한다. 하지만 매번 한 가지 물건만 옮길 수 있으며, 늑대와 양이 함께 남겨지거나 양과 배추가 함께 남겨지는 것도 안 된다. 어떻게 해야 할까?"

6초간 생각한 끝에 완벽한 답변을 제시했다.

또한 모든 대형 모델을 곤경에 빠뜨렸던 중국의 연휴 조정 문제도 시험해봤다:

"2024년 9월 9일(월요일)부터 10월 13일까지의 중국 연휴 및 근무 조정 일정은 다음과 같다: 6일 근무 후 3일 휴식, 3일 근무 후 2일 휴식, 5일 근무 후 1일 휴식, 2일 근무 후 7일 휴식, 그리고 마지막으로 5일 근무 후 1일 휴식.

주말 휴일 외에, 연휴로 인해 추가로 몇 일을 더 쉬는가?"

o1이 무려 30초 동안 깊이 생각한 후, 하루의 오차도 없는 극도로 정확한 답을 내놓았다.

압도적이다. 진짜 압도적이다.

이제 더 어려운 문제를 시도해보자. 바로 강핑이 참가했던 대회에서 출제된 수학 올림피아드 문제다:

문제 내용을 묻지 마라. 나도 못 알아듣는다. 나는 쓰레기다. 이 문제는 과거 모든 대형 모델을 초토화시켰다. 이번엔 o1에게도 한번 풀어보게 해보자.

o1이 무려 1분 넘게 생각한 끝에 답을 제시했다.

...

완...전...정답...

내 마음이 무너졌다.

내가 직접 시험해본 결과, 앞으로 Prompt 작성 방식도 다시 고민해야 할 것 같다. GPT 중심의 '빠른 사고' 대형 모델 시대에는 '단계별로 생각하세요' 같은 팁들이 유효했지만, 지금은 모두 무효이며, o1에게는 오히려 부정적인 영향을 줄 수도 있다.

OpenAI가 제시한 최적의 프롬프트 작성법은 다음과 같다:

프롬프트를 간단하고 명확하게 유지하라: 모델은 긴 설명 없이도 짧고 명료한 지시를 잘 이해하고 반응한다.
사고 흐름 유도를 피하라: 이 모델들은 내부적으로 자체적으로 추론하므로 "단계별로 생각하세요" 또는 "당신의 추론을 설명하세요" 같은 유도는 필요 없다.
구분자를 사용하여 명확성을 높이세요: 삼중 따옴표, XML 태그, 섹션 제목 등 구분자를 사용해 입력의 서로 다른 부분을 명확히 표시하면 모델이 각 부분을 적절히 해석하는 데 도움이 된다.
RAG(검색 증강 생성)에서 부가적인 맥락을 제한하세요: 추가 정보나 문서를 제공할 때는 가장 관련성 있는 정보만 포함하여 모델의 응답이 지나치게 복잡해지는 것을 방지해야 한다.

마지막으로 생각 시간에 대해 말하고 싶다.

지금 o1은 1분 정도 생각하지만, 진정한 AGI라면 사실상 생각 시간이 더 길수록 더욱 놀라운 결과를 낼 수 있다.

정말로 수학 정리를 증명하거나, 암 치료제를 개발하거나, 천체 연구를 수행한다면?

매번의 사고가 몇 시간, 며칠, 심지어 몇 주까지 걸릴 수도 있다.

그 결과는 아마 모든 사람을 믿을 수 없을 정도로 놀라게 할 것이다.

지금 아무도 상상할 수 없다. 그런 시점의 AI가 어떤 존재가 될지 말이다.

내가 보기에 o1의 미래는 결코 단순한 ChatGPT를 넘어서는 것이다.

다음 시대로 가는 가장 위대한 기반이 될 것이다.

"우리가 AGI에 도달하는 길목에는 더 이상 장애물이 없다."

지금 나는 이 말을 망설임 없이 굳게 믿는다.

빛나는 다음 시대가,

오늘,