
OpenAI 초기 직원 데이비드 루안의 최신 인터뷰: DeepSeek가 AI 기술 서사를 바꾸지는 않았다
저자: MD
제작: 밝은 회사

최근 레드포인트 벤처스(Redpoint Venture)의 팟캐스트 'Unsupervised Learning'에서 레드포인트 벤처스 파트너 제이콥 에프론(Jacob Effron)이 데이비드 루안(David Luan)과 인터뷰를 진행했다. 두 사람은 기술적 관점에서 딥시크(DeepSeek)가 대규모 모델 분야의 연구 및 실천에 미친 영향을 논의했으며, 현재 AI 모델이 직면한 한계와 잠재적인 돌파구에 대해 나누었다.
데이비드 루안은 오픈AI(OpenAI)의 초기 직원이다. 그는 2009년 예일대학을 졸업하고 iRobot에서 로봇 관련 업무를 시작한 후 여러 회사(마이크로소프트 포함)에서 근무하다 2017년 초기 단계의 오픈AI에 합류했다. 당시 R&D 팀은 겨우 35명으로 구성되어 있었다. 이번 인터뷰에서도 그는 "로봇에 대한 관심 때문에 인공지능 회사에 합류하게 되었다"고 언급하며 "로봇의 가장 큰 제약은 기본 알고리즘의 지능 수준에 있다"고 말했다.
2020년, 데이비드 루안은 오픈AI를 떠나 구글에 입사했지만 오래 머물지 않았으며, 구글 재직 시절 알게 된 동료 두 명과 함께 Adept를 공동 창업해 CEO로 활동했다. 작년 8월에는 아마존에 합류해 AGI 샌프란시스코 연구소 책임자를 맡고 있다.
다음은 '밝은 회사'가 번역한 인터뷰 본문(약간의 편집 포함)이다:
대규모 모델의 한계와 강화학습의 가치
Jacob: 데이비드 루안은 아마존 AGI 연구소 책임자입니다. 이전에는 Adept의 공동창립자이자 CEO로서 AI 에이전트 개발에 4억 달러 이상을 조달했습니다. 오픈AI에서는 주요 기술 돌파구들에 참여했던 공학 부사장이기도 했습니다. 저는 제이콥 에프론입니다.
오늘 방송에서 데이비드와 저는 다양한 흥미로운 주제들을 다뤘습니다. 그의 딥시크에 대한 견해, 미래 모델 발전 전망, 에이전트의 현황과 신뢰성 확보 방법, 언제쯤 어디서나 사용 가능한 상태가 될지 등에 대해 논의했습니다. 또한 오픈AI 초기의 흥미로운 일화들과 독특한 문화도 공유했습니다. 매우 흥미로운 대화였는데, 데이비드와 저는 이미 10년 넘게 알고 지낸 사이기 때문입니다. 청취자들도 좋아할 것이라 생각합니다. 데이비드, 우리 팟캐스트에 출연해줘서 고맙습니다.
David: 초대해 주셔서 감사합니다. 정말 흥미로울 겁니다. 우리는 이미 10년 이상 알고 지낸 사이니까요.
Jacob: 당신이 처음 오픈AI에 합류했을 때를 기억합니다. 그때는 흥미로워 보였지만, 과연 현명한 커리어 선택인지 확신이 서지 않았죠. 하지만 분명한 건 당신이 항상 다른 사람들보다 더 일찍 기회를 보고 있다는 점입니다.
David: 운이 좋았다고 생각합니다. 저는 항상 로봇에 관심이 있었고, 당시 로봇의 가장 큰 제약은 기본 알고리즘의 지능 수준이었습니다. 그래서 인공지능 분야로 전환하게 되었고, 이러한 기술들이 우리가 살아있는 동안 진전되는 모습을 보는 것은 정말 멋진 일입니다.
Jacob: 오늘 여러 주제를 다뤄보고 싶습니다. 최근 핫한 이슈부터 시작해볼까요? 당연히 지난 몇 주간 딥시크에 대한 반응이 상당했죠. 사람들은 이것저것 말하고 주식은 폭락했습니다. 일부는 이것이 오픈AI와 앤트로픽(Anthropic)에 불리하다고 말했습니다. 지금은 사람들이 처음의 혼란에서 어느 정도 진정된 것 같습니다. 하지만 저는 더 넓은 차원에서 사람들의 의견 중 어떤 부분은 맞고 어떤 부분은 틀렸다고 생각하는지 궁금합니다.
David: 그날 아침 모두가 딥시크 소식에 주목하고 있던 게 기억납니다. 제가 일어나 폰을 확인하니 다섯 통의 부재중 전화가 와 있더군요. 도대체 무슨 일이 생긴 걸까 싶었습니다. 이전에 이런 일이 있었던 건 SVB(실리콘밸리 은행) 붕괴 때뿐이었죠. 모든 투자자들이 제게 SVB와 피스트 리퍼번클은행에서 자금을 빼내라고 연락했던 시기였습니다. 그래서 무언가 정말 안 좋은 일이 발생한 줄 알았죠. 뉴스를 확인해보니 주식 폭락은 딥시크 R1 출시 때문이었습니다. 즉시 사람들이 이 사건을 완전히 잘못 이해하고 있다는 걸 깨달았습니다. 딥시크는 훌륭한 일을 했지만, 이건 더 광범위한 이야기의 일부분입니다—우선 새로운 대규모 모델을 더 지능적으로 만드는 법을 배우고, 그 다음에 이를 더 효율적으로 만드는 법을 배우는 것이죠.
따라서 이것은 사실상 전환점입니다. 사람들이 오해하는 부분은 낮은 비용으로 더 많은 지능을 얻을 수 있다는 이유만으로 지능 추구를 멈춘다는 뜻은 아니라는 점입니다. 오히려 더 많은 지능을 사용하게 됩니다. 그래서 시장이 이를 깨닫고 난 후, 우리는 다시 이성을 되찾았습니다.
Jacob: 적어도 기본 모델은 오픈AI의 모델을 기반으로 훈련된 것으로 보이며, 다양한 방식으로 딥시크 모델을 ChatGPT처럼 동작하게 만들 수 있습니다. 그렇다면 앞으로 지식 증류(knowledge distillation)를 고려하면 오픈AI와 앤트로픽은이러한 모델을 더 공개적으로 발표하는 것을 멈출 것입니까?
David: 제 생각에 일어날 일은 사람들이 항상 가장 지능적인 모델을 만들고 싶어 한다는 것이지만, 때때로 이러한 모델들이 추론 측면에서 효율적이지는 않다는 점입니다. 따라서 내부 연구소에서는 사람들이 명확히 언급하지는 않더라도, 가질 수 있는 모든 컴퓨팅 자원을 활용하여 거대한 '교사 모델(teacher models)'을 훈련시키는 사례가 점점 더 늘어날 것입니다. 그 후 고객이 사용하기에 적합한 효율적인 모델로 압축하려는 노력을 할 것입니다.
현재 제가 보는 가장 큰 문제는 인공지능의 용도를 복잡성의 동심원으로 상상한다는 것입니다. 가장 내부의 복잡성은 기초 언어 모델과 간단한 대화를 나누는 정도일 수 있으며, GPT-2 수준에서 이미 잘 수행 가능합니다. 그리고 각각 추가되는 지능 계층—예를 들어 정신 계산, 프로그래밍, 이후의 에이전트, 심지어 약물 발견 등—은 더 지능적인 모델을 필요로 합니다. 하지만 이전의 각 지능 계층은 거의 너무 저렴해져서 양자화(quantize, 모델의 수치 정밀도를 낮춰 리소스 소비를 줄이는 것)될 수 있을 정도가 됩니다.
Jacob: 이 말을 듣고 '테스트 시 컴퓨팅(test-time compute)' 트렌드가 떠올랐습니다. 특히 검증이 쉬운 분야인 프로그래밍이나 수학 등에서는 매우 흥미로운 전개 방향처럼 보입니다. 이 패러다임이 얼마나 멀리 갈 수 있을까요?
David: 제가 오랫동안 어떻게 AGI(범용 인공지능)를 구축할지에 대해 논의한 일련의 논문과 팟캐스트가 있습니다.
Jacob: 그럼 이 논의에 새롭게 덧붙여볼까요.
David: 이제 우리는 이 순간에 이런 대화를 하고 있다는 걸 증명할 수 있습니다. 하지만 2020년, 당시 우리는 GPT-2의 등장을 목격하기 시작했고, GPT-3는 이미 개발 중이거나 완성 단계였을 것입니다. 우리는 GPT-4를 생각하기 시작했고, 사람들은 다음 토큰 예측(next token prediction)만으로 모든 AGI 문제를 해결할 수 있을지 여부에 대해 확신하지 못하는 세계에 살고 있습니다.
저와 주변 몇몇 사람들의 견해는 실제로 "아니오"입니다. 왜냐하면 모델이 다음 토큰 예측을 위해 훈련되었다면, 새로운 지식은 훈련 데이터셋에 없기 때문에 새로운 지식을 발견하는 행위 자체에 벌칙을 받게 되기 때문입니다. 따라서 우리가 해야 할 일은 새로운 지식을 실제로 발견할 수 있는 다른 알려진 머신러닝 패러다임을 살펴보는 것입니다. 강화학습(RL)이 이를 할 수 있다는 것을 알고 있습니다. RL은 탐색(search)에서도 이를 수행할 수 있고, 맞죠? 예를 들어 알파고(AlphaGo)는 일반 대중이 RL을 통해 새로운 지식을 발견할 수 있다는 것을 처음으로 인식하게 된 사례였습니다. 항상 남아 있는 질문은 언제 대규모 언어 모델(LLMs)을 RL과 결합하여 전 인류의 지식을 갖추고 그것 위에 구축할 수 있는 시스템을 만들 수 있을까 하는 것입니다.
Jacob: 그렇다면 검증이 어려운 분야, 예를 들어 의료 또는 법률 분야에서는 이러한 테스트 시 컴퓨팅 패러다임이 해당 문제를 처리할 수 있는 모델을 구축하는 데 도움이 될 수 있을까요? 아니면 우리는 프로그래밍과 수학에는 매우 능숙해지겠지만 여전히 농담 하나 못하게 될까요?
David: 논쟁의 여지가 있는 주제이며, 저는 매우 명확한 견해를 가지고 있습니다.
Jacob: 답변은 무엇입니까?
David: 이러한 모델들의 일반화 능력은 여러분이 생각하는 것보다 훨씬 강합니다. 모두가 말하길, 나는 GPT-1을 사용했는데 수학 분야에선 더 나아 보이지만, 생각하는 시간을 기다릴 때는 ChatGPT나 다른 모델보다 다소 뒤떨어진다고 느껴진다고 합니다. 저는 이것이 더 강력한 결과로 가는 길에 작은 파동일 뿐이라고 생각합니다. 오늘날 우리는 이미 징후를 보이고 있는데, 모델이 문제를 올바르게 해결했는지를 명확히 검증함으로써(딥시크에서 보았듯이) 유사한 영역의 다소 모호한 문제들로 전이되는 경우가 있다는 것입니다. 모두가 노력하고 있으며, 제 팀과 다른 팀들도 이러한 복잡한 작업에서 인간 선호도 문제를 해결하기 위해 노력하고 있습니다.
Jacob: 맞습니다. 그리고 항상 "이 출력은 좋은 법률 조언이다", 또는 "이 출력은 좋은 진단이다" 같은 것을 검증할 수 있는 모델을 만들어야 하는데, 이는 수학 증명이나 코드 실행 여부를 검증하는 것보다 훨씬 더 어렵습니다.
David: 우리가 활용하고 있는 것은 이러한 모델들 사이의 판단력과 생성력의 격차입니다. — 동일한 신경망 가중치 세트가 자신의 작업을 잘 수행했는지 판단하는 능력과 올바른 답을 생성하는 능력 사이의 격차 말입니다. 우리는 항상 모델이 자신의 작업을 잘 수행했는지 판단하는 능력이 좋은 답을 생성하는 능력보다 더 강하다는 것을 관찰합니다. 어느 정도 우리는 RL 도구들을 이용해 스스로 어떤 일을 잘했는지 느낌을 갖도록 만들고 있습니다.
Jacob: 실제로 그런 모델을 출시하려면 어떤 연구 문제가 해결되어야 합니까?
David: 해결해야 할 문제가 너무 많습니다. 아마 세 가지 정도로 요약할 수 있을 것 같습니다. 우선, 첫 번째 문제는 믿을 수 있는 방식으로 모델을 만들 수 있는 조직과 프로세스를 구축하는 방법을 정말로 알아야 한다는 점입니다.
항상 제 팀과 협업하는 사람들에게 말하곤 하는데, 오늘날 현대적인 인공지능 연구소를 운영한다면 당신의 일은 모델을 만드는 것이 아니라, 믿을 수 있게 모델을 만들 수 있는 공장을 만드는 것입니다. 이렇게 생각할 때 투자 방향이 완전히 바뀝니다. 재현 가능성이 확보되기 전까지는 어느 정도 진전이 없다고 봐야 합니다. 우리는 방금 연금술에서 산업화로 넘어가는 과정을 겪었으며, 이러한 모델들의 제작 방식이 변화했습니다. 이 기반이 없으면 모델은 작동하지 않습니다.
다음으로 중요한 부분은 '느리게 하되 빠르게 행동하라(slow is fast)'는 것입니다. 하지만 이건 첫 번째 부분입니다. 저는 항상 사람들이 알고리즘이 멋지고 매력적으로 보인다는 이유로 끌린다는 것을 알고 있습니다. 하지만 이것이 실제로 모든 것을 추진한 것은 결국엔 엔지니어링 문제였습니다. 예를 들어, 대규모 클러스터 컴퓨팅을 어떻게 수행하여 충분히 오랜 시간 동안 안정적으로 작동하도록 할 것인가? 노드 하나가 다운되었을 때 작업에 너무 많은 시간을 낭비하지 않도록 하는 것이 중요합니다. 규모의 최전선을 밀어붙이기 위해서는 이것이 실제적인 문제입니다.
현재 전체 강화학습(RL) 분야는 곧 그런 세상에 접어들게 될 것입니다. 많은 데이터센터들이 존재하고, 각 데이터센터는 기초 모델에 기반해 대량의 추론을 수행하며, 고객이 가져온 새로운 환경에서 테스트하여 모델을 개선하는 방법을 배우고, 이러한 새로운 지식을 중심 위치로 피드백하여 모델이 더 똑똑해지도록 학습하게 될 것입니다.
Jacob: 얀 르쿤(Yann LeCun) 같은 사람들이 최근 대규모 언어 모델(LLMs)의 한계에 대해 비판을 계속하고 있습니다. 청취자들을 위해 이러한 비판을 요약해주고, 이러한 모델들이 결코 진정한 창의적 사고를 할 수 없다고 주장하는 사람들에 대한 당신의 견해를 말씀해주십시오.
David: 우리는 이미 반례를 갖고 있다고 생각합니다. 알파고는 창의적 사고의 한 형태였습니다. 오픈AI 초기 작업을 돌아보면, 우리는 RL을 사용해 플래시 게임을 플레이했습니다. 그 시절의 사람이시라면 MiniClip 같은 것을 기억하실지도 모르겠습니다. 이는 중학생 시절의 오락거리였지만, 그것들이 인공지능의 기반이 되었다는 점이 흥미로웠습니다. 우리는 당시 우리의 알고리즘을 사용해 동시에 이러한 게임들을 클리어하는 방법을 연구하고 있었고, 곧 그들이 벽을 통과하는 버그를 이용하는 등의 방식으로 인간이 결코 하지 않았던 방법으로 빠르게 통과하는 법을 배우는 것을 발견했습니다.
Jacob: 검증 측면에서는, 이러한 다양한 분야에 맞는 검증 방법을 교묘하게 찾는 것이 핵심입니다.
David: 그냥 모델을 사용하면 됩니다.
믿을 수 있는 에이전트를 만드는 방법
Jacob: 에이전트(Agents) 세계로 화제를 전환해보겠습니다. 이러한 모델들의 현재 상태를 어떻게 설명하시겠습니까?
David: 저는 여전히 에이전트에 대해 엄청난 열정을 가지고 있습니다. 2020~2021년, GPT-4 같은 첫 번째 진정으로 강력한 모델들이 등장했을 때를 떠올리게 됩니다. 이러한 모델을 사용해보면 엄청난 잠재력을 느낄 수 있습니다—훌륭한 랩(rap) 곡을 만들 수 있고, 멋진 말장난을 할 수 있으며, 세 자리 수 덧셈도 대부분 통과합니다. 하지만 "피자를 주문해줘"라고 하면, 도미노 피자 고객 서비스처럼 대화를 흉내낼 뿐 실제 작업을 완수하지 못합니다. 이는 분명히 이러한 시스템의 중대한 결함을 노출합니다. 맞죠?
그 이후 저는 반드시 에이전트 문제를 해결해야 한다고 굳게 믿었습니다. 구글에서 일할 때, 우리가 나중에 '툴 사용(tool use)'이라고 부르게 된 주제—즉, 대규모 언어 모델(LLM)에게 작업 인터페이스를 보여주고 언제 어떤 조치를 취할지 스스로 결정하게 하는 방법—을 연구하기 시작했습니다. 학계는 항상 이를 '에이전트(agent)'라고 불렀지만, 당시 일반 대중은 아직 통일된 개념을 형성하지 못했습니다. 그래서 우리는 '대규모 언어 모델(Large Language Model)' 대신 '대규모 행동 모델(Large Action Model)'이라는 신조어를 만들어보려 했습니다. 이 개념은 논의를 일으켰습니다. 하지만 결국 업계는 '에이전트(Agent)'라는 명칭을 선택했고, 지금은 이 용어가 남용되어 본래 의미를 잃어버린 것이 안타깝지만, 이 분야를 탐험한 최초의 현대 아시아 기업이라는 점은 멋진 일입니다.
Adept를 창업했을 당시, 가장 우수한 오픈소스 LLM조차 성능이 좋지 않았습니다. 당시에는 GPT-4v처럼 이미지를 입력받는 멀티모달 LLM도 존재하지 않았기 때문에, 우리는 모든 것을 처음부터 훈련시켜야 했습니다. 모든 것을 처음부터 해야 했던 것은 마치 2000년대 인터넷 회사를 창업하면서 TSMC에 전화를 걸어 칩을 직접 제조해야 하는 것과 같아서 정말 미쳤습니다.
그래서 저희가 배운 교훈은, 오늘날의 RL 기술 없이 대규모 언어 모델은 본질적으로 행동 복제기(behavioral cloners)라는 점입니다. 훈련 데이터에서 본 것을 그대로 수행한다는 의미인데, 즉 한 번도 본 적 없는 상황에 들어가면 일반화 능력이 매우 떨어지고 행동이 예측 불가능해진다는 뜻입니다. 그래서 Adept는 항상 유용한 지능(useful intelligence)에 집중했습니다. 그렇다면 유용성은 무엇을 의미할까요? 트위터에서 바이럴이 되는 멋진 데모를 출시하는 것이 아닙니다. 대신 지식근로자들이 컴퓨터에서 파일을 끌어다 놓는 등의 번거로운 작업을 더 이상 하지 않아도 되게 기술을 사람들 손에 쥐어주는 것입니다. 지식근로자들이 신경 쓰는 것은 신뢰성입니다. 그래서 저희의 초기 사용 사례 중 하나는 사람들이 영수증을 처리하는 일을 대신할 수 있는지 여부였습니다.
Jacob: 누구나 영수증 처리를 좋아하죠(웃음). 이러한 범용 모델에게는 자연스러운 시작점처럼 보입니다.
David: 아주 멋진 '헬로 월드(Hell World)'입니다. 당시 아무도 이런 일을 진정으로 하지 않았고, 우리는 눈에 띄는 '헬로 월드' 사용 사례를 선택했습니다. 엑셀 등을 위한 다른 프로젝트도 했습니다. 이 시스템이 일곱 번에 한 번꼴로 QuickBooks 항목의 3분의 1을 삭제한다면, 당신은 절대 다시는 이 시스템을 사용하지 않을 것입니다. 신뢰성은 여전히 문제이며, 오늘날 Operator 같은 시스템조차 매우 인상적이지만 클라우드 컴퓨터 에이전트들보다 우월해 보입니다. 하지만 이 두 시스템을 살펴보면 모두 '주말 휴양지를 55곳 찾아줘'라고 입력하면 이를 수행하려는 끝에서 끝까지(end-to-end) 작업 실행에 집중하고 있습니다. 하지만 end-to-end 신뢰성은 매우 낮으며, 많은 수작업 개입이 필요합니다. 우리는 여전히 기업이 이러한 시스템을 진정으로 신뢰하고 '한 번 설정하면 끝'의 상태에 도달하지는 못했습니다.
Jacob: 우리는 반드시 이 문제를 해결해야 합니다. 아마존의 청취자들을 위해 설명해주실 수 있겠습니까? 기존의 기초 멀티모달 모델에서 시작해 이를 대규모 행동 모델로 전환하려면 실제로 어떤 작업들이 필요한지요?
David: 좀 더 고차원적으로 논의할 수 있지만, 기본적으로 두 가지 작업이 필요합니다. 첫째는 엔지니어링 문제로, 할 수 있는 일들을 모델이 이해할 수 있는 방식으로 표현하는 것입니다. 예를 들어 여기 호출할 수 있는 API가 있고, 여기 클릭할 수 있는 UI 요소가 있습니다. Expedia.com(여행 서비스 웹사이트)이나 SAP의 작동 원리에 대해 약간 가르쳐봅시다. 이는 연구 엔지니어링의 일부입니다. 이것이 첫 번째 단계, 즉 자신의 능력에 대한 인식과 기본적인 행동 능력을 부여하는 것입니다.
두 번째 부분이 흥미로운데, 어떻게 계획하고, 추론하고, 다시 계획하도록 가르칠 것인지, 사용자의 지시를 따르며, 심지어 사용자가 진정으로 원하는 것을 추론하여 그 일을 완수하게 하는 것입니다. 이것은 엄청난 R&D 난제이며, 일반적인 언어 모델 작업과 크게 다릅니다. 왜냐하면 일반적인 언어 모델 작업은 '텍스트를 생성하자'는 것이고, 오늘날의 추론 작업조차 수학 문제처럼 최종 정답이 있기 때문입니다.
따라서 다단계 사고를 포함하더라도 답변을 제공하는 단일 단계 프로세스에 가깝습니다. 그러나 이것은 되돌아가고, 행동의 결과를 예측하려 시도하며, 삭제 버튼이 위험할 수 있다는 것을 깨닫고 기본 설정에서 모든 작업을 완료해야 하는 완전한 다단계 의사결정 프로세스입니다.
그런 다음 모델을 샌드박스 환경에 넣고 자기 주도적으로 학습하게 합니다. 가장 좋은 비유는 Andrej Karpathy(오픈AI 창립팀 멤버, 2024년 AI+교육기관 Eureka Labs 설립)가 말한 것 같습니다. 현대 AI 훈련은 교과서의 구성 방식과 비슷합니다. 먼저 어떤 물리적 과정에 대한 전체 설명이 있고, 그다음 예제 문제가 나옵니다. 첫 번째 부분은 사전 훈련(pre-training), 예제 문제는 지도 미세 조정(supervised fine-tuning), 마지막 단계는 개방형 문제이며, 아마 교과서 뒤에 정답이 있을지도 모릅니다. 우리는 그저 이 과정을 따르고 있을 뿐입니다.

Andrej Karpathy의 대규모 모델 설명 (출처: X.com, 밝은 회사)
Jacob: 당신은 이러한 스마트 에이전트가 어떻게 실제로 세상에 등장할지 많이 생각해봤을 것 같습니다. 몇 가지 질문을 드리겠습니다. 우선 당신이 언급했듯이, 모델이 자신이 접근할 수 있는 것을 아는 부분이 문제입니다. 시간이 지남에 따라 모델은 브라우저와 프로그램과 어떻게 상호작용할 것입니까? 인간의 상호작용 방식과 유사할까요? 아니면 코드를 통해서만 이루어질까요? 다른 방법도 있습니까?
David: 제가 이 분야에 대해 언급하자면, 현재 가장 큰 문제는 점점 더 지능적인 대규모 모델과 에이전트와 어떻게 상호작용할지에 대한 창의성이 부족하다는 점입니다. 아이폰이 처음 나왔을 때, 앱스토어도 등장했고 사람들이 다양한 앱을 만들기 시작했습니다. 예를 들어 버튼을 누르면 트림 소리가 나게 하거나, 휴대폰을 기울여 맥주를 입에 따라 부어넣는 앱 같은 것이었죠. 현재 우리의 인터페이스는 그런 수준이며, 채팅은 매우 제한적이고 대역폭이 낮은 상호작용 방식이기 때문에 느낌이 좋지 않습니다. 예를 들어 피자 토핑을 결정하기 위해 일곱 번의 대화를 나누고 싶지는 않습니다.
이러한 창의성 부족은 저를 매우 좌절시킵니다. 제 생각에 그 이유는 이러한 문제를 해결할 수 있는 훌륭한 제품 디자이너들이 현재 모델의 한계를 진정으로 이해하지 못하고 있기 때문입니다. 이 상황은 빠르게 변하고 있지만, 반대로 지금까지 기술 발전을 이끌어온 사람들은 항상 "나는 여기에 블랙박스를 제공한다"고 생각하며 "나는 여기에 경험을 제공한다"고 생각하지 않았습니다.
이 상황이 바뀌면, 에이전트와 상호작용할 때 실제로 당신이 필요로 하는 내용을 나열하는 멀티모달 사용자 인터페이스를 합성해주고, 인간과 AI 사이에 공유된 맥락(Context)을 만들며, 현재의 패러다임처럼 단순히 채팅하는 것이 아니라, 마치 컴퓨터에서 같이 무언가를 하고 있는 것처럼 화면을 보며 수직적보다는 수평적(parallel)인 방식이 될 것이라 기대합니다.
Jacob: 당신이 언급했듯이, Operator는 인상적이지만 완벽하지 않은 경우가 종종 있습니다. 그렇다면 신뢰할 수 있는 스마트 에이전트를 언제쯤 갖게 될 것이라고 생각하십니까?
David: Operator는 매우 놀랍다고 생각합니다. 다만 현재 이 분야 전체가 마지막 퍼즐 조각을 아직 갖추지 못한 것 같습니다.
Jacob: 자율주행의 역사로 보면, 아마 1995년에도 자율주행 데모가 있었고, 차량이 국경을 횡단하며 99%의 여정을 완료했습니다.
David: 네.
Jacob: 우리가 또 30년을 더 기다려야 합니까?
David: 그렇게 생각하지 않습니다. 왜냐하면 우리는 이미 적절한 도구들을 가지고 있다고 생각하기 때문입니다.
Jacob: 이전에 언급하셨듯이, AGI(범용 인공지능)는 사실 그리 멀지 않다고 하셨습니다.
David: 제가 에이전트 분야에서 기다리는 주요 이정표는 훈련 기간 동안 이 에이전트에게 어떤 과제든 주면 며칠 후 돌아왔을 때 100% 완료되어 있다는 것입니다. 네, 인간이 우리에게 5%의 신뢰성 향상을 가져다주는 것처럼, 이 에이전트는 이미 문제를 해결하는 방법을 배웠습니다.
Jacob: 이전에 언급하셨듯이, Adept를 창업했을 당시에는 진정한 오픈소스 모델도 없었고, 멀티모달 오픈소스 모델은 더더욱 없었습니다. 만약 오늘날 누군가 Adept 같은 회사를 창업한다면, 스타트업이 여기서 성공할 수 있을까요? 아니면 결국 공을 앞으로 밀어줄 것은 기초 모델 회사와 초대규모 클라우드 서비스 제공업체가 될까요?
David: 이 질문에 대해서는 큰 불확실성을 가지고 있습니다. 하지만 현재 제 견해는 개인적으로 AGI가 사실 그리 멀지 않다고 생각한다는 점입니다.
Jacob: AGI라고 말씀하실 때, 그것을 어떻게 정의하시는지요?
David: 컴퓨터에서 인간이 할 수 있는 모든 유용한 작업을 수행할 수 있는 모델이 정의의 일부입니다. 제가 좋아하는 또 다른 정의는 인간처럼 빠르게 이러한 작업들을 배울 수 있는 모델이라는 것입니다. 저는 이것이 그리 멀지 않다고 생각하지만, 사회 전반에 빠르게 확산되리라고 보지도 않습니다. 아므달의 법칙(Amdahl's Law)에 따라, 한 가지를 진정으로 가속화하면 다른 것들이 병목이 되고, 전체적으로 얻는 가속 효과는 생각보다 크지 않기 때문입니다.
따라서 제 생각에는 우리는 이러한 기술을 갖게 되겠지만, 인간이 이를 진정으로 효율적으로 사용할 수 있는 능력은 상당 기간 지속될 것입니다. 제 많은 동료들이 이를 '능력 과잉(capability overhang)'이라고 부르며, 거대한 능력 과잉이라고 말합니다.
Jacob: 일단 우리가 이러한 능력을 갖게 되면 가능한 가속 요인이 무엇인지에 대해 초기 생각을 해보셨습니까?
David: 그것은 사람에 달려 있습니다. 모델과의 상호작용을 어떻게 공동 설계하고, 이러한 모델을 어떻게 사용할지에 관한 문제입니다. 사회적 수용도의 문제가 될 것입니다. 예를 들어 내일 새로운 모델이 등장해서 말합니다. "나는 완전히 새로운 일을 하는 방법을 발명했어요. 모두가 이것을 사용해야 해요." 인간은 이것과 타협해야 하며, 이것이 정말로 더 나은 해결책인지 결정해야 하며, 이는 우리가 생각하는 것만큼 빠르게 일어나지 않을 것입니다.
Jacob: 말씀하신 것처럼 실험실이 이러한 모델을 처음 개발하는 장소일지라도, 스타트업이 이러한 모델의 능력과 최종 사용자가 실제로 상호작용하고자 하는 사이의 격차를 실제로 메울 수 있는 기회가 있을 수 있습니다.
David: 저는 이것이 실제로 일어날 일이라고 거의 확신합니다. 결국 저는 여전히 믿습니다. AGI의 세계에서는 인간과의 관계가 정말 중요하다는 것을요. 결국 고객을 이해하고 소유하며, 그들의 요구를 더 가까이에서 이해하는 것이, 많은 다른 실험실이 소유한 도구를 단순히 통제하는 것보다 더 중요할 것입니다.
Jacob: 앞으로 10년 동안 인간은 컴퓨터를 어떻게 사용할 것이라고 생각하십니까? 모든 모델들이 당신의 AGI 정의에 도달한다면, 저는 여전히 컴퓨터 앞에 앉아 있을까요? 미래에 인간이 이러한 기술과 상호작용하는 방식에 대한 비전을 들려주실 수 있습니까?
David: 우리는 컴퓨터와 상호작용하기 위한 새로운 도구 상자를 갖게 될 것입니다. 오늘날에도 여전히 명령줄(command line)을 사용하는 사람이 있죠? 그래픽 사용자 인터페이스(GUI)를 여전히 사용하는 사람과 마찬가지로 말입니다. 미래에는 사람들은 여전히 음성 인터페이스를 사용할 것입니다. 하지만 저는 사람들이 더 많은 주변 컴퓨팅(ambient computing)도 사용할 것이라고 생각합니다. 또한 우리가 주목해야 할 지표는 컴퓨터와 상호작용할 때 인간이 단위 에너지당 얻는 레버리지(leverage)라고 생각합니다. 이러한 시스템이 발전함에 따라 이 지표는 계속 증가할 것이라고 봅니다.
Jacob: 미래 모델 세계에 대해 잠깐 이야기해주시고, 특정 분야 모델을 최종적으로 갖게 될지 여부도 말씀해주십시오.
David: 가상의 법률 전문가 모델을 살펴봅시다. 당신은 이 가상의 법률 전문가가 세상에 대한 몇 가지 기본적인 사실을 알고 있기를 원할 것입니다.
Jacob: 많은 사람들이 법대에 가기 전 일반 학위를 먼저 이수합니다.
David: 맞습니다. 따라서 특정 분야 모델이 있을 것이라고 생각하지만, 핵심을 흐리고 싶지는 않습니다. 기술적인 이유로 특정 분야 모델이 생길 것이며, 정책적인 이유로도 생길 것이라고 생각합니다.
Jacob: 흥미롭네요. 그게 무슨 뜻입니까?
David: 어떤 회사는 자신의 데이터가 섞이는 것을 정말 원하지 않습니다. 예를 들어 대형 은행을 상상해보세요. 세일즈 앤 트레이딩 부서와 투자은행 부서가 있습니다. AI 직원이나 LLM이 이러한 부서를 지원하는데, 오늘날 직원들이 정보를 공유할 수 없는 것처럼, 모델도 가중치를 통해 정보를 공유할 수 있어서는 안 됩니다.
Jacob: 다른 어떤 것들이 해결되어야 한다고 생각하십니까? 모델 측면에서, 현재의 컴퓨팅 능력을 단순히 확장하기만 해도 우리가 해결해야 할 문제에 매우 가까이 갈 수 있을 것 같다고 자신감을 갖고 계신 것 같습니다. 하지만 모델의 지능을 계속 확장하기 위해 극복해야 할 다른 중대한 기술적 도전 과제도 있습니까?
David: 사실 저는 기존 기술을 단순히 2년 후의 컴퓨팅 클러스터로 옮기기만 하면 기적이 벌어질 것이라는 견해에 동의하지 않습니다. 규모는 여전히 중요한 요소이지만, 제 자신감은 현재의 핵심 개방 문제들을 평가한 데서 비롯됩니다—이 문제들의 해결 난이도를 평가하는 것이죠. 예를 들어, 기울기 하강법(gradient descent, 현재 딥러닝 모델 파라미터 최적화의 핵심 알고리즘. 손실 함수의 음의 기울기 방향으로 반복적으로 파라미터를 업데이트함)을 완전히 대체하거나, 범용 인공지능(AGI)을 위해 양자 컴퓨터에 의존해야만 하는 초난제(super难题)가 반드시 존재할까요? 하지만 저는 이러한 것이 필수적인 기술 경로라고 보지 않습니다.
Jacob: 새로운 모델이 나올 때 어떻게 평가하십니까? 평가를 위해 고정된 질문들이 있습니까? 아니면 어떻게 새 모델의 우열을 판단합니까?
David: 제 평가 방법론은 두 가지 핵심 원칙에 기반합니다. 첫째, 방법론적 단순성(Methodological Simplicity): 딥러닝 분야에서 가장 매혹적인 특징은 연구에 방법론 문서가 첨부되어 있을 때(요즘은 점점 보기 드물지만), 그 구현 경로만 보아도 기존 방식보다 더 단순하고 효과적인 해법을 발견할 수 있다는 점입니다. 이런 돌파구는 종종 딥러닝 고전(deep learning canon)에 기록되며 '이건 정말 알고리즘의 아름다움을 보여주는구나'라는 깨달음을 줍니다.
둘째, 벤치마크의 오도성(Benchmark Misalignment): 현재 분야의 과열(hype)로 인해 많은 벤치마크들이 모델의 실제 요구와 괴리되어 있지만, 연구 개발 과정에서 과도하게 중시되고 있습니다. 이러한 테스트는 본질적으로 게임일 뿐입니다. 평가와 측정의 복잡성은 심각하게 과소평가되고 있으며, 현재 많은 연구 방향에 비해 훨씬 더 많은 학문적 명성과 자원 투입을 받아야 합니다.
기술적 차별화는 실제로 거의 없다
Jacob: 마치 각자 자신의 내부 벤치마크를 가지고 있고, 공개적으로 발표하지 않는 것 같습니다. 자신들이 더 신뢰하는 것이죠. 예를 들어 오픈AI 모델이 많은 프로그래밍 벤치마크에서 더 잘 수행되는 것을 볼 수 있지만, 모두가 Anthropic 모델을 사용하며 그것이 더 낫다는 것을 알고 있습니다. 이 분야의 진화를 보는 것은 흥미롭습니다. 아마존에서의 최근 상황과 아마존이 더 넓은 생태계에서 어떤 역할을 하고 있는지에 대해 말씀해주십시오.
David: 네, 아마존은 매우 흥미로운 곳입니다. 실제로 저는 거기서 많은 것을 배웠습니다. 아마존은 범용 지능 시스템, 특히 범용 지능 에이전트를 구축하는 데 매우 진지하게 임하고 있습니다. 정말 멋진 것은 아마존의 모든 사람이 컴퓨팅 자체가 우리가 알고 있던 기본 요소에서 대규모 모델이나 대규모 에이전트를 호출하는 것으로 전환되고 있으며, 이것이 미래에 가장 중요한 컴퓨팅 기본 요소가 될 수 있다는 것을 이해하고 있다는 점입니다. 그래서 사람들은 이것에 매우 관심을 갖고 있으며, 정말 멋집니다.
흥미로운 점은 제가 아마존의 에이전트 사업을 담당하고 있다는 점인데, 아마존과 같은 대기업 내에서 에이전트가 닿는 범위가 얼마나 광범위한지를 실제로 볼 수 있다는 점입니다. 피터(Peter)와 저는 아마존을 위해 샌프란시스코에 새로운 연구소를 열었으며, 이는 아마존 고위층의 많은 사람들이 우리가 이전에 논의한 AGI로 가는 주요 문제들을 해결하기 위해 새로운 연구 돌파구가 필요하다고 진정으로 믿기 때문입니다.
Jacob: 다른 아키텍처나 더 선도적인 연구 분야에 주목하고 계십니까?
David: 한번 생각해보겠습니다. 저는 항상 모델 학습을 계산에 더 잘 매핑할 수 있도록 도와줄 수 있는 것들에 주목합니다. 계산을 더 효율적으로 사용할 수 있을까요? 이는 우리가 할 수 있는 일에 엄청난 곱셈 효과를 제공합니다. 하지만 실제로 저는 데이터센터와 칩에 더 많은 시간을 할애하는데, 이것이 매우 흥미롭기 때문입니다. 현재 흥미로운 움직임들이 있습니다.
Jacob: 모델 발전을 주도하는 주요 요인 중 하나는 데이터 주석(data annotation)인 것처럼 보이며, 분명히 모든 실험실이 이 분야에 막대한 자금을 투입하고 있습니다. 테스트 시 컴퓨팅 패러다임에서는 여전히 관련이 있습니까? 이 문제에 대해 어떻게 생각하십니까?
David: 제가 먼저 떠올리는 데이터 주석이 해결해야 할 두 가지 작업이 있습니다. 첫째는 인간 행동을 모방하여 작업을 수행하는 기초 지식을 모델에게 가르치는 것입니다. 고품질 데이터가 있다면 사전 훈련 기간 동안 모델이 이미 본 것을 더 잘 자극하는 데 사용할 수 있습니다. 두 번째 작업은 모호한 작업에서 무엇이 좋고 나쁜지 모델에게 가르치는 것입니다. 저는 이 두 가지가 여전히 매우 중요하다고 생각합니다. ……
Jacob: 분명히 지난 10년간 이 분야의 최전선에 계셨습니다. 지난 1년 동안 생각을 바꾼 것이 하나 있다면 무엇입니까?
David: 제가 계속 생각해온 것은 팀 문화 구축입니다. 우리가 항상 알고 있었지만, 더욱 확신하게 된 것은 특히 커리어 초기 단계에 있는 진정으로 똑똑하고 활기차며 내재적 동기가 강한 사람들을 채용하는 것이 실제로 우리의 성공을 이끄는 중요한 엔진이라는 점입니다. 이 분야에서는 몇 년마다 최선의 전략이 바뀝니다. 따라서 사람들이 이전의 최선 전략에 너무 적응해버리면 실제로 당신의 속도를 늦추게 됩니다. 따라서 이전의 제 생각보다 신입 인재에 베팅하는 것이 더 낫다고 봅니다.
또 다른 제 생각의 변화는 AI를 구축하는 데 실제로 장기적인 기술적 차별화가 있을 것이라고 생각했고, 그 위에 계속 축적할 수 있을 것이라고 생각했습니다. 텍스트 모델링에서 잘하면, 자연스럽게 멀티모달 분야에서도 승자가 되어야 한다고 생각했습니다. 멀티모달에서도 잘하면, 추론과 에이전트 분야에서도 승자가 되어야 했습니다... 이러한 이점은 계속 축적되어야 했습니다. 하지만 실제로는 제가 본 축적이 거의 없습니다. 모두가 비슷한 아이디어를 시도하고 있다고 생각
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












