황인훈, 트랜스포머 논문 7대 저자와 대화하며 대규모 모델의 미래를 논의하다

2024.03.22

황인훈, 트랜스포머 논문 7대 저자와 대화하며 대규모 모델의 미래를 논의하다

이 세계는 트랜스포머보다 더 나은 무언가를 필요로 한다. 우리 모두가 여기 앉아 있는 이 자리에서, 그게 어떤 새로운 것으로 대체되어 완전히 새로운 성능의 고지로 우리를 데려가기를 바라고 있다는 것을 알고 있다.

2024.03.22 - 02:16:57

Web3 심층 보도에 집중하고 흐름을 통찰

글: 궈샤오징

출처: 텐센트 뉴스

2017년, 획기적인 논문 하나가 등장했다. 바로 『Attention is All You Need』라는 제목의 논문으로, 이는 처음으로 자기 주의(self-attention) 메커니즘을 기반으로 한 트랜스포머(Transformer) 모델을 소개하며 새로운 패러다임을 열었다. 이 혁신적인 아키텍처는 기존의 RNN 및 CNN 구조에서 벗어나 병렬 처리 가능한 주의 메커니즘을 통해 장거리 의존성 문제를 효과적으로 해결했으며, 시퀀스 데이터 처리 속도를 크게 향상시켰다. 트랜스포머의 인코더-디코더 구조와 멀티헤드 어텐션(multi-head attention)은 인공지능 분야에 강력한 파장을 일으켰고, 현재 인기를 끌고 있는 ChatGPT 역시 이러한 구조 위에 구축된 것이다.

트랜스포머 모델을 마치 친구와 대화할 때 인간의 뇌가 상대방이 말하는 각 단어에 동시에 주목하고 그들 사이의 관계를 이해하는 것과 유사하다고 상상해보자. 이는 컴퓨터에게 인간 수준의 언어 이해 능력을 부여한다. 이전까지 언어 처리의 주류는 RNN이었지만, 정보 처리 속도가 느려서 구식 테이프 플레이어처럼 일일이 순차적으로 재생해야 하는 방식이었다. 반면 트랜스포머 모델은 다수의 오디오 트랙을 동시에 조작할 수 있는 고속의 DJ처럼 핵심 정보를 즉각 포착할 수 있다.

트랜스포머 모델의 등장은 컴퓨터의 언어 처리 능력을 비약적으로 향상시켜 기계 번역, 음성 인식, 텍스트 요약 등의 작업을 더욱 효율적이고 정확하게 만들었으며, 이는 산업 전반에 걸쳐 거대한 도약이 되었다.

이러한 혁신적인 성과는 과거 구글에서 근무했던 8명의 AI 과학자들이 공동으로 이루어낸 결과이다. 그들의 초기 목표는 매우 간단했다. 바로 구글의 기계 번역 서비스를 개선하는 것이었다. 그들은 기계가 단어 하나하나를 고립적으로 번역하는 것이 아니라 문장을 전체적으로 이해하고 통째로 해석할 수 있기를 원했다. 이 사고방식이 바로 '트랜스포머' 아키텍처의 출발점인 '자기 주의(self-attention)' 메커니즘이 된 것이다. 이 아이디어를 바탕으로 8명의 저자들은 각자의 전문성을 발휘하여 2017년 12월 『Attention Is All You Need』라는 논문을 발표하고, 생성형 AI의 새로운 장을 열었다.

생성형 AI 세계에서는 규모 법칙(Scaling Law)이 핵심 원리이다. 간단히 말해, 트랜스포머 모델의 규모가 커질수록 성능도 함께 향상된다. 그러나 이는 더 큰 모델과 더 깊은 네트워크를 지원하기 위해 더욱 강력한 컴퓨팅 자원이 필요함을 의미하며, 고성능 컴퓨팅 서비스를 제공하는 엔비디아(NVIDIA) 또한 이 AI 물결 속에서 핵심적인 역할을 하게 되었다.

올해 GTC 컨퍼런스에서 엔비디아의 젠슨 황(Jensen Huang)은 의례적인 방식으로 트랜스포머의 7명의 공동 저자들(니키 파르마르는 사정상 참석하지 못함)을 원탁 포럼에 초청하였다. 이는 여덟 명의 창시자들이 공개적으로 처음으로 한자리에 모인 자리였다.

이들의 대화 중 인상 깊었던 몇 가지 견해는 다음과 같다：

세상은 트랜스포머보다 더 나은 무언가를 필요로 하고 있으며, 우리 모두 자리에 앉아 있는 이들이 그것이 다른 무엇인가로 대체되어 새로운 성능의 고지를 열어주기를 바라고 있다고 생각합니다.
우리의 초기 목표에는 성공하지 못했습니다. 우리는 트랜스포머를 시작할 때 토큰(token)의 진화 과정을 시뮬레이션하고자 했습니다. 단순한 선형 생성 과정이 아니라, 텍스트나 코드의 점진적인 진화 과정 말입니다.
2+2 같은 간단한 문제조차도 대규모 모델의 수조 개 파라미터 자원을 사용할 수 있습니다. 저는 적응형 컴퓨팅이 다음 단계에서 반드시 등장해야 한다고 생각합니다. 특정 문제에 얼마만큼의 컴퓨팅 자원을 소비해야 할지 알게 되는 것입니다.
현재 모델은 너무 경제적이며 규모도 여전히 작다고 생각합니다. 토큰 100만 개당 약 1달러 정도인데, 평이한 종이책 한 권을 사는 것보다 100배 이상 저렴합니다.

다음은 대담 내용 전문：

젠슨 황：지난 60년간 컴퓨터 기술은 근본적인 변혁을 겪지 못한 듯 보입니다. 제가 태어난 순간부터 지금까지도 그렇습니다. 우리가 현재 사용하는 컴퓨터 시스템—다중 작업 처리, 하드웨어와 소프트웨어의 분리, 소프트웨어 호환성, 데이터 백업 기능, 그리고 소프트웨어 엔지니어들의 프로그래밍 기술 등—은 대부분 IBM System/360의 설계 철학을 따르고 있습니다. 중앙처리장치(CPU), BIOS 서브시스템, 멀티태스킹, 하드웨어-소프트웨어 분리, 소프트웨어 시스템 호환성 등 말입니다.

저는 1964년 이후 현대 컴퓨팅은 근본적인 변화가 없었다고 생각합니다. 1980~90년대에 컴퓨터는 중대한 전환기를 맞아 오늘날 우리가 알고 있는 형태로 자리 잡았습니다. 하지만 시간이 지남에 따라 컴퓨터의 한계 비용은 계속해서 감소했습니다. 매 10년마다 비용은 10분의 1로, 15년마다 1,000분의 1로, 20년마다 1만 분의 1로 줄어들었습니다. 이 컴퓨터 혁명 속에서 비용 감소 폭은 너무나 커서, 불과 20년 만에 컴퓨터의 가격이 거의 1만 배나 낮아진 셈입니다. 이러한 변화는 사회에 막대한 동력을 제공했습니다.

당신 삶 속에서 모든 고가 제품의 가격이 원래의 만분의 1로 떨어진다면 어떻게 될지 상상해보십시오. 예를 들어, 20년 전 20만 달러를 주고 산 자동차가 지금은 1달러면 살 수 있다면요? 이런 변화를 상상할 수 있겠습니까? 그러나 컴퓨터 비용의 하락은 갑작스럽게 이루어진 것이 아니라 점진적으로 진행되다가 어느 순간 임계점을 넘은 후 급격히 정체되었습니다. 여전히 매년 조금씩 개선되고 있지만, 변화율은 정체된 상태입니다.

우리는 가속 컴퓨팅을 탐색하기 시작했습니다. 하지만 가속 컴퓨팅은 쉽지 않습니다. 처음부터 일일이 다시 설계해야 합니다. 과거에는 정해진 절차대로 문제를 해결했지만, 지금은 그 절차 자체를 다시 설계해야 하며, 이는 완전히 새로운 과학 영역입니다. 기존의 규칙들을 병렬 알고리즘으로 다시 서술해야 합니다.

우리는 이렇게 인식하고 믿습니다. 비록 코드의 1%만 가속화하더라도 99%의 실행 시간을 절약한다면, 이를 활용할 수 있는 응용 분야가 반드시 존재할 것입니다. 우리의 목표는 불가능을 가능하게 하거나, 가능했던 것을 더욱 효율적으로 만드는 것입니다. 이것이 바로 가속 컴퓨팅의 의미입니다.

회사의 역사로 돌아가 보면, 우리는 다양한 애플리케이션을 가속화할 능력을 가지고 있다는 것을 알게 되었습니다. 처음에는 게임 분야에서 눈부신 성과를 거두었고, 그 성과가 너무 좋아 사람들이 우리를 게임 회사로 오해할 정도였습니다. 하지만 실제로 우리의 목표는 훨씬 더 큽니다. 이 시장은 기술 발전을 견인할 만큼 거대하며, 이런 경우는 흔치 않지만 우리는 운 좋게도 그런 특별한 사례를 발견한 것입니다.

짧게 요약하면, 2012년 AlexNet이 작은 불씨를 피웠고, 이는 인공지능과 엔비디아 GPU의 첫 만남이었습니다. 이 사건은 우리가 이 분야에서 신비로운 여정을 시작했음을 알리는 신호탄이 되었습니다. 몇 년 후, 우리는 오늘날의 발전을 위한 완벽한 적용 사례를 찾았습니다.

요컨대, 이러한 성취는 생성형 인공지능 발전의 기반을 마련했습니다. 생성형 AI는 이미지를 식별하는 것을 넘어, 텍스트를 이미지로 변환하거나 완전히 새로운 콘텐츠를 만들어낼 수 있습니다. 이제 우리는 픽셀을 이해하고, 그 의미를 파악할 수 있을 만큼 기술적 역량을 갖추게 되었습니다. 그 의미를 바탕으로 새로운 콘텐츠를 창조할 수 있게 된 것입니다. 데이터를 통해 그 이면의 의미를 이해하는 AI의 능력은 거대한 변화입니다.

우리는 이것이 완전히 새로운 산업혁명의 시작이라고 확신합니다. 이 혁명 속에서 우리는 이전에 없던 것을 창조하고 있습니다. 예를 들어, 과거 산업혁명에서 물은 에너지원이었고, 물이 우리 인간이 만든 장치 안으로 들어가면 발전기가 작동하여 ‘물 들어감, 전기 나옴’이라는 마법 같은 일이 발생했습니다.

생성형 AI는 완전히 새로운 형태의 ‘소프트웨어’이며, 소프트웨어를 스스로 생성할 수도 있습니다. 이는 많은 과학자들의 공동 노력에 의존합니다. 당신이 AI에게 원료—데이터를 제공하면, 그것이 GPU라는 ‘건물’ 안으로 들어가 신기한 결과물을 출력하는 상상을 해보세요. 이는 모든 것을 재편하고 있으며, 우리는 ‘AI 공장’의 탄생을 목격하고 있습니다.

이러한 변화는 완전히 새로운 산업혁명이라 불릴 수 있습니다. 과거에는 이런 변화를 경험한 적이 없지만, 지금 그 변화가 우리 앞에서 서서히 펼쳐지고 있습니다. 앞으로의 10년을 놓치지 마십시오. 이 10년 동안 우리는 거대한 생산력을 창출할 것입니다. 시간의 시곗바늘은 이미 움직이기 시작했고, 우리의 연구자들도 이미 움직이고 있습니다.

오늘 우리는 트랜스포머의 창시자들을 초청하여, 미래의 생성형 AI가 우리를 어디로 이끌어갈지 함께 논의하고자 합니다.

그들은 다음과 같습니다:

Ashish Vaswani：2016년 구글 브레인 팀에 합류. 2022년 4월 니키 파르마르와 함께 Adept AI를 공동 창업했으며,同年 12월 해당 회사를 떠나 또 다른 AI 스타트업 Essential AI를 공동 설립함.

Niki Parmar：구글 브레인에서 4년간 근무. 이후 Ashish Vaswani와 함께 Adept AI와 Essential AI를 공동 창업함.

Jakob Uszkoreit：2008년부터 2021년까지 구글에서 근무. 2021년 구글을 떠나 Inceptive를 공동 창업. 이 회사는 인공지능 생명과학을 주 사업으로 하며, 신경망과 고속 실험을 활용해 차세대 RNA 분자를 설계함.

Illia Polosukhin：2014년 구글에 입사. 여덟 명의 공동 저자 중 가장 먼저 회사를 떠난 인물로, 2017년 NEAR Protocol이라는 블록체인 회사를 공동 창업함.

Noam Shazeer：2000년부터 2009년, 그리고 2012년부터 2021년까지 구글에서 근무. 2021년 구글을 떠나 전직 구글 엔지니어 Daniel De Freitas와 함께 Character.AI를 공동 창업함.

Llion Jones：Delcam, YouTube에서 근무. 2012년 구글에 합류하여 소프트웨어 엔지니어로 근무. 이후 구글을 떠나 AI 스타트업 sakana.ai를 창업함.

Lukasz Kaiser：프랑스 국립과학연구소(CNRS) 연구원 역임. 2013년 구글에 합류. 2021년 구글을 떠나 OpenAI의 연구원이 됨.

Aidan Gomez：캐나다 토론토 대학교 졸업. 트랜스포머 논문 발표 당시 그는 구글 브레인 팀의 인턴이었다. 여덟 명 중 두 번째로 구글을 떠났으며, 2019년 Cohere를 공동 창업함.

젠슨 황：오늘 여기 모이신 여러분께 말씀드리는데, 적극적으로 발언권을 차지하시기 바랍니다. 여기서는 어떤 주제도 다뤄도 괜찮습니다. 의자에서 뛰어올라 토론하셔도 좋습니다. 가장 기본적인 질문부터 시작하겠습니다. 당시 어떤 문제에 직면했으며, 트랜스포머를 만들게 된 계기는 무엇이었습니까?

Illia Polosukhin：검색 결과를 실제로 읽을 수 있는 모델을 배포하고자 한다면, 예를 들어 수많은 문서를 처리해야 한다면, 정보를 빠르게 처리할 수 있는 모델이 필요합니다. 당시의 순환 신경망(RNN)은 이러한 요구를 충족시키지 못했습니다.

실제로 당시에는 RNN과 일부 초기의 주의 메커니즘(arnens)이 주목을 받았지만, 여전히 단어 하나하나를 순차적으로 읽어야 해서 효율성이 떨어졌습니다.

Jakob Uszkoreit：우리가 훈련 데이터를 생성하는 속도가 최첨단 아키텍처를 훈련하는 능력을 훨씬 초과하고 있었습니다. 실제로 우리는 더 단순한 아키텍처를 사용했는데, 예를 들어 n-gram을 입력 특징으로 사용하는 피드포워드 네트워크입니다. 이러한 구조는 구글 규모의 방대한 훈련 데이터에서 훈련 속도가 더 빠르기 때문에, 더 복잡하고 진보된 모델들보다 일반적으로 우세했습니다.

그 당시 강력한 RNN, 특히 장단기 기억(LSTM) 네트워크가 이미 존재했습니다.

Noam Shazeer：이건 해결해야 할 절박한 문제가 분명했습니다. 우리는 약 2015년경부터 이미 스케일링 법칙(scaling law)을 눈치채기 시작했고, 모델 규모가 커질수록 지능 수준이 올라가는 것을 확인할 수 있었습니다. 세상 역사상 가장 훌륭한 문제 같았죠. 아주 단순합니다. 단지 다음 토큰을 예측할 뿐인데, 그렇게 똑똑해져서 백만 가지 다른 일을 할 수 있게 되는 것입니다. 그냥 규모를 키우고 더 잘 만들기만 하면 되는 거죠.

하지만 큰 좌절감은 RNN이 처리하기에 너무 번거롭다는 것이었습니다. 그러다 누군가 "합성곱이나 주의 메커니즘으로 대체하자"고 말하는 것을 우연히 듣게 되었죠. 그래서 저는 "좋아, 그렇게 하자!"라고 생각했습니다. 저는 트랜스포머를 증기기관에서 내연기관으로의 도약에 비유하고 싶습니다. 증기기관으로 산업혁명을 완수할 수도 있었겠지만, 그건 정말 고통스러웠을 겁니다. 반면 내연기관은 모든 것을 훨씬 더 나아지게 만들었습니다.

Ashish Vaswani：대학원 시절부터 쓰라린 교훈을 얻기 시작했습니다. 특히 기계번역을 연구할 때 말입니다. "난 복잡한 언어 규칙을 배우지 않겠다"고 깨달았죠. 저는 우리가 모델을 훈련하는 방법인 그래디언트 디센트(Gradient Descent)가 저보다 훨씬 뛰어난 선생님이라고 생각했습니다. 그래서 저는 규칙을 배우지 않고, 그래디언트 디센트가 제 모든 일을 대신해 주기를 바랐습니다. 이것이 제가 얻은 두 번째 교훈이었습니다.

이러한 쓰라린 교훈을 통해 저는 확장 가능한 일반적인 아키텍처가 결국 장기적으로 승리한다는 것을 배웠습니다. 오늘날은 토큰일 수 있지만, 내일은 컴퓨터에서 수행하는 행동일 수도 있습니다. 그러면 그것들은 우리의 활동을 모방하기 시작하고, 우리가 하는 많은 일들을 자동화할 수 있게 될 것입니다. 우리가 논의한 바와 같이, 트랜스포머, 특히 자기 주의 메커니즘은 매우 광범위하게 적용될 수 있으며, 그래디언트 디센트를 더 좋게 만듭니다. 또한 물리학도 중요한데, 노엄(Noam)에게 배운 것은 행렬 곱셈이 좋은 아이디어라는 점입니다.

Noam Shazeer：이 패턴은 계속 반복됩니다. 당신이 수많은 규칙을 추가할 때마다, 결국 그래디언트 디센트가 그 규칙들을 배우는 데 있어 당신보다 더 뛰어납니다. 그렇습니다. 우리가 계속해온 딥러닝처럼, 우리는 GPU 모양의 AI 모델을 만들고 있습니다. 그런데 지금 우리는 슈퍼컴퓨터 모양의 AI 모델을 만들고 있습니다. 네, 맞습니다. 슈퍼컴퓨터가 지금 바로 모델입니다. 그렇습니다. 슈퍼컴퓨터란 말은 단지 당신들에게 우리가 슈퍼컴퓨터를 모델의 형태로 만들고 있다는 것을 알려주는 것입니다.

젠슨 황：그러면 여러분이 해결하고자 했던 문제는 무엇입니까?

Lukasz Kaiser：기계 번역입니다. 5년 전만 해도 이 과정은 매우 어렵게 느껴졌습니다. 데이터를 수집하고, 아마 번역을 했겠지만, 결과는 겨우 맞는 정도였습니다. 당시 수준은 기초적이었습니다. 그러나 지금은, 데이터 없이도 번역을 배우는 모델이 있습니다. 한 언어와 다른 언어를 제공하기만 하면, 모델 스스로 번역을 배웁니다. 이 능력은 자연스럽게 나타나며, 그 효과는 만족스럽습니다.

Llion Jones：하지만 '주의(Attention)'라는 직관이 바로 필요한 것이었습니다. 그래서 저는 이 제목을 떠올렸습니다. 사실 제목을 찾는 과정에서 일어난 일입니다.

우리는 단지 소거 실험(ablation study)을 하고 있었고, 모델의 일부를 제거하면서 그것이 더 나빠지는지 보기만 했습니다. 놀랍게도, 오히려 더 좋아지기 시작했습니다. 예를 들어, 모든 합성곱을 제거하는 것이 훨씬 더 나은 결과를 가져왔습니다. 그래서 제목이 그렇게 생겨났습니다.

Ashish Vaswani：흥미로운 점은, 우리는 기본적인 프레임워크에서 출발해 여러 요소를 추가했고, 합성곱도 추가했다가 나중에는 제거했습니다. 멀티헤드 어텐션 등 다른 많은 중요한 요소들도 포함되어 있습니다.

젠슨 황：트랜스포머라는 이름은 누구의 아이디어이며, 왜 그렇게 이름 지었습니까?

Jakob Uszkoreit：우리는 이 이름을 좋아했습니다. 그냥 창의적으로 지어본 이름인데, 데이터 생산 방식을 바꾸고, 이러한 논리를 사용한다는 느낌이 들었습니다. 모든 머신러닝은 트랜스포머이며, 모두 파괴자입니다.

Noam Shazeer：우리는 이전에 이 이름을 생각하지 않았습니다. 이 이름은 특별히 간단해서 많은 사람들이 마음에 들어 했습니다. 저는 Yaakov 같은 여러 이름을 생각해봤지만, 결국 '트랜스포머'로 결정했습니다. 이 이름은 모델의 원리를 설명하는데, 실제로 신호 전체를 변환합니다. 이 논리에 따르면 거의 모든 머신러닝이 변환될 것입니다.

Llion Jones：트랜스포머가 사람들의 입에 오르내리는 이름이 된 것은 번역 내용뿐만 아니라, 이러한 변화를 더 포괄적인 방식으로 묘사하고자 했기 때문입니다. 우리가 특별히 훌륭했다고 생각하지는 않지만, 변화자이자 추진 엔진으로서의 논리는 있습니다. 사람들은 대규모 언어 모델, 엔진, 논리를 이해하게 되었고, 아키텍처 측면에서도 비교적 초기 단계부터 접근한 것입니다.

하지만 우리는 실제로 매우 보편적인 무언가를 창조하려는 시도를 하고 있었음을 인정했습니다. 그것은 실제로 어떤 것도 다른 것으로 변환할 수 있습니다. 트랜스포머가 이미지에 사용되었을 때 얼마나 잘 작동할지 예측하지는 못했습니다. 다소 놀라운 일이었습니다. 여러분에게는 논리적으로 들릴지 모르지만, 실제로 이미지를 블록으로 나누고 각 작은 점에 태그를 붙일 수 있다는 점입니다. 저는 이것이 초기 아키텍처에서 이미 존재했다고 생각합니다.

따라서 우리가 텐서에서 텐서로 가는 라이브러리를 만들 때, 우리가 진정으로 집중한 것은 자기회귀 훈련의 규모를 키우는 것이었습니다. 이것은 언어뿐만 아니라 이미지, 오디오 컴포넌트에도 해당됩니다.

그래서 루카쉬(Lukasz)가 번역을 하고 있다고 말했지만, 저는 그가 자신을 과소평가했다고 생각합니다. 지금 우리는 이러한 아이디어들이 모여 패턴을 이루고 모델에 통합되는 것을 보고 있습니다.

하지만 사실 모든 것이 이미 초기부터 존재했고, 이러한 아이디어들이 스며들기까지 시간이 걸렸습니다. 루카쉬(Lukasz)의 목표는 이미지에서 텍스트, 텍스트에서 이미지, 오디오에서 텍스트, 텍스트에서 텍스트에 이르는 모든 학술 데이터셋을 갖는 것이었습니다. 우리는 모든 것을 훈련해야 한다고 생각했습니다.

이 아이디어는 확장을 추진했고, 결국 성공했습니다. 텍스트를 이미지로, 이미지를 텍스트로, 텍스트를 텍스트로 번역할 수 있다는 것이 너무 흥미로웠습니다.

이를 생물학이나 생물 소프트웨어 연구에 사용하고 있습니다. 생물 소프트웨어는 컴퓨터 소프트웨어와 유사하며, 프로그램 형태로 시작하여 GPU에서 실행할 수 있도록 컴파일하는 방식입니다.

생물 소프트웨어의 생명은 특정 행동의 명세에서 시작됩니다. 예를 들어, 세포 속 특정 단백질처럼 단백질을 출력하고 싶다고 가정합시다. 그런 다음 딥러닝을 사용하여 그것을 RNA 분자로 변환하는 방법을 배우게 됩니다. 실제로 세포에 들어가면 이러한 행동을 나타냅니다. 따라서 이 아이디어는 단순히 영어로 번역하는 것을 넘어서는 것입니다.

젠슨 황：여러분은 이러한 모든 것을 생산할 대규모 실험실을 만들었습니까?

Aidan Gomez：사실 공개된 자료가 많습니다. 이러한 데이터는 여전히 주로 공적 자금으로 지원되기 때문입니다. 하지만 여전히 당신이 시도하고 있는 현상을 명확히 설명하기 위한 데이터가 필요합니다.

예를 들어, 단백질 발현이나 mRNA 백신 같은 제품 모델링을 시도하는 경우, 팔로알토에는 로봇들과 실험복을 입은 사람들이 많이 있습니다. 학습 연구자들과 이전 생물학자들 모두 포함됩니다.

지금 우리는 이러한 데이터를 실제로 생성하고 분자 설계 모델을 검증함으로써 새로운 것의 선구자라고 생각합니다. 하지만 초기 아이디어는 번역이었습니다.

젠슨 황：초기 아이디어는 기계 번역이었고, 아키텍처의 강화와 돌파구에서 본 핵심 전환점은 무엇이며, 그것이 트랜스포머 설계에 어떤 영향을 미쳤습니까?

Aidan Gomez：여정을 되돌아보면, 여러분 모두가 봤듯이, 기본 트랜스포머 설계 위에 정말 큰 추가 기여가 있었습니까? 저는 추론 측면에서 이미 모델을 가속화하고 더 효율적으로 만들기 위한 많은 작업이 있었다고 생각합니다.

저는 여전히 불편한 감정이 듭니다. 왜냐하면 우리의 원형이 너무 비슷하기 때문입니다. 저는 세상이 트랜스포머보다 더 나은 무언가를 필요로 한다고 생각합니다. 자리에 앉은 우리 모두가 그것이 다른 무언가로 대체되어 새로운 성능의 고지를 열어주기를 바라고 있다고 생각합니다.

자리에 계신 각자에게 질문하고 싶습니다. 다음에 무엇이 온다고 생각하십니까? 6~7년 전의 것과 너무 비슷하기 때문에 흥미로운 단계라고 생각합니다. 그렇지 않습니까?

Llion Jones：네, 사람들이 말씀하신 유사성에 놀랄 것이라고 생각합니다. 사람들은 제가 이 논문의 저자이기 때문에 자주 “다음은 무엇입니까?”라고 묻습니다. 마법처럼 마법봉을 휘두르면 다음 단계가 나타날 것 같지 않습니까? 저는 이 특정 원리가 어떻게 설계되었는지 지적하고 싶습니다. 우리는 더 나아지는 것뿐 아니라 명백하게 더 나아져야 합니다.

왜냐하면 약간 더 나은 정도라면 인공지능 산업 전체를 새롭게 이끌어내기에 충분하지 않기 때문입니다. 따라서 우리는 원래 모델에 갇혀 있습니다. 비록 기술적으로 지금 우리가 가진 것 중 가장 강력한 것은 아닐지라도 말입니다.

하지만 누구나 자신이 원하는 개인 도구를 알고 있습니다. 더 나은 컨텍스트 윈도우를 원하고, 더 빠르게 토큰을 생성할 수 있기를 원합니다. 그런데 저는 이 답변이 마음에 들지 않을지도 모르겠습니다. 지금 모델들이 너무 많은 컴퓨팅 자원을 사용하고 있기 때문입니다. 저는 많은 낭비가 있다고 생각합니다. 우리는 효율성을 높이기 위해 노력하고 있습니다. 감

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

腾讯科技