시쿼이아 캐피털: 생성형 AI, 창의적인 새로운 세계

작성자: Sonya Huang 및 Pat Grady
번역: TechFlow
AIGC(AI-Generated Content, 인공지능 생성 콘텐츠)는 최근 핫한 주제로, 다양한 애플리케이션이 등장하며 AI가 생성하는 이미지, 텍스트, 오디오, 심지어 영상까지도 점차 일상생활에 스며들고 있다.
몇 시간 전, 실리콘밸리 소재 시쿼이아 캐피털(Sequoia Capital)은 미국 웹사이트에 최신 보고서 《Generative AI: A Creative New World》를 발표했다. 이는 새로운 패러다임 전환(Paradigm shift)의 시작을 알리는 신호일까?
함께 이 글을 살펴보자. 원문의 저자는 시쿼이아의 파트너인 Sonya Huang과 Pat Grady이며, 흥미롭게도 저자 명단에는 GPT-3라는 이름도 명시되어 있고, 삽입된 이미지도 Midjourney를 사용해 생성했다. 이 글 자체가 AIGC의 실제 사례인 셈이다. 아래는 해당 원문의 번역본으로, 여러분에게 새로운 통찰과 사고의 전환을 제공하길 바란다.
서론
사람은 사물을 분석하는 데 능숙하지만, 기계는 그러한 작업에서 인간보다 더 나은 성능을 보인다. 기계는 데이터 세트를 분석하고 사기 탐지나 스팸 필터링, 배송 시간 예측, 또는 어떤 TikTok 동영상을 보여줄지 결정하는 등 다양한 용도(use case)에서 패턴을 찾아낸다. 이러한 과업에서 기계는 점점 더 똑똑해지고 있으며, 이를 '분석형 AI(Analytical AI)' 혹은 전통적 AI라고 부른다.
그러나 인간은 분석뿐 아니라 창조에도 능하다. 우리는 시를 짓고, 제품을 설계하며, 게임을 만들고, 코드를 작성한다. 최근까지 기계는 창의적인 작업에서 인간과 경쟁할 기회가 없었으며, 분석적이고 기계적인 인지 작업에만 국한되었다. 하지만 이제 기계는 의미 있고 아름다운 것을 창조하기 시작했고, 이 새로운 카테고리를 '생성형 AI(Generative AI)'라 부른다. 즉, 기존에 존재하는 것을 분석하는 것이 아니라, 기계가 새로운 무언가를 생성한다는 의미이다.
생성형 AI는 점점 더 빠르고 저렴할 뿐 아니라, 일부 경우 인간보다 더 우수한 결과를 낸다. 소셜미디어에서 게임, 광고, 건축, 프로그래밍, 그래픽 디자인, 제품 설계, 법률, 마케팅, 영업에 이르기까지, 원래 인간의 창작이 필요한 모든 산업은 기계에 의해 재창조될 준비를 하고 있다. 일부 기능은 생성형 AI에 의해 완전히 대체될 수 있으며, 다른 기능들은 인간과 기계 간 밀접한 반복적 창작 주기 속에서 더욱 발전할 가능성이 크다. 그러나 생성형 AI는 광범위한 최종시장에서 더 좋고, 더 빠르고, 더 저렴한 창작을 가능하게 할 것이다. 사람들이 꿈꾸는 미래는 바로 생성형 AI가 창작 및 지식 작업의 한계 비용을 제로로 만든다는 것으로, 이는 막대한 노동 생산성과 경제적 가치를 만들어낼 것이며, 그에 상응하는 시가총액을 형성할 것이다.
생성형 AI가 다룰 수 있는 분야는 지식 작업과 창의적 작업을 포함하며, 이는 수십억 명의 인적 자원을 아우른다. 생성형 AI는 이러한 인력의 효율성과 창의성을 최소 10% 이상 향상시킬 수 있으며, 단순히 더 빠르고 효율적인 것을 넘어서 과거보다 더 큰 역량을 갖추게 된다. 따라서 생성형 AI는 수조 달러 규모의 경제적 가치를 창출할 잠재력을 지닌다.
01. 왜 지금인가?
생성형 AI와 더 넓은 범위의 AI가 공유하는 '왜 지금인가(Why now)'라는 질문에 대한 답은 다음과 같다: 더 나은 모델, 더 많은 데이터, 더 많은 컴퓨팅 파워. 이 분야의 변화 속도는 우리가 포착할 수 있는 것보다 빠르지만, 최근의 역사적 맥락을 되짚어볼 필요가 있다.
제1물결: 소형 모델(small models)의 시대 (2015년 이전): 언어 이해 분야에서 소형 모델이 '최첨단(advanced)'으로 여겨졌다. 이 모델들은 교통시간 예측이나 사기 분류 같은 분석 작업에 적합했으나, 일반적인 생성 과업에서는 표현력이 부족했다. 인간 수준의 글쓰기나 코드 생성은 여전히 공상에 불과했다.
제2물결: 규모의 경쟁 (2015년~현재): Google Research의 획기적인 논문 'Attention is All You Need'(https://arxiv.org/abs/1706.03762)은 자연어 이해를 위한 새로운 신경망 구조인 트랜스포머(transformer)를 소개했는데, 이는 고품질 언어 모델을 생성하면서 동시에 더 높은 병렬 처리를 가능하게 하였고, 학습 시간도 줄였다. 이러한 모델은 단순한 학습기로서 특정 분야에 비교적 쉽게 맞춤화할 수 있었다.

실제로 모델이 커질수록 인간 수준의 결과를 내기 시작했고, 이후 초월적인 수준까지 도달했다. 2015년부터 2020년 사이, 이러한 모델을 훈련시키는 데 필요한 컴퓨팅 양은 6개의 수량급 증가했으며, 글쓰기, 음성, 이미지 인식, 독해, 언어 이해 등 여러 분야에서 인간을 능가하는 성능을 보였다. 특히 OpenAI의 GPT-3는 두드러진데, GPT-2 대비 성능이 크게 향상되었으며, 코드 생성에서부터 농담 작성까지 다양한 작업에서 인상적인 Twitter 데모를 선보였다.
기초 연구가 모두 진전되었음에도 불구하고, 이러한 모델들은 보편적이지 못했다. 크기가 방대하여 실행이 어렵고(특정 GPU 구성 필요), 광범위하게 접근하거나 사용하기 어려웠으며(비공개 또는 폐쇄 테스트), 클라우드 서비스로 이용 시 비용이 매우 비쌌다. 이러한 제약에도 불구하고 초기 생성형 AI 애플리케이션들이 시장에 진입하기 시작했다.
제3물결: 더 나아지고, 더 빠르며, 더 저렴해짐 (2022+): 컴퓨팅 비용이 점점 낮아졌고, 확산 모델(diffusion models)과 같은 새로운 기술들이 훈련 및 실행 비용을 감소시켰다. 연구자들은 계속해서 더 나은 알고리즘과 더 큰 모델을 개발하고 있으며, 개발자의 접근 권한은 폐쇄 테스트에서 공개 테스트 또는 일부 경우에는 오픈소스로 확대되고 있다.
LLM(Large Language Model, 대규모 언어 모델)에 관심 있는 개발자들에게는 이제 탐색과 애플리케이션 개발의 문이 열렸으며, 관련 앱들이 쏟아져 나오기 시작했다.

제4물결: 킬러 앱의 등장 (현재): 플랫폼 계층이 안정되면서 모델은 계속해서 더 좋아지고, 빨라지며, 저렴해지고 있으며, 모델 접근이 무료 또는 오픈소스로 흐르고 있고, 애플리케이션 계층의 창의성도 성숙 단계에 이르렀다.
GPS, 카메라, 네트워크 연결 등의 새로운 기능을 통해 모바일 기기에서 새로운 유형의 앱이 등장했듯이, 우리는 이러한 대규모 모델들이 생성형 AI 애플리케이션의 새로운 물결을 촉발할 것으로 예상한다. 10년 전 모바일 인터넷의 전환점이 몇 가지 킬러 앱에 의해 열렸던 것처럼, 생성형 AI의 킬러 앱들도 나타날 것이며, 경쟁은 본격화될 것이다.
02. 시장 구조
다음은 각 카테고리에 동력을 제공하는 플랫폼 계층과 그 위에 구축될 수 있는 잠재적 애플리케이션 유형을 설명하는 개념도이다.

모델
텍스트(Text)는 가장 발전된 분야이지만, 자연어를 정확하게 사용하는 것은 어렵고 품질이 중요하다. 현재 이러한 모델은 중·단문 형태의 일반적인 글쓰기에서 상당히 탁월하지만, 대부분 반복 작업이나 초안 작성에 활용된다. 시간이 지남에 따라 모델은 점점 더 나아지며, 고품질 출력, 장문의 콘텐츠, 특정 수직 분야에서의 심화된 전문성 등을 기대할 수 있다.
코드 생성(Code generation)은 단기적으로 개발자 생산성에 큰 영향을 미칠 수 있으며, GitHub CoPilot이 이를 입증하고 있다. 또한, 코드 생성은 비개발자들이 창의적으로 코드를 사용할 수 있게 해줄 것이다.
이미지(Images)는 최근 등장한 현상이지만, 이미 바이러스처럼 퍼지고 있다. 트위터에서 생성된 이미지를 공유하는 것은 텍스트보다 훨씬 더 흥미롭다! 우리는 다양한 미학 스타일의 이미지 모델과 생성된 이미지를 편집하고 수정하기 위한 다양한 기술이 등장하고 있음을 목격하고 있다.
음성 합성(Speech synthesis)은 이미 어느 정도 존재해왔지만, 소비자 및 기업용 애플리케이션은 이제 막 시작 단계이다. 영화나 팟캐스트와 같은 고급 애플리케이션에서는 기계적이지 않고 인간 수준의 음성이 요구되므로 높은 장벽이 존재한다. 그러나 이미지와 마찬가지로 오늘날의 모델은 최적화나 애플리케이션의 최종 출력을 위한 출발점 역할을 한다.
영상 및 3D 모델은 아직 많이 뒤처져 있지만, 영화, 게임, 가상현실(VR), 건축, 실물 제품 설계 등 거대한 창의적 시장을 열 수 있다는 가능성 때문에 많은 기대를 받고 있다. 향후 1~2년 내에 기본적인 3D 및 비디오 모델의 등장을 기대할 수 있다.
오디오 및 음악에서 생물학, 화학에 이르기까지 다른 많은 분야에서도 기반 모델 개발이 진행 중이다. 다음 그림은 기반 모델의 발전과 관련 애플리케이션이 가능해지는 시기를 보여주며, 2025년 이후 부분은 추측에 불과하다.

애플리케이션
다음은 우리를 흥분하게 하는 몇 가지 애플리케이션 예시이다. 이는 일부에 불과하며 실제로 존재하는 애플리케이션은 훨씬 많다. 우리는 창립자들과 개발자들이 꿈꾸는 창의적인 앱들에 매료되어 있다.
카피라이팅(Copywriting): 판매 및 마케팅 전략, 고객 지원을 위해 개인화된 웹페이지와 이메일 콘텐츠에 대한 수요가 늘고 있는데, 이는 언어 모델의 완벽한 활용처이다. 이러한 카피는 형식이 단순하고 템플릿화되어 있으며, 팀의 시간과 비용 압박이 크기 때문에 자동화 및 강화 솔루션에 대한 수요가 크게 증가할 것이다.
수직산업별 작문 보조기(Vertical specific writing assistants): 현재 대부분의 작문 보조기는 일반형이지만, 법률 계약 작성에서부터 각본 작성까지 특정 종단시장에 맞춘 더 나은 생성형 앱을 구축할 기회가 크다고 믿는다. 여기서 제품 차별화는 특정 업무 흐름(workflow)에 맞춰 조정된 모델과 UX 상호작용에 있다.
코드 생성(Code generation): 현재 앱들은 개발자를 지원하여 업무 효율을 크게 향상시키고 있다. Copilot이 설치된 프로젝트에서는 전체 코드의 약 40%를 생성한다. 그러나 더 큰 기회는 일반 사용자에게 프로그래밍 능력을 부여하는 것이며, '프롬프트 학습(learning to prompt)'이 궁극적인 고급 프로그래밍 언어가 될 수 있다.
예술 생성(Art generation): 전체 미술사와 대중문화 세계가 이제 이러한 대규모 모델에 인코딩되었으며, 이는 누구라도 평생 걸릴 수 있었던 주제와 스타일을 자유롭게 탐색할 수 있게 한다.
게임(Gaming): 여기서의 꿈은 자연어로 복잡한 장면이나 조작 가능한 모델을 생성하는 것이다. 이 최종 상태까지는 아직 멀었지만, 단기적으로는 질감 생성 및 스카이박스 아트(skybox art)와 같은 더 직접적인 선택지가 있다.
미디어/광고(Media/Advertising): 소비자에게 실시간으로 광고 카피와 크리에이티브를 최적화하는 자동 에이전트의 잠재력을 상상해보라. 다중모달 생성의 훌륭한 기회는 판매 메시지를 보완하는 시각 효과와 결합하는 것이다.
디자인(Design): 디지털 및 실물 제품의 프로토타이핑은 반복적인 노동 집약적 과정이지만, AI가 대략적인 스케치와 프롬프트를 기반으로 고품질 렌더링을 만드는 것은 이미 현실이 되었다. 3D 모델이 등장함에 따라, 디자인 생성 과정은 제조와 생산을 넘어 실물 제품으로 확장될 것이며, 당신의 다음 아이폰 앱이나 운동화는 기계가 설계할 수도 있다.
소셜미디어 및 디지털 커뮤니티(Social media and digital communities): 생성 도구를 사용해 자기 표현의 새로운 방식이 존재할까? Midjourney 같은 새로운 앱이 소셜 네트워크에서 인간처럼 창작하는 법을 배우게 되면, 새로운 소셜 경험을 창출할 것이다.

03. 생성형 AI 애플리케이션 분석
생성형 AI 애플리케이션은 어떤 모습일까? 다음은 몇 가지 예측이다:
지능 및 모델 미세조정
생성형 AI 앱은 GPT-3 또는 Stable Diffusion과 같은 대규모 모델 위에 구축된다. 이러한 앱이 더 많은 사용자 데이터를 확보하면 모델을 미세 조정(fine-tune)할 수 있으며, 특정 문제 공간에 대해 모델의 품질과 성능을 개선할 수 있고, 동시에 모델의 크기와 비용을 줄일 수 있다.
생성형 AI 앱을 대규모 일반 모델이라는 '거대한 두뇌(big brain)' 위에 위치한 '작은 두뇌(little brain)'로서 UI 계층이라고 생각할 수 있다.
형성 요인
현재 생성형 AI 앱은 기존 소프트웨어 생태계 내에서 플러그인 형태로 존재하는 경우가 많다. 예를 들어 IDE 내 코드 생성, Figma 또는 Photoshop 내 이미지 생성, 디스코드 봇은 디지털 소셜 커뮤니티 내 생성형 AI 도구로 활용된다.
또한 Jasper, Copy.ai와 같은 카피라이팅 웹앱, Runway와 같은 비디오 편집 앱, Mem과 같은 노트 앱 등 소수의 독립형 생성형 AI 웹앱도 존재한다.
플러그인 형태는 생성형 AI 앱의 초기 진입점으로서 좋은 전략이 될 수 있다. 이는 사용자 데이터와 모델 품질 사이에서 발생하는 '닭과 달걀' 문제를 해결할 수 있다. 즉, 모델을 개선하기 위해 충분한 사용 데이터를 확보하려면 배포가 필요하지만, 좋은 모델이 있어야 사용자가 유입되는 모순적인 상황을 극복할 수 있다. 이 전략은 소비자 및 소셜 시장 등 다른 시장 카테고리에서도 성공한 바 있다.
상호작용 패러다임
현재 대부분의 생성형 AI 데모는 '일회성(one-off)'이다. 입력을 제공하면 기계가 출력을 생성하고, 이를 유지하거나 버린 후 다시 시도한다. 미래에는 모델이 반복적 작업을 지원하게 되어, 출력물을 기반으로 수정, 조정, 업그레이드 및 변형을 생성할 수 있게 될 것이다.
현재 생성형 AI 출력물은 프로토타입이나 초안으로 사용된다. 앱은 창작 과정을 계속하기 위해 여러 가지 서로 다른 아이디어를 잘 제시한다(예: 로고나 건축 디자인의 다양한 옵션). 또한 초안 작성에는 매우 능숙하지만, 최종 마무리는 사용자가 수작업으로 다듬어야 한다(예: 블로그 포스트나 코드 자동 완성). 모델이 점점 더 지능화되고, 일부는 사용자 데이터를 활용함에 따라, 이러한 초안은 점점 더 좋아져 결국 최종 제품으로 사용할 수 있을 정도가 될 것이다.
지속적인 산업 리더십
최고의 생성형 AI 기업은 사용자 유대감, 데이터, 모델 성능 사이에 형성된 피드백 루프를 통해 지속 가능한 경쟁 우위를 창출할 수 있다. 승리하기 위해 팀은 다음 방법을 통해 이 피드백 루프를 실현해야 한다:
탁월한 사용자 유대감 → 더 많은 유대감을 더 나은 모델 성능으로 전환(신속한 개선, 모델 미세조정, 사용자 선택을 레이블링된 훈련 데이터로 활용) → 탁월한 모델 성능을 통해 더 많은 사용자 성장 및 유지 유도.
그들은 모든 사람의 문제를 해결하려는 것보다 특정 분야(예: 코드, 디자인, 게임)에 집중할 수 있다. 먼저 기존 앱에 깊이 통합하여 배포와 활용을 극대화한 후, 기존 앱을 AI 중심의 워크플로로 대체하려는 시도를 할 수 있다. 이러한 앱을 올바른 방식으로 구축하여 사용자와 데이터를 축적하는 데는 시간이 걸리지만, 가장 좋은 앱은 오랫동안 지속되며 거대한 규모로 성장할 기회를 가질 것이라 믿는다.
04. 어려움과 위험
생성형 AI는 막대한 잠재력을 지녔지만, 비즈니스 모델과 기술 측면에서 해결해야 할 많은 문제가 남아 있다. 예를 들어 저작권, 신뢰성, 보안, 비용 등 중요한 이슈들이 여전히 해결되지 않았다.
05. 시야를 넓히기
생성형 AI는 여전히 매우 초기 단계이다. 플랫폼 계층은 겨우 시작되었고, 애플리케이션 계층은 이제 막 발걸음을 뗀 상태다.
명확히 해두자. 생성형 AI가 톨스토이 소설을 쓰도록 할 필요는 없다. 이러한 모델은 이미 블로그 초안 작성, 로고 및 제품 인터페이스 프로토타이핑에 사용할 수 있을 만큼 충분히 우수하며, 중단기적으로도 막대한 가치를 창출할 것이다.
생성형 AI 앱의 첫 번째 물결은 아이폰 등장 초기의 모바일 앱과 유사하다. 다소 트릭 같고 내용이 얇으며, 경쟁 차별화와 비즈니스 모델이 명확하지 않다. 그러나 일부 앱은 우리가 미래에 무엇이 펼쳐질 수 있을지 엿볼 수 있는 흥미로운 관점을 제공한다. 기계가 복잡한 기능 코드나 훌륭한 이미지를 생성할 수 있다는 것을 한번 목격하면, 앞으로 우리의 일과 창작 활동에서 기계가 더 이상 역할을 하지 않을 것이라고 상상하기 어려워진다.
만약 우리가 수십 년 후를 꿈꾸게 허락한다면, 생성형 AI가 우리의 일과 창작, 오락 방식에 깊이 스며든 미래를 쉽게 상상할 수 있다. 메모가 스스로 작성되고, 3D 프린터로 상상할 수 있는 모든 것을 인쇄하며, 텍스트로부터 피트(Pixar) 영화 수준의 작품이나 Roblox와 같은 게임 경험을 통해 빠르게 풍부한 세계를 창조하는 세상 말이다. 오늘날 이러한 것들은 공상과학처럼 보일 수 있지만, 기술 발전의 속도는 놀랍다. 좁은(narrow) 언어 모델에서 코드 자동 생성까지는 단지 몇 년밖에 걸리지 않았다. 만약 우리가 이 변화의 속도를 계속 유지하고 '대규모 모델 무어의 법칙(Large Model Moore's Law)'을 따른다면, 지금은 도달하기 어려워 보이는 미래도 손에 닿을 만큼 가까워질 것이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












