
Sora 등장으로 2024년, AI+Web3 변혁의 원년이 될까?
작가: YBB Capital Zeke

서론
2월 16일, OpenAI는 최신 텍스트 기반 영상 생성 확산 모델 "Sora"를 공개했다. 다양한 시각 데이터 유형을 포괄하는 고품질의 생성 영상을 통해 생성형 AI의 또 하나의 이정표를 선보였다. Pika 같은 AI 영상 생성 도구가 아직 여러 장의 이미지를 조합해 몇 초 분량의 영상을 만드는 단계에 머물러 있는 것과 달리, Sora는 영상과 이미지의 압축된 잠재 공간에서 학습하며 이를 시공간적 패치로 분해함으로써 확장 가능한 영상 생성이 가능하게 되었다. 더불어 이 모델은 물리 세계와 디지털 세계를 시뮬레이션하는 능력까지 보여주었으며, 발표된 60초 데모 영상을 두고 '물리 세계의 범용 시뮬레이터'라 부르는 것도 지나치지 않다.
또한 Sora는 기존 GPT 모델이 채택했던 '원천 데이터-트랜스포머-확산-이머전스(emergence)'라는 기술 경로를 계승하고 있다. 즉, 이 모델의 성숙도 역시 컴퓨팅 파워를 엔진으로 필요로 하며, 영상 학습에 필요한 데이터 양이 텍스트 학습보다 훨씬 많기 때문에 컴퓨팅 자원에 대한 수요는 더욱 커질 것이다. 우리는 이전 글인 《잠재력 있는 분야 전망: 탈중앙화 컴퓨팅 시장》에서 이미 AI 시대의 컴퓨팅 자원 중요성을 다룬 바 있으며, 최근 AI 열풍이 거세짐에 따라 많은 컴퓨팅 프로젝트들이 등장했고, 간접적으로 혜택을 받는 다른 DePIN 프로젝트들(스토리지, 컴퓨팅 등)도 이미 큰 상승세를 맞았다. 그렇다면 DePIN 외에도 Web3와 AI의 융합은 어떤 새로운 가능성을 창출할 수 있을까? 이 분야에는 어떤 기회가 숨겨져 있을까? 본문은 이전 글의 업데이트 및 보완을 목적으로 하며, AI 시대 속 Web3의 가능성에 대해 고민해보고자 한다.

AI 발전사의 세 가지 방향
인공지능(Artificial Intelligence)은 인간의 지능을 모방하고 확장하며 증강시키는 것을 목표로 하는 신생 과학기술이다. 인공지능은 20세기 50~60년대에 탄생하여 반세기가 넘는 발전을 거쳐 사회 생활과 각 산업 분야의 변혁을 주도하는 핵심 기술이 되었다. 이 과정에서 상징주의, 연결주의, 행동주의라는 세 가지 주요 연구 방향이 서로 얽히고설켜 발전하며 오늘날 AI의 급속한 성장을 위한 기반이 되었다.
상징주의(Symbolism)
논리주의 또는 규칙주의라고도 불리며, 기호를 처리함으로써 인간 지능을 모방할 수 있다고 본다. 이 방법은 문제 영역 내 객체, 개념 및 그 관계를 기호로 표현하고 조작하며, 논리적 추론을 통해 문제를 해결한다. 특히 전문가 시스템과 지식 표현 분야에서 두각을 나타냈다. 상징주의의 핵심 주장은 지능적인 행동이 기호 조작과 논리적 추론을 통해 실현될 수 있다는 것이며, 여기서 기호는 현실 세계에 대한 고도의 추상화를 의미한다.
연결주의(Connectionism)
신경망 접근법이라고도 하며, 인간 두뇌의 구조와 기능을 모방해 지능을 실현하려는 시도이다. 다수의 단순한 처리 유닛(뉴런과 유사)으로 구성된 네트워크를 만들고, 이들 유닛 사이의 연결 강도(시냅스와 유사)를 조정함으로써 학습을 수행한다. 연결주의는 데이터로부터 학습하고 일반화하는 능력을 중시하며, 패턴 인식, 분류, 연속 입력-출력 매핑 문제에 적합하다. 딥러닝은 연결주의의 진화 형태로서 이미지 인식, 음성 인식, 자연어 처리 분야에서 획기적인 성과를 거두었다.
행동주의(Behaviorism)
행동주의는 생체 모방 로봇공학 및 자율 지능 시스템 연구와 밀접한 관련이 있으며, 에이전트가 환경과의 상호작용을 통해 학습할 수 있음을 강조한다. 앞선 두 접근법과 달리 내부 표현이나 사고 과정의 모방보다는 감지와 행동의 순환을 통한 적응적 행동을 중시한다. 행동주의는 지능이 환경과의 동적 상호작용을 통해 드러난다고 보며, 복잡하고 예측 불가능한 환경에서 작동해야 하는 모바일 로봇이나 적응형 제어 시스템에 매우 효과적이다.
비록 이 세 가지 연구 방향은 본질적으로 차이가 있지만, 실제 AI 연구 및 응용에서는 상호 보완되며 융합되어 AI 분야의 발전을 함께 견인하고 있다.
AIGC 원리 개요
현재 폭발적인 성장을 겪고 있는 생성형 AI(Artificial Intelligence Generated Content, AIGC)는 연결주의의 한 진화이며 응용 형태이다. AIGC는 인간의 창의력을 모방해 독창적인 콘텐츠를 생성할 수 있다. 이러한 모델은 대규모 데이터셋과 딥러닝 알고리즘을 사용해 데이터 내 존재하는 기본 구조, 관계, 패턴을 학습한다. 사용자의 입력 프롬프트에 따라 이미지, 영상, 코드, 음악, 디자인, 번역, 답변, 텍스트 등 새로운 독창적인 출력물을 생성한다. 현재의 AIGC는 크게 세 가지 요소로 구성된다: 딥러닝(DL), 빅데이터, 대규모 컴퓨팅 파워.
딥러닝
딥러닝은 머신러닝(ML)의 하위 분야로, 딥러닝 알고리즘은 인간의 뇌를 모델링한 신경망 구조를 따른다. 인간의 뇌가 수백만 개의 상호 연결된 뉴런으로 정보를 학습하고 처리하듯, 딥러닝 신경망(또는 인공 신경망)은 컴퓨터 내에서 협업하는 다층의 인공 뉴런으로 구성된다. 인공 뉴런은 '노드'라 불리는 소프트웨어 모듈이며, 수학적 계산을 통해 데이터를 처리한다. 인공 신경망은 이러한 노드들을 활용해 복잡한 문제를 해결하는 딥러닝 알고리즘이다.

계층적으로 신경망은 입력층, 은닉층, 출력층으로 나뉘며, 각 층 사이를 연결하는 것은 파라미터이다.
● 입력층(Input Layer): 신경망의 첫 번째 층으로 외부 입력 데이터를 수신한다. 입력층의 각 뉴런은 입력 데이터의 한 특징에 대응한다. 예를 들어, 이미지 데이터 처리 시 각 뉴런은 이미지의 픽셀 값 하나에 해당할 수 있다.
● 은닉층(Hidden Layer): 입력층은 데이터를 처리하고 신경망의 더 깊은 층으로 전달한다. 은닉층은 다양한 수준에서 정보를 처리하며 새로운 정보를 수신할 때마다 행동을 조정한다. 딥러닝 네트워크는 수백 개의 은닉층을 가질 수 있으며, 여러 각도에서 문제를 분석할 수 있다. 예를 들어, 알려지지 않은 동물의 이미지를 분류해야 한다면, 기존에 아는 동물들과 비교할 수 있다. 귀 모양, 다리 개수, 눈동자 크기 등을 통해 동물을 판단할 수 있듯, 딥러닝의 은닉층도 동일하게 작동한다. 동물 이미지를 분류하려는 딥러닝 알고리즘의 각 은닉층은 동물의 서로 다른 특징을 처리하고 정확한 분류를 시도한다.
● 출력층(Output Layer): 신경망의 마지막 층으로 네트워크의 출력을 생성한다. 출력층의 각 뉴런은 가능한 출력 카테고리 또는 값을 나타낸다. 예를 들어, 분류 문제에서 각 출력 뉴런은 하나의 카테고리에 해당하며, 회귀 문제에서는 출력층에 하나의 뉴런만 있어 그 값이 예측 결과를 나타낸다.
● 파라미터: 신경망에서 서로 다른 층 사이의 연결은 가중치(Weights)와 편향(Biases) 파라미터로 표현된다. 이 파라미터들은 훈련 과정에서 최적화되어 네트워크가 데이터 내 패턴을 정확히 식별하고 예측할 수 있도록 한다. 파라미터의 증가는 신경망의 모델 용량(capacity)을 높이며, 이는 모델이 데이터 내 복잡한 패턴을 학습하고 표현할 수 있는 능력을 의미한다. 그러나 이에 비례해 컴퓨팅 파워에 대한 수요도 증가한다.
빅데이터
효과적인 훈련을 위해 신경망은 일반적으로 양이 풍부하고 다양하며 질이 높고 다원화된 데이터를 필요로 한다. 빅데이터는 머신러닝 모델의 훈련과 검증의 기반이 된다. 빅데이터를 분석함으로써 머신러닝 모델은 데이터 내 패턴과 관계를 학습하고 예측 또는 분류를 수행할 수 있다.
대규모 컴퓨팅 파워
신경망의 다층적이고 복잡한 구조, 많은 파라미터, 빅데이터 처리 요구, 반복 훈련 방식(훈련 단계에서 모델은 반복적으로 학습하며, 각 층에 대해 순전파(forward propagation)와 역전파(backward propagation)를 수행해야 하고, 활성화 함수 계산, 손실 함수 계산, 그래디언트 계산, 가중치 갱신이 포함됨), 고정밀 계산 요구, 병렬 처리 능력, 최적화 및 정규화 기술, 모델 평가 및 검증 과정 등이 모두 고성능 컴퓨팅 자원을 필요로 한다.

Sora
OpenAI가 최신으로 발표한 영상 생성 AI 모델인 Sora는 인공지능이 다양한 시각 데이터를 처리하고 이해하는 데 있어 거대한 진보를 보여준다. 영상 압축 네트워크와 시공간 패치 기술을 채택함으로써, 전 세계 각지에서 다양한 장치로 촬영된 방대한 시각 데이터를 통일된 표현 형식으로 변환하여 복잡한 시각 콘텐츠를 효율적으로 처리하고 이해할 수 있게 되었다. 텍스트 조건화된 확산 모델(Diffusion model)에 의존하여, Sora는 텍스트 프롬프트에 따라 높은 일치성을 갖는 영상이나 이미지를 생성할 수 있으며, 매우 높은 창의성과 적응력을 보여준다.
그러나 Sora가 영상 생성과 현실 세계 상호작용 시뮬레이션에서 돌파구를 마련했음에도 불구하고 여전히 몇 가지 한계점이 존재한다. 물리 세계 시뮬레이션의 정확성, 장시간 영상 생성의 일관성, 복잡한 텍스트 명령 이해, 훈련 및 생성 효율성 등이 그것이다. 또한 Sora는 본질적으로 OpenAI의 독점적인 컴퓨팅 파워와 선제 우위를 바탕으로 '빅데이터-트랜스포머-확산-이머전스'라는 기존 기술 경로를 계속 이어가는 '폭력 미학'이라 할 수 있으며, 다른 AI 기업들은 기술적 우회를 통해 추월할 가능성도 여전히 존재한다.
비록 Sora와 블록체인의 직접적인 관련성은 낮지만, 개인적으로 향후 1~2년 안에 Sora의 영향으로 인해 다른 고품질 AI 생성 도구들이 등장하고 급속히 발전할 것이며, Web3 내 GameFi, 소셜, 창작 플랫폼, DePIN 등 다양한 분야에 영향을 미칠 것으로 생각된다. 따라서 Sora에 대한 기본적인 이해는 필수적이며, 미래의 AI가 Web3와 어떻게 효과적으로 결합할 수 있을지 고민하는 것은 중요한 과제가 될 것이다.
AI x Web3의 네 가지 융합 경로
앞서 언급했듯이, 생성형 AI가 필요로 하는 기반 인프라는 크게 세 가지뿐이다: 알고리즘, 데이터, 컴퓨팅 파워. 반면, 블록체인의 가장 큰 장점은 두 가지다: 생산관계 재편성과 탈중앙화. 따라서 두 기술이 충돌하면서 만들어낼 수 있는 경로는 다음과 같이 네 가지로 생각된다.
탈중앙화 컴퓨팅 파워
이전에 관련 글을 작성한 바 있어, 본 절은 주로 최근 컴퓨팅 시장의 현황 업데이트를 목적으로 한다. AI를 이야기할 때 컴퓨팅 파워는 항상 회피할 수 없는 핵심 요소다. Sora의 등장 이후 AI가 요구하는 컴퓨팅 수요는 이제 상상을 초월하는 수준에 이르렀다. 최근 스위스 다보스에서 개최된 2024 세계경제포럼 기간 중 OpenAI CEO 샘 알트먼은 컴퓨팅과 에너지가 현재 가장 큰 걸림돌이라며, 이 둘의 중요성은 앞으로 화폐와 맞먹을 것이라고 직설적으로 말했다. 그리고 바로 다음날인 2월 10일, 샘 알트먼은 트위터를 통해 놀라운 계획을 발표했는데, 7조 달러(2023년 중국 GDP의 약 40%에 해당)를 조달해 글로벌 반도체 산업 구조를 재편하고 칩 제국을 건설하겠다는 것이었다. 컴퓨팅 관련 글을 쓸 당시만 해도 국가의 규제와 거대 기업의 독점이 문제였는데, 이제는 한 기업이 전 세계 반도체 산업을 장악하겠다는 계획은 정말 광기 어린 발상이라 할 수 있다.
따라서 탈중앙화 컴퓨팅의 중요성은 말할 필요도 없다. 블록체인의 특성은 현재 극심한 컴퓨팅 독점 문제와 전용 GPU 구매 비용이 비싼 문제를 실제로 해결할 수 있다. AI 관점에서 컴퓨팅 활용은 훈련과 추론 두 방향으로 나뉜다. 훈련 중심 프로젝트는 현재 거의 드물다. 탈중앙화 네트워크 설계 자체가 신경망과 결합되어야 하며, 하드웨어에 대한 요구가 극도로 높기 때문에 진입 장벽이 매우 높고 실현이 극도로 어렵다. 반면 추론은 비교적 간단한데, 탈중앙화 네트워크 설계가 복잡하지 않고, 하드웨어 및 대역폭 요구도 낮아 현재 주류 방향으로 자리잡고 있다.
중앙화된 컴퓨팅 시장의 상상력은 무궁무진하며, 종종 '조 단위(万亿级)'라는 키워드와 연결된다. 또한 AI 시대에 가장 자주 과열되는 화제이기도 하다. 하지만 최근 쏟아지는 프로젝트들을 보면 대부분은 붐을 타기 위한 무리한 진출이며, 단순히 '탈중앙화'라는 올바른 깃발을 들지만, 탈중앙화 네트워크의 비효율성 문제는 함구한다. 게다가 설계가 고도로 동질화되어 있으며, 다수의 프로젝트가 매우 유사하다(클릭 한 번으로 L2 추가 + 채굴 구조). 결국 난장판이 될 가능성이 크며, 이런 상황에서 기존 AI 분야에서 시장 점유를 가져오기는 매우 어렵다.
알고리즘·모델 협업 시스템
머신러닝 알고리즘은 데이터로부터 규칙과 패턴을 학습하고 이를 바탕으로 예측이나 결정을 내릴 수 있는 알고리즘을 말한다. 알고리즘은 기술 집약적이며, 설계와 최적화에는 깊은 전문 지식과 기술 혁신이 필요하다. 알고리즘은 AI 모델 훈련의 핵심으로, 데이터가 어떻게 유용한 통찰이나 결정으로 전환되는지를 정의한다. 대표적인 생성형 AI 알고리즘으로는 생성적 적대 신경망(GAN), 변분 오토인코더(VAE), 트랜스포머(Transformer) 등이 있으며, 각 알고리즘은 특정 분야(예: 그림, 언어 인식, 번역, 영상 생성) 또는 목적을 위해 개발된 후, 이를 통해 전문화된 AI 모델을 훈련시킨다.
그렇다면 이렇게 다양한 알고리즘과 모델들이 각자 장점을 가지고 있는데, 이를 통합해 문무를 겸비한 모델을 만들 수 없을까? 최근 높은 관심을 받고 있는 Bittensor는 바로 이 방향의 선두주자다. 채굴 인센티브를 통해 다양한 AI 모델과 알고리즘이 서로 협업하고 학습하도록 하여, 더 효율적이고 다재다능한 AI 모델을 창출하려는 시도이다. 비슷한 방향을 추구하는 Commune AI(코드 협업) 등도 있지만, 알고리즘과 모델은 현재 AI 기업들에게 가장 중요한 핵심 기술이므로 쉽게 외부에 공개하지 않는다.
따라서 AI 협업 생태계라는 스토리는 매우 신선하고 흥미롭지만, 블록체인의 장점인 탈중앙화를 통해 AI 알고리즘의 '정보 고립' 문제를 해결할 수는 있으나, 실제로 가치를 창출할 수 있을지는 아직 미지수다. 사실상 주요 AI 기업들의 폐쇄형 알고리즘과 모델은 업데이트, 반복, 통합 능력이 매우 뛰어나다. 예를 들어 OpenAI는 설립된 지 2년도 되지 않아 초기 텍스트 생성 모델에서 다분야 생성 모델로 진화했다. Bittensor 등의 프로젝트는 모델과 알고리즘의 적용 분야에서 새로운 길을 찾아야 할 수도 있다.
탈중앙화 빅데이터
단순히 말해, 개인정보를 AI 훈련에 사용하거나 데이터에 라벨을 붙이는 것은 블록체인과 매우 잘 맞는 방향이다. 다만 스팸 데이터나 악의적 행위를 방지하고, 데이터 저장 측면에서 FIL, AR 등 DePIN 프로젝트들도 혜택을 볼 수 있다. 좀 더 복잡한 관점에서 보면, 블록체인 데이터를 머신러닝(ML)에 활용해 블록체인 데이터 접근성 문제를 해결하는 것도 흥미로운 방향이다(Giza의 탐색 방향 중 하나).
이론적으로 블록체인 데이터는 언제든지 접근 가능하며 전체 블록체인 상태를 반영한다. 하지만 블록체인 생태계 외부的人来说, 이 방대한 데이터를 확보하는 것은 쉽지 않다. 블록체인 하나를 완전히 저장하려면 전문적인 지식과 많은 전용 하드웨어 리소스가 필요하다. 블록체인 데이터 접근의 어려움을 해결하기 위해 업계에서는 몇 가지 솔루션이 등장했다. 예를 들어 RPC 제공업체는 API를 통해 노드에 접근할 수 있도록 하고, 인덱싱 서비스는 SQL 및 GraphQL을 통해 데이터 추출을 가능하게 한다. 이 두 가지 방법은 문제 해결에 중요한 역할을 했다. 그러나 이러한 방법에도 한계가 있다. RPC 서비스는 대량의 데이터 조회가 필요한 고밀도 사용 시나리오에는 적합하지 않으며, 자주 요구를 충족시키지 못한다. 동시에 인덱싱 서비스는 더 구조화된 데이터 검색 방식을 제공하지만, Web3 프로토콜의 복잡성으로 인해 효율적인 쿼리를 구성하는 것이 극도로 어렵고, 때로는 수백에서 수천 줄에 달하는 복잡한 코드를 작성해야 한다. 이러한 복잡성은 일반 데이터 전문가나 Web3 세부 사항을 잘 모르는 사람들에게는 큰 장벽이 된다. 이러한 제약들이 누적되면서, 블록체인 데이터에 더 쉽게 접근하고 활용할 수 있는 방법이 필요하다는 점이 부각되며, 이는 해당 분야의 보다 광범위한 응용과 혁신을 촉진할 수 있다.
따라서 ZKML(제로지식 머신러닝, 머신러닝이 블록체인에 미치는 부담을 줄임)과 고품질 블록체인 데이터를 결합하면 블록체인 접근성 문제를 해결할 수 있는 데이터셋을 만들 수 있을지도 모른다. AI는 블록체인 데이터 접근성 장벽을 크게 낮출 수 있으며, 시간이 지남에 따라 개발자, 연구자, 머신러닝 애호가들이 더 많은 고품질 관련 데이터셋에 접근할 수 있게 되어 효과적이고 혁신적인 솔루션 개발에 기여할 수 있다.
AI 기반 DApp
2023년 ChatGPT-3의 폭발적 인기를 계기로, AI 기반 DApp은 매우 흔한 방향이 되었다. 범용성이 매우 높은 생성형 AI는 API를 통해 접속되어 데이터 분석 플랫폼, 거래 로봇, 블록체인 백과사전 등의 애플리케이션을 단순화하고 지능화할 수 있다. 또한 챗봇(예: Myshell)이나 AI 동반자(Sleepless AI) 역할을 할 수 있고, 생성형 AI를 통해 체인게임 내 NPC를 창조할 수도 있다. 하지만 기술 장벽이 낮아 대부분 API를 연결한 후 미세 조정(fine-tuning)만 진행하며, 프로젝트 자체와의 결합도 충분하지 않아 거의 언급되지 않는다.
그러나 Sora의 등장 이후 개인적으로는 AI 기반 GameFi(메타버스 포함)와 창작 플랫폼 방향이 다음 주목할 핵심이 될 것으로 본다. Web3 분야는 하향식 특성상 기존 게임사나 창의 기업과 경쟁할 만한 제품을 만들기 어렵지만, Sora의 등장은 이러한 난국을 깨뜨릴 가능성이 크다(아마 2~3년 내). Sora의 데모만 봐도 이미 짧은 드라마 제작사와 경쟁할 수 있는 잠재력을 보여주며, Web3의 활발한 커뮤니티 문화는 수많은 흥미로운 아이디어를 낳을 수 있다. 제약 조건이 오직 상상력뿐일 때, 하향식 전통 산업과 상향식 산업 사이의 장벽은 무너질 것이다.
결론
생성형 AI 도구의 지속적인 발전과 함께 우리는 앞으로도 더 많은 '아이폰 순간(iPhone moments)'을 경험하게 될 것이다. 많은 사람들이 AI와 Web3의 융합을 비웃을지 모르지만, 사실 나는 현재의 방향 자체는 대부분 문제가 없다고 본다. 해결해야 할 과제는 크게 세 가지뿐이다: 필요성, 효율성, 적합성. 두 기술의 융합은 여전히 탐색 단계에 있지만, 이 분야가 다음 번 상승장의 주류가 되는 것을 막지는 못할 것이다.
새로운 사물에 항상 충분한 호기심과 수용 자세를 가지는 것은 우리가 갖춰야 할 태도다. 역사적으로 자동차가 마차를 대체한 변화는 순식간에 결정되었다. 명문(Mingwen)과 과거의 NFT처럼, 너무 많은 편견을 가지면 기회를 놓치게 된다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News









