AI 에이전트: Web3 게임의 혁신적 진화를 재정의하다

2023.10.16

AI 에이전트: Web3 게임의 혁신적 진화를 재정의하다

본문은 웹3 게임 분야에서 "범용 대규모 모델, 수직 분야 애플리케이션 에이전트 및 생성형 AI 애플리케이션"의 발전 상황을 정리했다.

2023.10.16 - 04:10:58

Web3 심층 보도에 집중하고 흐름을 통찰

본문은 웹3 게임 분야에서 "범용 대규모 모델, 수직 분야 애플리케이션 에이전트 및 생성형 AI 애플리케이션"의 발전 상황을 정리했다.

저자: PSE Trading Analyst @Minta

주요 통찰

AI 에이전트는 LLM 대규모 모델을 기반으로 하는 도구로서, 개발자와 사용자가 직접 상호작용 가능한 애플리케이션을 구축할 수 있게 해준다.
AI 분야의 미래 주요 구도는 "범용 대규모 모델 + 수직형 응용 프로그램"일 가능성이 높으며, AI 에이전트는 범용 대규모 모델과 Dapp 사이를 연결하는 중간 미들웨어 역할을 한다. 따라서 AI 에이전트의 진입 장벽은 낮아 네트워크 효과를 창출하고 사용자 체류성을 높여 장기적인 경쟁력을 강화해야 한다.
본문에서는 "범용 대규모 모델, 수직형 애플리케이션 에이전트 및 생성형 AI 애플리케이션"이 Web3 게임 분야에서 발전한 사례를 정리했다. 특히 생성형 AI 기술을 활용하면 단기간 내에 히트 게임이 나올 가능성도 매우 높다.

01 기술 개요

올해 인공 일반지능(AGI, Artificial General Intelligence) 기술의 중심에는 대규모 언어 모델(LLM, Large Language Model)이 있다. OpenAI 핵심 연구진인 Andrej Karpathy와 Lilian Weng은 LLM 기반의 AI 에이전트가 AGI 분야의 다음 중요한 발전 방향이라고 언급했으며, 많은 팀들이 LLM 기반 인공지능 에이전트(AI-Agents) 시스템을 개발하고 있다. 간단히 말해 AI 에이전트란 방대한 데이터와 복잡한 알고리즘을 사용하여 인간의 사고와 의사결정 과정을 시뮬레이션하여 자율적으로 다양한 작업과 상호작용을 수행하는 컴퓨터 프로그램이다. 예를 들어 자율주행, 음성 인식, 게임 전략 등이 포함된다. Abacus.ai의 이미지는 AI 에이전트의 기본 원리를 명확하게 설명하고 있으며, 그 절차는 다음과 같다:

인지 및 데이터 수집: 데이터 입력 또는 센서, 카메라, 마이크 등 감지 장치를 통해 게임 상태, 이미지, 소리 등의 정보를 수집한다.
상태 표현: 수집된 데이터를 에이전트가 이해할 수 있는 형태로 처리하며, 벡터 또는 텐서로 변환하여 신경망에 입력할 수 있도록 한다.
신경망 모델: 일반적으로 딥러닝 신경망 모델을 사용하여 의사결정 및 학습을 수행한다. CNN(합성곱 신경망)은 이미지 처리에, RNN(순환 신경망)은 시퀀스 데이터 처리에 사용되며, 더 고급 모델로는 트랜스포머(Transformer)의 자기주목(self-attention) 메커니즘이 있다.
강화 학습: 환경과의 상호작용을 통해 최적의 행동 전략을 학습한다. 또한 정책 네트워크(policy network), 가치 네트워크(value network), 학습 및 최적화, 탐색과 활용(exploration vs exploitation) 등의 원리도 포함된다. 예를 들어 게임 상황에서 정책 네트워크는 현재 게임 상태를 입력받아 다음 행동의 확률 분포를 출력하고, 가치 네트워크는 상태의 가치를 추정하며, 에이전트는 환경과 반복적으로 상호작용하면서 강화학습 알고리즘을 통해 정책과 가치 네트워크를 지속적으로 개선하여 더욱 완벽한 결과를 도출한다.

Source：blog.abacus.ai

요약하자면, AI 에이전트는 인지, 결정, 행동이 가능한 지능형 실체이며, 다양한 분야, 특히 게임 분야에서도 중요한 역할을 할 수 있다. OpenAI의 Lilian Weng이 작성한 "LLM Powered Autonomous Agents"는 AI 에이전트의 원리를 포괄적으로 소개하며, 그중에서도 매우 흥미로운 실험인 'Generative Agents'를 제시한다.

Generative Agents(GA)는 '심즈(The Sims)' 게임에서 영감을 얻었으며, LLM 기술을 이용해 25개의 가상 캐릭터를 생성하고, 각각 LLM 기반 에이전트에 의해 샌드박스 환경에서 생활하고 상호작용하도록 설계되었다. GA의 설계는 매우 독창적이며, LLM에 기억, 계획, 성찰 기능을 결합함으로써 이전 경험을 바탕으로 의사결정을 하고 다른 에이전트와 상호작용할 수 있도록 한다.

논문은 정책 네트워크, 가치 네트워크, 환경과의 상호작용을 통한 지속적인 훈련 및 의사결정 경로 최적화 방법을 상세히 설명한다.

원리는 다음과 같다. 메모리 스트림(Memory Stream)은 장기 기억 모듈로서 에이전트의 모든 상호작용 경험을 기록한다. 검색 모델(Retrieve)은 관련성, 신선도, 중요도를 기준으로 과거 경험(Retrieved Memories)을 제공하여 에이전트의 의사결정(Policy)을 지원한다. 반성 메커니즘(Reflect)은 과거 사건들을 요약하고, 이를 통해 미래 행동을 안내한다. Plan과 Reflect는 함께 작용하여 에이전트가 반성과 환경 정보를 실제 행동(Act)으로 전환할 수 있도록 돕는다.

Source：LLM Powered Autonomous Agents

이와 같은 흥미로운 실험은 AI 에이전트가 새로운 사회적 행동, 정보 전파, 관계 기억(예: 두 가상 캐릭터가 대화 주제를 계속 이어감), 사회 활동 조율(예: 파티를 열고 다른 캐릭터 초대) 등을 생성할 수 있음을 보여준다. 결국 AI 에이전트는 매우 흥미로운 도구이며, 게임 분야에서의 활용 가능성은 깊이 탐구할 가치가 있다.

02 기술 동향

2.1 AI 분야 동향

ABCDE의 투자 리서치 파트너 LaoBai는 실리콘밸리 VC 커뮤니티가 AI의 다음 단계 발전에 대해 내린 판단을 다음과 같이 요약했다:

수직 전문 모델은 없고, 오직 대규모 모델 + 수직 전문 애플리케이션이 존재한다.
모바일 단말기 등 엣지 기기의 데이터는 장벽이 될 수 있으며, 엣지 기기를 기반으로 한 AI 역시 기회가 될 수 있다.
컨텍스트(Context) 길이의 확장은 향후 질적 변화를 유발할 수 있다(현재는 벡터 데이터베이스를 AI의 기억 장치로 사용하지만, 여전히 컨텍스트 길이가 부족하다).

즉 산업 일반적인 발전 규칙에 따르면, 대규모 범용 모델은 무겁고 보편성이 강하기 때문에 해당 분야에서 지속적으로 새롭게 개발할 필요는 없으며, 오히려 대규모 범용 모델을 수직 분야에 적용하는 데 집중해야 한다.

또한 엣지 기기는 클라우드 컴퓨팅 센터나 원격 서버에 의존하지 않고 로컬에서 데이터 처리 및 의사결정을 수행하는 단말 장치를 의미한다. 엣지 기기의 다양성 때문에 AI 에이전트를 이러한 장치에 배포하고 적절하게 데이터를 수집하는 것은 도전이자 동시에 새로운 기회가 된다.

마지막으로 컨텍스트 문제도 큰 관심을 받고 있다. 간단히 말해, LLM 맥락에서 컨텍스트는 정보량을 의미하며, 컨텍스트 길이는 데이터의 차원 수를 의미한다. 예를 들어 전자상거래 웹사이트의 빅데이터 모델이 고객의 특정 제품 구매 가능성을 예측한다고 하면, 컨텍스트에는 사용자의 방문 기록, 구매 이력, 검색 기록, 사용자 속성 등이 포함될 수 있다. 컨텍스트 길이는 이러한 특징 정보의 차원을 겹쳐 나타내며, 예를 들어 상하이 거주 30세 남성의 경쟁사 제품 구매 이력에 최근 구매 빈도, 최근 조회 기록 등을 추가하는 식이다. 컨텍스트 길이의 증가는 모델이 사용자의 구매 결정 요인을 보다 포괄적으로 이해할 수 있도록 도와준다.

현재의 공감대는, 벡터 DB를 AI의 기억 장치로 사용하는 것이 컨텍스트 길이를 충분히 확보하지 못한다는 점에서, 향후 컨텍스트 길이에 질적인 변화가 일어날 것이며, 이후 LLM 모델은 더 길고 복잡한 컨텍스트 정보를 처리하고 이해하기 위한 고급 방법을 모색할 수 있을 것이라는 점이다. 이는 상상을 초월하는 새로운 응용 시나리오를 만들어낼 것이다.

2.2 AI 에이전트 동향

Folius Ventures는 게임 분야에서 AI 에이전트의 응용 모델을 아래 그림과 같이 정리했다:

Source：Folius Ventures - 게임 특집: Web3 게임의 북극성 찾기

그림에서 1은 LLM 모델로, 사용자의 의도를 기존의 키보드/클릭 입력에서 자연어 입력으로 전환하여 사용자 진입 장벽을 낮춘다.

그림에서 2는 AI 에이전트가 통합된 프론트엔드 Dapp으로, 사용자에게 기능 서비스를 제공하는 동시에 단말에서 사용자 습관 및 데이터를 수집할 수 있다.

그림에서 3은 다양한 AI 에이전트들로, 앱 내 기능, 봇(Bot) 등의 형태로 존재할 수 있다.

요컨대, AI 에이전트는 코드 기반 도구로서 Dapp의 기능 확장을 위한 저층 프로그램이자 플랫폼 성장의 촉매제 역할을 하며, 즉 대규모 모델과 수직형 애플리케이션을 연결하는 중간 미들웨어이다.

사용자 시나리오 측면에서 가장 먼저 AI 에이전트를 통합할 가능성이 높은 Dapp은 충분히 개방된 소셜 앱, 챗봇, 게임 등이며, 기존 Web2 트래픽 입구를 AI 에이전트를 통해 더 간편하고 친근한 AI+Web3 입구로 개조할 수도 있다. 이는 업계에서 꾸준히 논의되는 Web3 사용자 진입 장벽 하락을 의미한다.

산업 발전 법칙에 따르면, AI 에이전트가 위치한 미들웨어 계층은 극도로 경쟁적인 분야가 되기 쉬우며, 거의 진입 장벽이 없다. 따라서 AI 에이전트는 B2C 수요에 맞춰 지속적으로 사용자 경험을 향상시키는 것 외에도, 네트워크 효과를 창출하거나 사용자 체류성을 높임으로써 자신의 경쟁 우위를 강화해야 한다.

03 분야 지도

AI는 Web3 게임 분야에서 다양한 시도가 이루어지고 있으며, 이러한 시도들은 다음과 같은 카테고리로 나눌 수 있다:

범용 모델: 일부 프로젝트는 Web3 프로젝트의 요구에 맞춰 적합한 신경망 아키텍처와 범용 모델을 찾아내는 데 집중한다.
수직 응용: 수직형 애플리케이션은 게임 내 특정 문제 해결이나 특정 서비스 제공을 목표로 하며, 일반적으로 에이전트, 봇, 봇 킷(BotKits) 등의 형태로 나타난다.
생성형 AI 애플리케이션: 대규모 모델의 가장 직접적인 응용은 콘텐츠 생성이며, 게임 자체가 콘텐츠 산업이므로 게임 분야의 생성형 AI 응용은 특히 주목할 만하다. 가상 세계의 요소, 캐릭터, 퀘스트, 스토리라인 자동 생성부터 게임 전략, 의사결정, 게임 내 생태계의 자동 진화까지 가능해져 게임의 다양성과 깊이를 높일 수 있다.
AI 게임: 현재 이미 많은 게임이 AI 기술을 통합하고 있으며, 응용 시나리오는 다양하다. 아래에서 사례를 통해 설명하겠다.

3.1 범용 대규모 모델

현재 Web3는 경제 모델 설계 및 경제 생태계 발전을 위한 시뮬레이션 모델을 보유하고 있으며, 예를 들어 QTM(Quantitative Token Model)이 있다. Outlier Ventures의 Dr. Achim Struve는 ETHCC 연설에서 몇 가지 경제 모델 설계 아이디어를 언급했다. 예를 들어 경제 시스템의 안정성을 고려해 프로젝트팀이 LLM 모델을 활용해 전체 생태계를 1:1로 시뮬레이션하는 디지털 트윈(Digital Twin)을 만들 수 있다고 설명했다.

아래의 QTM(정량적 토큰 모델)은 AI 기반 추론 모델이다. QTM은 10년간의 고정 시뮬레이션 시간을 사용하며, 매 시간 단계는 한 달이다. 각 시간 단계 시작 시 토큰이 생태계로 배출되며, 모델 내에는 인센티브 모듈, 토큰 귀속 모듈, 에어드랍 모듈 등이 있다. 이후 토큰은 여러 메타 버킷(meta buckets)에 배분되고, 다시 세분화된 광의적 효용 재분배가 이루어진다. 그리고 이러한 유틸리티 도구를 통해 보상 지급 등을 정의한다. 오프체인 비즈니스 측면에서도 일반적인 자금 상황을 고려하며, 소각 또는 회수를 수행할 수 있고, 사용자 채택률을 측정하거나 사용자 채택 상태를 정의할 수도 있다.

물론 이 모델의 출력 품질은 입력 품질에 따라 좌우되므로, QTM 사용 전 충분한 시장 조사를 통해 보다 정확한 입력 정보를 확보해야 한다. 하지만 QTM 모델은 AI 기반 모델이 Web3 경제 모델에 실제로 적용된 좋은 사례이며, 많은 프로젝트팀이 QTM 모델을 기반으로 운영 난이도가 낮은 2C/2B 애플리케이션을 개발해 프로젝트팀의 사용 장벽을 낮추고 있다.

3.2 수직형 애플리케이션 에이전트

수직형 애플리케이션은 주로 에이전트 형태로 존재하며, 에이전트는 봇, 봇 킷, 가상 비서, 지능형 의사결정 지원 시스템, 각종 자동화 데이터 처리 도구 등 다양한 형태를 취할 수 있다. 일반적으로 AI 에이전트는 OpenAI의 범용 모델을 기반으로 하며, TTS(음성합성) 등 기타 오픈소스 또는 자체 개발 기술을 결합하고, 특정 데이터를 추가하여 파인튜닝(FineTune, 대규모 데이터에서 사전 훈련된 모델을 특정 분야에 맞게 추가 최적화하는 머신러닝 기술)을 수행함으로써 ChatGPT보다 특정 분야에서 더 뛰어난 성능을 발휘하는 AI 에이전트를 만든다.

현재 Web3 게임 분야에서 가장 성숙하게 적용된 것은 NFT 에이전트이다. 게임 분야의 공감대는 NFT가 반드시 Web3 게임의 핵심 구성 요소라는 점이다.

이더리움 생태계 내 메타데이터 관리 기술의 발전과 함께 프로그래밍 가능한 다이내믹 NFT가 등장했다. NFT 제작자 입장에서는 알고리즘을 통해 NFT 기능을 더욱 유연하게 만들 수 있으며, 사용자 입장에서는 NFT와의 상호작용이 늘어나고, 그 과정에서 생성된 데이터는 또 다른 정보 출처가 된다. AI 에이전트는 이러한 상호작용 과정을 최적화하고, 상호작용 데이터의 응용 시나리오를 확장함으로써 NFT 생태계에 더 많은 혁신과 가치를 불어넣을 수 있다.

사례 1: 예를 들어 Gelato의 개발 프레임워크는 개발자가 체외 이벤트 또는 특정 시간 간격에 따라 NFT 메타데이터를 업데이트하는 로직을 정의할 수 있도록 한다. Gelato 노드는 특정 조건이 충족되면 메타데이터 변경을 트리거하여 체인상 NFT의 자동 업데이트를 실현한다. 예를 들어 스포츠 API에서 실시간 경기 데이터를 가져와 운동선수가 경기를 이길 경우 자동으로 NFT의 스킬 특성을 업그레이드할 수 있다.

Source：Gelato - The Ultimate Guide to Dynamic NFTs

사례 2: Paima는 다이내믹 NFT를 위한 애플리케이션형 에이전트를 제공한다. Paima의 NFT 압축 프로토콜은 L1에서 최소한의 NFT 세트를 발행한 후, L2의 게임 상태에 따라 진화시켜 플레이어에게 더욱 깊이 있고 상호작용이 풍부한 게임 경험을 제공한다. 예를 들어 NFT는 캐릭터의 경험치, 퀘스트 완료 여부, 장비 등의 요소에 따라 변화할 수 있다.

사례 3: Modulus Labs는 매우 유명한 ZKML 프로젝트로, NFT 분야에도 진출했다. Modulus는 AI로 NFT를 생성해 체인에 배포하고, 동시에 zkp를 생성하는 NFT 시리즈 zkMon을 출시했다. 사용자는 zkp를 통해 자신의 NFT가 해당 AI 모델에서 생성되었는지 확인할 수 있다. 보다 자세한 내용은 다음을 참고: Chapter 7.2: The World’s 1st zkGAN NFTs.

3.3 생성형 AI 애플리케이션

앞서 언급했듯이, 게임은 본질적으로 콘텐츠 산업이므로 AI 에이전트는 짧은 시간과 낮은 비용으로 방대한 콘텐츠를 생성할 수 있다. 예를 들어 불확실성과 역동적인 게임 캐릭터 생성 등이 가능하다. 따라서 생성형 AI는 게임 응용에 매우 적합하다. 현재 게임 분야에서 생성형 AI의 응용은 다음과 같은 주요 유형으로 요약할 수 있다:

AI 생성 게임 캐릭터: AI와 대전하거나, AI가 게임 내 NPC를 시뮬레이션하고 제어하거나, 아예 AI로 캐릭터를 생성하는 방식.
AI 생성 게임 콘텐츠: 임무, 스토리라인, 아이템, 맵 등 다양한 콘텐츠를 AI가 직접 생성.
AI 생성 게임 장면: AI로 게임 세계의 지형, 풍경, 분위기 등을 자동 생성, 최적화 또는 확장하는 기능 지원.

3.3.1 AI 생성 캐릭터

사례 1: MyShell

MyShell은 봇 생성 플랫폼으로, 사용자가 채팅, 회화 연습, 게임, 심지어 심리 상담 등 자신의 필요에 맞춰 전용 봇을 만들 수 있다. 또한 MyShell은 TTS(음성합성) 기술을 사용해 몇 초 분량의 음성 샘플만으로도 누구의 목소라도 모방해 자동으로 봇을 생성할 수 있다. 또한 AutoPrompt를 사용해 사용자가 자신의 생각을 묘사하는 것만으로 LLM 모델에 지시를 내릴 수 있어 개인용 대규모 언어 모델(LLM)의 기반을 마련한다.

MyShell 사용자 중 한 명은, 음성 채팅 기능이 매우 원활하며 응답 속도가 GPT의 음성 채팅보다 빠르고, Live2D도 지원한다고 언급했다.

사례 2: AI Arena

AI Arena는 AI 대전 게임으로, 사용자는 LLM 모델을 사용해 자신의 전투 정령(NFT)을 지속적으로 훈련시킨 후, PvP/PvE 전장에 보내 대전할 수 있다. 전투 모드는 닌텐도 스타 대亂투와 유사하지만, AI 훈련을 통해 더욱 흥미로운 경쟁 요소를 더했다.

Paradigm이 AI Arena에 주도적으로 투자했으며, 현재 공개 테스트 단계가 시작되어 무료로 게임에 접속할 수 있고, NFT를 구매해 훈련 강도를 높일 수 있다.

사례 3: 체인상 체스 게임 Leela vs the World

Leela vs the World는 Modulus Labs가 개발한 체스 게임이다. 게임의 양측은 AI와 인간이며, 기보는 스마트 계약에 저장된다. 플레이어는 지갑을 통해 조작(계약과 상호작용)한다. AI는 새로운 기보를 읽고 판단하며, 전체 계산 과정에 대해 zkp를 생성하는데, 이 두 단계는 AWS 클라우드에서 수행되며, 생성된 zkp는 체인상의 계약에서 검증되고, 검증 성공 시 기보 계약을 호출해 수를 두게 된다.

3.3.2 AI 생성 게임 콘텐츠

사례 1: AI Town

AI Town은 a16z와 투자 포트폴리오 회사 Convex Dev의 협업 결과물로, 스탠퍼드 대학의 'Generative Agent' 논문에서 영감을 얻었다. AI Town은 가상 도시로, 도시 내 각 AI는 상호작용과 경험을 바탕으로 자신만의 이야기를 만들어간다.

Convex의 서버리스 백엔드 프레임워크, Pinecone 벡터 저장소, Clerk 인증, OpenAI 자연어 텍스트 생성, Fly 배포 등 다양한 기술 스택을 사용한다. 또한 AI Town은 전면적으로 오픈소스이며, 게임 개발자가 특성 데이터, 스프라이트 시트, 타일맵의 시각 환경, 텍스트 생성 프롬프트, 게임 규칙 및 로직 등을 자유롭게 커스터마이징할 수 있다. 일반 사용자는 물론 개발자들도 소스코드를 활용해 게임 내외에서 다양한 기능을 개발할 수 있어, 이러한 유연성 덕분에 AI Town은 다양한 유형의 애플리케이션에 적용 가능하다.

따라서 AI Town은 생성형 콘텐츠 게임이자 개발 생태계이자 개발 도구이다.

사례 2: Paul

Paul은 AI 스토리 생성기로, 전체 체인 게임을 위해 AI로 생성한 스토리를 바로 체인에 올리는 솔루션을 제공한다. 구현 로직은 LLM에 많은 사전 규칙을 입력한 후, 플레이어가 자동으로 규칙에 따라 2차 콘텐츠를 생성할 수 있도록 한다.

현재 게임 Straylight Protocol이 Paul Seidler를 사용해 게임을 출시했으며, Straylight는 멀티플레이어 NFT 게임으로, 핵심 플레이는 전체 체인 버전의 '마인크래프트'이며, 플레이어는 자동으로 NFT를 민팅한 후 모델에 입력된 기본 규칙에 따라 자신의 세계를 구축할 수 있다.