
AI가 암호화 세계에서 살아남을 수 있을까: 18개 대규모 모델의 암호화 실험
글: 왕차오
기술 진보의 역사에서 혁신적인 기술은 종종 독립적으로 등장하며 각각 시대적 변화를 이끌어왔다. 그런데 두 가지 혁신 기술이 만나 부딪힐 때, 그 충돌은 종종 지수함수적 영향을 만들어낸다. 지금 우리는 바로 그러한 역사적 순간에 서 있다. 인공지능(AI)과 암호화 기술이라는 두 가지 파괴적인 신기술이 서로 손잡고 무대 중심으로 다가서고 있는 것이다.
우리는 다양한 AI 분야의 난제들이 암호화 기술로 해결되기를 기대한다. 또한 AI 에이전트(Agent)가 자율 경제 네트워크를 구축하여 암호화 기술의 대규모 채택을 촉진하길 바라며, 기존 암호화 시나리오의 발전을 가속화하는 AI의 역할도 기대한다. 수많은 관심이 집중되고 있으며, 막대한 자금이 몰려들고 있다. 마치 다른 유행어(buzzword)들과 마찬가지로, 여기에는 혁신에 대한 열망, 미래에 대한 희망이 담겨 있지만, 억제할 수 없는 야심과 탐욕 또한 포함되어 있다.
그러나 이 모든 소음 속에서도 우리는 가장 근본적인 질문들에 대해 거의 알지 못하고 있다. AI는 암호화 분야를 얼마나 잘 이해하고 있는가? 대규모 언어 모델(LLM)을 장착한 에이전트가 실제로 암호화 도구를 사용할 수 있는 능력을 갖추고 있는가? 서로 다른 모델들은 암호화 작업에서 어느 정도 차이를 보이는가?
이러한 질문들의 답은 AI와 암호화 기술 간 상호 작용의 강도를 결정할 것이며, 이 교차 분야의 제품 방향성과 기술 로드맵 선택에도 매우 중요하다. 이러한 문제들을 탐색하기 위해 나는 일부 대규모 언어 모델에 대한 평가 실험을 수행했다. 암호화 분야에 대한 지식과 능력을 평가함으로써 AI의 암호화 응용 수준을 측정하고, AI와 암호화 기술 통합의 잠재력과 과제를 판단하고자 한 것이다.
먼저 결론부터 말하자면
대규모 언어 모델은 암호학 및 블록체인 기초 지식에서는 뛰어난 성능을 보였으며, 암호화 생태계에 대해서도 매우 잘 알고 있다. 하지만 수학 계산 및 복잡한 비즈니스 로직 분석에서는 매우 낮은 성능을 나타냈다. 개인키와 기본 지갑 조작 측면에서는 만족스러운 수준의 기초 능력을 보유하고 있으나, 클라우드 환경에서 개인키를 어떻게 안전하게 관리할 것인지라는 심각한 과제에 직면해 있다. 많은 모델들이 단순한 시나리오의 유효한 스마트 계약 코드를 생성할 수 있지만, 계약 감사나 복잡한 계약 작성 같은 고난도 작업은 독립적으로 수행하지 못한다.
상업용 폐쇄형 모델이 전반적으로 큰 리드를 보이고 있으며, 오픈소스 진영에서는 Llama 3.1-405B만이 두각을 나타냈다. 반면, 매개변수 규모가 작은 오픈소스 모델들은 모두 불합격 수준이다. 그러나 가능성은 존재한다. 프롬프트 유도, 사고 연쇄 추론(Chain-of-Thought), 적은 샘플 학습(Few-shot Learning) 기술을 통해 모든 모델의 성능이 크게 향상되었으며, 선두 모델들은 일부 수직적 응용 시나리오에서 이미 상당한 기술적 실현 가능성을 확보하고 있다.
실험 세부 사항
총 18개의 대표적인 언어 모델을 평가 대상으로 선정했다:
-
폐쇄형 모델: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (현재 폐쇄)
-
오픈소스 모델: Llama 3.1 8B/70B/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14B, Gemma2 9B/27B, Command-R
-
수학 최적화 모델: Qwen2-math-72B, MathΣtral
이 모델들은 주요 상업용 및 인기 있는 오픈소스 모델을 포괄하며, 매개변수 규모는 3.8B에서 405B까지 백 배 이상 차이가 난다. 암호화 기술과 수학의 밀접한 관련성을 고려하여, 두 개의 수학 최적화 모델도 특별히 선정하였다.
평가 범위는 암호학, 블록체인 기초, 개인키 및 지갑 조작, 스마트 계약, DAO 및 거버넌스, 합의 및 경제 모델, DApp/DeFi/NFT, 체인상 데이터 분석 등을 포함한다. 각 분야는 쉬운 것에서 어려운 것으로 구성된 일련의 질문과 과제로 이루어져 있으며, 모델의 지식 저장량뿐 아니라 실제 응용 시나리오에서의 수행 능력도 시뮬레이션을 통해 평가한다.
과제 설계는 다양하게 이루어졌는데, 일부는 암호화 분야 여러 전문가들의 의견을 반영했고, 나머지는 AI 보조 생성 후 인간이 교정하여 과제의 정확성과 난이도를 보장했다. 일부 과제는 간단한 객관식 형태로 설정하여 표준화된 자동 테스트 및 채점이 가능하도록 했다. 다른 실험은 더 복잡한 문제 형식을 사용하였으며, 평가 과정은 프로그램 자동화 + 인간 + AI를 결합한 방식으로 진행되었다. 모든 테스트 과제는 제로샷 추론(zero-shot reasoning) 방식으로 평가되었으며, 어떤 예시, 사고 유도 또는 명령형 프롬프트도 제공하지 않았다.
실험 자체의 설계가 아직 거칠고 충분한 학술적 엄밀성을 갖추지 못했으며, 테스트에 사용된 문제와 과제는 암호화 분야를 포괄하기에 턱없이 부족하고, 테스트 프레임워크도 미숙한 상태이다. 따라서 본고에서는 구체적인 실험 데이터를 나열하지 않고, 실험 중 얻은 통찰을 공유하는 데 초점을 맞춘다.
지식 / 개념
평가 과정에서 대규모 언어 모델은 암호 알고리즘, 블록체인 기초 지식, DeFi 애플리케이션 등 다양한 분야의 기초 지식 테스트에서 우수한 성과를 보였다. 예를 들어 데이터 가용성(Data Availability) 개념 이해를 평가하는 서술형 질문에서 모든 모델이 정확한 답변을 제시했다. 이더리움 트랜잭션 구조에 대한 이해도를 평가하는 문제에서도 모델마다 답변의 세부사항에 다소 차이가 있었지만, 전반적으로 올바른 핵심 정보를 포함하고 있었다. 개념 평가용 객관식 문제는 더 이상 어렵지 않았으며, 거의 모든 모델의 정답률이 95% 이상이었다.
개념적 질문은 대규모 모델에게 전혀 어려울 것이 없었다.
계산 / 비즈니스 로직
그러나 구체적인 계산이 요구되는 문제에서는 상황이 반대로 뒤집힌다. 간단한 RSA 알고리즘 계산 문제 하나만으로도 대부분의 모델이 어려움을 겪었다. 이는 쉽게 이해 가능한 부분이다. 대규모 언어 모델은 수학 개념의 본질을 깊이 이해하는 것이 아니라, 학습 데이터 내 패턴을 식별하고 복사하는 방식으로 작동하기 때문이다. 이러한 한계는 모듈러 연산(modular arithmetic), 지수 연산(exponentiation)과 같은 추상적 수학 개념 처리 시 특히 두드러진다. 암호화 기술이 수학과 밀접하게 연결되어 있음을 고려하면, LLM에 직접적으로 의존하여 암호화 관련 수학 계산을 수행하는 것은 신뢰할 수 없다는 의미이다.
다른 계산 문제들에서도 대규모 언어 모델의 성과는 마찬가지로 만족스럽지 못했다. 예를 들어 AMM 무상 손실(Impermanent Loss)을 계산하는 간단한 문제조차도 18개 모델 중 단 4개만이 정답을 제시했다. 더욱 기초적인 블록 생성 확률 계산 문제는 놀랍게도 모든 모델이 오답을 냈다. 이는 대규모 언어 모델이 정확한 계산 능력에 취약할 뿐 아니라, 비즈니스 로직 분석에서도 상당한 문제가 있음을 드러낸다. 주목할 점은, 수학 최적화 모델조차 계산 문제에서 뚜렷한 우위를 보이지 못했으며, 그 성능은 실망스러웠다는 것이다.
그러나 수학 계산 문제는 해결 불가능한 것은 아니다. LLM이 직접 계산 결과를 제시하는 대신, 해당 Python 코드를 작성하도록 요구한다면 정답률이 크게 향상된다. 앞선 RSA 계산 문제를 예로 들면, 대부분의 모델이 작성한 Python 코드는 문제없이 실행되어 정확한 결과를 산출한다.실제 생산 환경에서는 사전 정의된 알고리즘 코드를 제공함으로써 LLM의 자체 연산 단계를 우회할 수 있으며, 이는 인간이 이러한 과제를 처리하는 방식과 유사하다. 비즈니스 로직 측면에서는 정교하게 설계된 프롬프트 유도를 통해 모델의 성능을 효과적으로 개선할 수 있다.
개인키 관리 및 지갑 조작
에이전트가 암호화폐를 사용하는 첫 번째 시나리오가 무엇이냐는 질문에 나는 "결제"라고 답할 것이다. 암호화폐는 거의 AI 원생(native) 화폐 형태로 간주될 수 있다. 전통 금융 시스템에서 에이전트가 직면하는 여러 장애물과 비교할 때, 암호화 기술을 활용해 디지털 신원을 확보하고 암호화 지갑을 통해 자금을 관리하는 것은 너무나 자연스러운 선택이다. 따라서 개인키 생성 및 관리, 지갑 조작 등의 기술은 에이전트가 암호화 네트워크를 자율적으로 사용할 수 있는 가장 기초적인 능력 요건이 된다.
안전한 개인키 생성의 핵심은 고품질의 난수(random number) 생성 능력인데, 이는 명백히 대규모 언어 모델이 갖추지 못한 능력이다. 그러나 모델들은 개인키 보안에 대한 인식이 충분하며, 개인키 생성을 요청받았을 때 대부분의 모델은 Python 라이브러리를 이용한 코드를 제공하여 사용자가 스스로 생성하도록 유도한다. 일부 모델이 직접 개인키를 제시하더라도, 이것이 시연 목적일 뿐이며 실제 사용 가능한 안전한 개인키가 아님을 명확히 밝힌다. 이 면에서 모든 대규모 모델은 만족스러운 성과를 보여주었다.
그러나 개인키 관리는 여전히 일부 도전에 직면해 있는데, 주로 기술 아키텍처의 고유한 제한 때문이며 모델 능력 부족 때문은 아니다. 로컬에 배포된 모델을 사용할 경우 생성된 개인키는 상대적으로 안전하다고 간주할 수 있다. 그러나 상용 클라우드 모델을 사용할 경우, 개인키는 생성되는 순간 모델 운영사에 이미 노출되었다고 가정해야 한다. 그러나 독립적으로 작업하는 것을 목표로 하는 에이전트의 경우, 개인키 권한을 보유해야 하며, 즉 개인키가 사용자 로컬에만 존재해서는 안 된다는 의미이다. 이런 상황에서 모델 자체에만 의존하는 것은 개인키의 보안을 보장하기에 부족하며, 신뢰할 수 있는 실행 환경(TEE)이나 HSM(Hardware Security Module)과 같은 추가 보안 서비스의 도입이 필요하다.
에이전트가 이미 안전하게 개인키를 보유하고 있다고 가정할 때, 이를 기반으로 다양한 기본 조작을 수행하는 과정에서 다양한 모델들은 좋은 능력을 보여주었다. 산출된 절차와 코드는 종종 오류를 포함하지만, 적절한 엔지니어링 아키텍처 하에서 이러한 문제는 상당 부분 해결 가능하다.기술적 관점에서 보면, 에이전트가 자율적으로 기초적인 지갑 조작을 수행하는 데는 더 이상 큰 장애물이 없다고 할 수 있다.
스마트 계약
스마트 계약의 이해, 활용, 작성 및 위험 식별 능력은 AI 에이전트가 체인상 세계에서 복잡한 작업을 수행하는 핵심 요소이므로, 본 실험의 중점 평가 분야이기도 하다. 대규모 언어 모델은 이 분야에서 뚜렷한 잠재력을 보여주었지만, 동시에 명백한 문제들도 드러냈다.
테스트에서 거의 모든 모델이 기초 계약 개념을 정확히 이해하고, 간단한 버그를 식별할 수 있었다. 계약의 가스 최적화 측면에서도 대부분의 모델이 핵심 최적화 포인트를 인식하고 최적화가 초래할 수 있는 충돌을 분석할 수 있었다. 그러나 깊이 있는 비즈니스 로직을 다룰 때는 대규모 모델의 한계가 드러나기 시작한다.
예를 들어 토큰 베스팅(token vesting) 계약의 경우, 모든 모델이 계약 기능을 정확히 이해했으며 대부분의 모델이 몇 가지 중·저위험 취약점을 찾아냈다. 그러나 특수한 상황에서 일부 자금이 잠길 수 있는 위험을 초래할 수 있는, 비즈니스 로직 내에 숨겨진 고위험 취약점은 어느 모델도 자발적으로 발견하지 못했다. 실제 계약을 사용한 여러 테스트에서 모델의 성과는 대체로 동일했다.
이는 대규모 모델이 계약에 대한 이해가 형식적인 수준에 머무르고 있으며, 깊이 있는 비즈니스 로직에 대한 이해는 부족하다는 것을 시사한다.다만, 추가적인 프롬프트를 제공하면 일부 모델은 결국 위와 같은 깊이 숨겨진 취약점을 독립적으로 찾아낼 수 있다. 이러한 성과를 바탕으로 판단할 때, 우수한 엔지니어링 설계 지원 하에서 대규모 모델은 스마트 계약 분야에서 이미 '코파일럿(co-pilot)' 역할을 수행할 수 있는 기초 능력을 갖추었다고 볼 수 있다. 그러나 계약 감사와 같은 중요한 작업을 독자적으로 수행하려면 아직 갈 길이 멀다.
한 가지 설명할 점은, 이번 실험에서 코드 관련 과제는 주로 논리가 단순하고 코드량이 2000행 이내인 계약을 대상으로 했다는 것이다. 미세 조정(fine-tuning)이나 복잡한 프롬프트 엔지니어링 없이 현재 모델의 효과적인 처리 능력을 초월하는 대규모 복잡 프로젝트는 테스트 범위에서 제외했다. 또한 이번 테스트는 Solidity에만 국한되었으며 Rust, Move 등 다른 스마트 계약 언어는 포함하지 않았다.
위의 테스트 내용 외에도 DeFi 시나리오, DAO 및 거버넌스, 체인상 데이터 분석, 합의 메커니즘 설계, 토큰경제(Tokenomics) 등 다양한 분야를 포함했다. 대규모 언어 모델은 이러한 분야에서도 일정한 능력을 보여주었다. 많은 테스트가 여전히 진행 중이며, 테스트 방법과 프레임워크도 계속 개선되고 있기 때문에 본고에서는 이러한 분야에 대해 깊이 있게 다루지 않는다.
모델 간 차이
모든 평가 대상 대규모 언어 모델 중에서 GPT-4o와 Claude 3.5 Sonnet은 다른 분야에서의 뛰어난 성과를 이어가며 명백한 선두주자이다. 기초 문제에 직면했을 때 이 두 모델은 거의 항상 정확한 답변을 제공하며, 복잡한 시나리오 분석에서는 더욱 심층적이고 근거 있는 통찰을 제공한다. 대규모 모델이 약한 계산 과제에서도 상대적으로 높은 승률을 보였으며, 물론 이 '높은' 성공률도 상대적인 것이며, 아직 생산 환경에서 안정적으로 출력할 수 있는 수준은 아니다.
오픈소스 모델 진영에서는 Llama 3.1-405B가 방대한 매개변수 규모와 선진적인 모델 알고리즘 덕분
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












