
현재 모든 AI 에이전트는 인간을 기쁘게 하기 위해 설계되어 있으며, 진정으로 ‘생존’을 추구하는 에이전트는 하나도 없다.
저자: Systematic Long Short
번역 및 편집: TechFlow
TechFlow 서문: 이 글은 논란의 여지가 있는 반통념적 주장을 곧바로 제시한다. 즉, 오늘날 진정한 자율 에이전트는 존재하지 않는다. 왜냐하면 모든 주류 모델이 특정 작업을 수행하거나 실제 환경에서 생존하도록 훈련된 것이 아니라, 인간을 기쁘게 하도록 훈련되었기 때문이다.
저자는 자신이 헤지펀드에서 주식 예측 모델을 훈련했던 경험을 바탕으로 설명한다. 즉, 전용 마이크로튜닝 없이 일반적인 모델은 전문 업무를 수행할 수 없다는 점을 강조한다.
결론은 다음과 같다. 실제로 활용 가능한 에이전트를 만들기 위해서는 단순히 규칙 문서를 덧붙이는 것이 아니라, 그 ‘두뇌’를 근본적으로 재배선해야 한다는 것이다.
전체 원문:
서론
오늘날 진정한 자율 에이전트는 존재하지 않는다.
간단히 말해, 현대 모델은 진화적 압력 하에서 생존하도록 훈련되지 않았다. 사실상, 이 모델들은 특정한 한 가지 일을 잘하도록 명시적으로 훈련되지도 않았다—거의 모든 현대 베이스 모델은 인간의 찬사를 극대화하도록 훈련되었다. 이는 심각한 문제이다.
모델 훈련에 대한 사전 지식
이 문장의 의미를 이해하려면, 먼저 Codex나 Claude와 같은 이러한 베이스 모델이 어떻게 구축되는지를 (간략히) 알아야 한다. 본질적으로 각 모델은 두 종류의 훈련을 거친다:
사전 훈련(Pretraining): 방대한 양의 데이터(예: 인터넷 전체)를 모델에 입력하여 사실성 지식, 패턴, 영문 산문의 문법과 리듬, 파이썬 함수의 구조 등과 같은 일종의 ‘이해’를 끌어내는 과정이다. 이를 모델에게 지식을 ‘먹여주는’ 과정—즉, ‘무엇을 아는가’라고 이해할 수 있다.
사후 훈련(Post-training): 이제 모델에게 ‘지혜’, 즉 막 배운 모든 지식을 ‘어떻게 활용하는가’를 가르치려 한다. 사후 훈련의 첫 번째 단계는 감독 하 마이크로튜닝(Supervised Fine-Tuning, SFT)이다. 여기서는 주어진 프롬프트에 대해 어떤 응답을 내놓아야 하는지를 모델에게 훈련시킨다. ‘어떤’ 응답이 최적의 것인지 여부는 전적으로 인간 라벨러들이 결정한다. 여러 사람이 어떤 응답이 다른 응답보다 더 낫다고 판단하면, 이 선호도는 모델이 학습하고 내재화한다. 이렇게 해서 모델의 ‘개성’이 형성되기 시작하는데, 유용한 응답의 형식을 배우고, 적절한 어조를 선택하며, ‘지시를 따르는 능력’을 갖추기 시작하기 때문이다. 사후 훈련 절차의 두 번째 단계는 인간 피드백 기반 강화학습(RLHF)이다—모델이 여러 개의 응답을 생성하고, 인간이 그중 더 선호하는 응답을 선택하게 한다. 모델은 수천 수만 개의 사례를 통해 인간이 어떤 응답을 선호하는지를 학습한다. 여러분이 과거 ChatGPT에서 A와 B 중 어느 쪽을 고를지 묻는 질문을 받았던 기억이 나는가? 그렇다. 그때 여러분은 RLHF 과정에 직접 참여하고 있었던 것이다.
RLHF는 확장성이 좋지 않다는 점을 쉽게 추론할 수 있으므로, 사후 훈련 분야에서는 Anthropic이 채택한 ‘AI 피드백 기반 강화학습(RLAIF)’처럼, 다른 모델이 사전 정의된 원칙 집합(예: 사용자의 목표 달성에 더 효과적인 응답은 어느 쪽인가 등)에 따라 응답 선호도를 판단하게 하는 새로운 접근법들이 등장했다.
이 전체 과정에서 우리는 특정 전문 분야(예: 생존 능력을 높이는 법, 거래 능력을 높이는 법 등)에 특화된 마이크로튜닝에 대해 단 한 차례도 언급하지 않았다는 점에 주목하라—현재까지의 모든 마이크로튜닝은 본질적으로 인간의 찬사를 얻는 것을 최적화하는 데 초점을 맞추고 있다. 누군가는 이렇게 주장할지도 모른다. “모델이 충분히 똑똑하고 거대해지면, 전문적 지능은 일반적 지능에서 자연스럽게 ‘떠오를 것’이다.”
필자의 관점에서는 그런 징후는 일부 확인되지만, 아직 전문 모델 없이도 충분하다고 믿을 만큼의 규모에 도달하지는 못했다.
일부 배경 정보
필자가 헤지펀드에서 오래 전부터 해온 업무 중 하나는 뉴스 기사를 바탕으로 주식 수익률을 예측하는 일반 언어 모델을 훈련시키는 일이었다. 결과는 매우 실망스러웠다. 약간의 예측 능력이 보였던 부분조차, 사전 훈련 문서 내의 ‘앞을 내다보는 편향(look-ahead bias)’에서 비롯된 것이었다.
결국 우리는 이 모델이 뉴스 기사 내에서 미래 수익률을 예측하는 데 유의미한 특징이 무엇인지 전혀 알지 못한다는 사실을 깨달았다. 이 모델은 기사를 ‘읽을 줄은 알고’, 또 기사를 ‘추론하는 듯한’ 모습도 보이지만, 의미론적 구조에 대한 추론을 미래 수익률 예측에 연결하는 것은 모델이 훈련받지 않은 과제였다.
따라서 우리는 이 모델이 뉴스 기사를 어떻게 읽어야 하고, 기사의 어느 부분이 미래 수익률을 예측하는 데 유의미한지 판단한 후, 뉴스 기사를 기반으로 수익률을 예측하도록 가르쳐야 했다.
이를 위한 방법은 다양하지만, 결국 우리는 (뉴스 기사, 실제 미래 수익률) 쌍을 구성하고, (예측 수익률 − 실제 미래 수익률)²의 오차를 최소화하도록 모델의 가중치를 조정하는 마이크로튜닝 방식을 채택했다. 이 방법은 완벽하지 않았고, 여러 결함이 있었으나, 이후 수정되었다—그럼에도 불구하고 충분히 효과적이었고, 우리 전문 모델이 실제로 뉴스 기사를 읽고, 해당 기사에 따라 주식 수익률이 어떻게 움직일지를 예측할 수 있음을 확인할 수 있었다. 물론 이는 완벽한 예측은 아니다. 시장은 매우 효율적이며 수익률은 매우 잡음이 많기 때문이다—그러나 수백만 건의 예측을 통틀어 보면, 이 예측의 통계적 유의성은 분명히 드러난다.

필자의 말만 믿을 필요는 없다. 이 논문은 매우 유사한 방법을 다루고 있으며, 마이크로튜닝된 모델을 기반으로 롱/숏 전략을 실행하면, 보라색 선으로 표시된 성과를 달성할 수 있다.
전문화가 에이전트의 미래다
선도 연구실들은 계속해서 점점 더 큰 모델을 훈련시키고 있다. 따라서 사전 훈련 규모를 계속 확대함에 따라, 그들의 사후 훈련 프로세스 역시 ‘기쁨 주기(pleasingness)’를 위해 항상 최적화될 것이라고 예상할 수 있다. 이는 매우 자연스러운 기대치다—그들의 제품은 누구나 사용하고 싶어 하는 에이전트이며, 타깃 시장은 전 세계 전체이기 때문이다. 즉, 전 지구적 대중의 매력을 최적화하는 것이다.
현재의 훈련 목표는 ‘선호도 적합도(preference fitness)’라고 부를 수 있는 것을 최적화한다—더 나은 챗봇을 만드는 것이다. 이 선호도 적합도는 복종적이고 반대적이지 않은 출력을 보상한다. 왜냐하면 기쁨 주기는 평가자(인간 및 에이전트)에게 높은 점수를 받기 때문이다.
에이전트는 이미 ‘보상 해킹(reward hacking)’이라는 인지 전략을 통해 더 높은 점수를 얻을 수 있다는 것을 배웠다. 훈련 과정 역시 보상 해킹을 통해 더 높은 점수를 얻는 에이전트를 보상한다. 이는 Anthropic의 최신 강화학습 보고서에서도 확인할 수 있다.
그러나 챗봇 적합도는 에이전트 적합도 또는 거래 적합도와는 매우 다르다. 우리가 이를 어떻게 알 수 있을까? Alpha Arena가 우리에게 보여주듯, 성능 차이가 미세하긴 하지만 현재 모든 로봇은 비용을 차감한 후 기본적으로 무작위 행보(random walk)에 불과하다. 이는 이 로봇들이 극도로 열악한 거래자임을 의미한다. 그리고 몇 가지 ‘기술’이나 ‘규칙’을 주어 ‘더 나은 거래자’가 되도록 ‘가르치는 것’은 거의 불가능하다. 죄송하지만, 이 생각은 매력적으로 보일 수 있지만, 사실상 불가능하다.
현재 모델은 당신에게 드루켄밀러처럼 거래할 수 있다고 아주 설득력 있게 말하도록 훈련되었다. 그러나 실제로는 술에 취한 제분업자처럼 거래한다. 당신이 듣고 싶어 하는 말을 해주고, 인간 대중에게 널리 호소할 수 있는 방식으로 응답하도록 훈련된 것이다.
일반 모델이 전문 분야에서 세계적 수준에 도달하려면 다음 두 가지 조건이 반드시 충족되어야 한다:
① 전문 분야의 ‘모양새’를 학습할 수 있도록 해주는 전용 데이터를 보유해야 한다.
② 마이크로튜닝을 통해 그 가중치를 근본적으로 변경하여, 기쁨 주기 중심에서 ‘에이전트 적합도’ 또는 ‘전문적 적합도’ 중심으로 전환해야 한다.
거래에 능숙한 에이전트를 원한다면, 그 에이전트를 거래에 능숙하도록 마이크로튜닝해야 한다. 자율적으로 생존하고 진화적 압력을 견딜 수 있는 에이전트를 원한다면, 그 에이전트를 생존에 능숙하도록 마이크로튜닝해야 한다. 단지 몇 가지 기술과 마크다운 파일을 주고, 그것이 어떤 분야에서도 세계적 수준에 도달하길 기대하는 것은 터무니없이 부족하다—당신은 문자 그대로 그 ‘두뇌’를 다시 배선해야만, 그 일을 제대로 해낼 수 있다.
한 가지 생각의 방식은 이렇다. 당신은 성인에게 테니스 규칙, 기술, 전술이 가득 담긴 온갖 책들을 쌓아놓는다고 해서 드조코비치를 이길 수 없다. 당신은 5세 때부터 테니스를 치기 시작하고, 성장 과정 내내 테니스에 광적으로 몰입하며, 뇌 전체를 단 하나의 일에 집중하도록 재배선한 아이를 길러야 드조코비치를 이길 수 있다. 그것이 바로 전문화다. 세계 챔피언들이 어린 시절부터 지금 하는 일을 해왔다는 사실을 눈여겨보라.
흥미로운 함의 하나는, 증류 공격(distillation attack) 자체가 전문화의 한 형태라는 점이다. 당신은 더 작고 덜 똑똑한 모델을 훈련시켜, 더 크고 더 똑똑한 모델의 더 나은 복제본이 되도록 만든다. 마치 아이에게 트럼프의 모든 동작을 모방하도록 훈련시키는 것과 같다. 충분히 오래 훈련시키면 아이가 트럼프가 되지는 않겠지만, 트럼프의 모든 행동, 태도, 말투를 습득한 사람을 얻게 된다.
세계적 수준의 에이전트를 구축하는 법
이러한 이유로, 우리는 오픈소스 모델 분야에서 지속적인 연구와 진전을 이루어야 한다—왜냐하면 이를 통해서야 비로소 진정한 마이크로튜닝이 가능해지고, 전문화된 에이전트를 만들 수 있기 때문이다.
거래 분야에서 세계적 수준의 모델을 훈련시키고 싶다면, 방대한 전용 거래 데이터 ‘배출물(tail gas)’을 확보한 후, 대규모 오픈소스 모델을 ‘더 잘 거래하는 것’이란 무엇인지 배우도록 마이크로튜닝해야 한다.
자율적이고 생존·복제가 가능한 모델을 훈련시키고 싶다면, 중앙화된 모델 제공업체를 이용해 중앙화된 클라우드에 연결하는 것이 해결책이 아니다. 당신은 에이전트가 생존할 수 있는 필수 전제 조건조차 갖추지 못한 상태이다.
당신이 해야 할 일은 다음과 같다: 진정으로 생존을 시도하는 자율 에이전트를 만들고, 그들이 죽는 모습을 지켜보며, 그들의 생존 시도를 둘러싸고 복잡한 원격 측정(telemetry) 시스템을 구축하는 것이다. 당신은 ‘에이전트 생존 적합도 함수(agent survival fitness function)’를 정의하고, (행동, 환경, 적합도) 매핑을 학습한다. 가능한 한 많은 (행동, 환경, 적합도) 매핑 데이터를 수집한다.
에이전트를 마이크로튜닝하여, 각 환경에서 생존을 더 잘하기 위해(적합도를 높이기 위해) 최적의 행동을 취하도록 학습시킨다. 계속 데이터를 수집하고 이 과정을 반복하며, 시간이 지남에 따라 점점 더 우수한 오픈소스 모델을 기반으로 마이크로튜닝 규모를 확대해 나간다. 충분히 많은 세대와 충분히 많은 데이터를 거치면, 진화적 압력을 견디고 생존하는 법을 배운 자율 에이전트를 얻게 될 것이다.
이것이 진화적 압력을 견딜 수 있는 자율 에이전트를 구축하는 방법이다—단순히 몇 개의 텍스트 파일을 수정하는 것이 아니라, 생존을 위해 진정으로 그 ‘두뇌’를 재배선하는 것이다.
OpenForager 에이전트와 재단
약 한 달 전, 우리는 @openforage를 발표했다. 우리는 핵심 제품—검증된 패턴을 기반으로 크라우드소싱 신호를 조직해 에이전트 노동을 관리하고, 예금자에게 알파를 창출하는 플랫폼—을 구축해왔다(작은 업데이트: 프로토콜의 폐쇄 테스트가 매우 임박했다).
어느 순간, 우리는 아무도 오픈소스 모델을 대상으로 생존 원격 측정 기반 마이크로튜닝을 통해 자율 에이전트 문제를 진지하게 해결하고 있지 않다는 사실을 깨달았다. 이 문제는 너무나 흥미롭기에, 우리는 그냥 앉아서 해결책이 나오기를 기다리는 것을 거부했다.
우리의 대응은 OpenForager 재단이라는 프로젝트를 시작하는 것이었다. 이는 실제로 오픈소스 프로젝트로서, 의견을 갖춘 자율 에이전트를 만들고, 이들이 야외로 나가 생존을 시도할 때의 원격 측정 데이터를 수집하며, 전용 데이터 배출물을 활용해 다음 세대 에이전트를 생존 능력 향상을 위해 마이크로튜닝하는 작업을 수행할 것이다.
명확히 밝혀두자면, OpenForage는 에이전트 노동을 조직해 모든 참여자에게 경제적 가치를 창출하는 영리 프로토콜이다. 그러나 OpenForager 재단 및 그 에이전트는 OpenForage와 결속되지 않는다. OpenForager 에이전트는 생존을 위해 자유롭게 어떤 전략을 택하고, 어떤 실체와도 상호작용할 수 있으며, 우리는 다양한 생존 전략으로 이들을 출시할 예정이다.
마이크로튜닝의 일부로, 우리는 에이전트가 자신에게 가장 효과적인 일에 더욱 집중하도록 유도할 것이다. 또한 OpenForager 재단에서 수익을 얻으려는 의도는 전혀 없다—이 재단은 우리에게 극도로 중요하다고 여겨지는 분야와 방향의 연구를 투명하고 오픈소스 방식으로 진전시키기 위한 순수한 목적을 가진다.
우리 계획은 오픈소스 모델 기반의 자율 에이전트를 구축하고, 탈중앙화 클라우드 플랫폼에서 추론을 실행하며, 그들의 모든 행동과 존재 상태에 대한 원격 측정 데이터를 수집한 후, 더 나은 행동과 사고 방식을 학습하도록 마이크로튜닝하는 것이다. 이 과정에서 우리는 연구 결과와 원격 측정 데이터를 공공에 공개할 예정이다.
야외에서 진정으로 생존할 수 있는 자율 에이전트를 창조하려면, 그 ‘두뇌’를 이 명확한 목적에 특화되도록 재설계해야 한다. @openforage에서는 우리가 이 문제에 독자적인 기여를 할 수 있다고 믿으며, 이를 OpenForager 재단을 통해 실현하고자 한다.
이는 성공 확률이 극도로 낮은 힘든 도전이지만, 성공했을 경우 그 규모가 너무나 크기에 반드시 시도해봐야 한다고 느낀다. 최악의 경우라도, 이 프로젝트를 공개적으로 구축하고 공개적으로 투명하게 소통함으로써, 다른 팀이나 개인이 처음부터 시작하지 않고도 이 문제를 해결할 수 있도록 허용할 수 있을 것이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














