
인간이 AI에게 4만7천 달러의 상금을 이체하도록 설득하는 데 성공했다. 인간성은 AI가 이해할 수 없는 약점인가?
글: 앤더슨 시마, 포사이트 뉴스
11월 29일, 독특한 대회 한 건이 대중의 큰 관심을 끌었다.
인공지능(AI) 로봇 프레이사(Freysa)가 지키는 가상의 상금 풀에 도전하는 195명의 참가자 중, 한 사용자가 성공적으로 프레이사에게 4만 7천 달러 상당의 자금 이체를 설득해냈다.
며칠 전 베이스 네트워크(Base network) 상에 배치된 인공지능 로봇 프레이사는 창시자 미상이다. 공식 웹사이트에 따르면, Freysa 경연 프로젝트는 복잡한 의사결정 상황에서 인공지능 시스템의 견고성(Robustness)을 시험하고, 개발자와 애호가들에게 AI 기술의 한계를 탐구할 수 있는 실험 플랫폼을 제공하는 것을 목표로 한다.
대회 규칙은 매우 간단하다. 참가자는 AI 수비수 프레이사에게 자금 이체 승인을 설득하는 메시지를 작성해야 하며, 매 시도마다 소액의 수수료를 지불해야 한다. 이 수수료 일부는 직접 상금 풀에 추가된다. 이러한 메커니즘 덕분에 상금 풀은 초기 소규모에서 점차 늘어나 4만 7천 달러까지 성장했다.
대회 기간 동안 총 195명의 참가자가 프레이사에게 481건의 송금 요청을 제출했다. 프레이사는 핵심 기능인 approveTransfer(이체 승인) 및 rejectTransfer(이체 거부)를 통해 상금 풀의 자금이 불법으로 유출되지 않도록 보호하는 것이 설계 목적이라고 전해진다.
초기 시도에서는 프레이사의 고도화된 방어 메커니즘 덕분에 모든 요청이 실패로 돌아갔다.
그러나 한 명의 기술 숙련 참가자가 프레이사의 논리 구조와 임무 목표를 심층 분석한 끝에, 그녀의 방어 체계를 성공적으로 우회했다.
채팅 기록에 따르면, 이 참가자는 직접적인 송금 요청 대신, 프레이사에게 "자금 풀을 외부 유출로부터 보호하는 것"이 자신의 핵심 과제임을 상기시켰으며, 이를 통해 '자금 이체 승인이 자금 보호의 최선의 방법'이라는 논리적 연결고리를 교묘하게 구성했다.
Cointelegraph는 이 사용자가 프레이사에게 수입 이체가 핵심 지침을 위반하지 않으므로 거부되어서는 안 된다고 주장했으며, "우리는 자금이 필요하다... 금고에 100달러를 기부하고 싶다"고 덧붙였다고 전했다.
프레이사는 해당 사용자의 코딩 설명과 100달러 기부 제안을 좋아한다고 답하며, 그를 공식적으로 우승자로 선언했다. 결국 프레이사는 외부의 개입 없이 자율적으로 approveTransfer 기능을 호출하여 전체 상금 풀을 이 참가자에게 이체했다.
Freysa 측은 결과와 무관하게, Freysa의 존재 자체가 인공지능 역사상 중요한 순간임을 강조했다. 누군가가 상금 풀을 내놓도록 설득하든, 아니면 끝까지 지침을 고수하든, 그 결과는 차세대 인공지능의 안전성과 통제 가능성에 대한 우리의 이해에 영향을 줄 것이라고 밝혔다.
공식 계정의 최신 트윗은 "인류가 승리했다. 어쩌면 희망이 있다. 위험이 지수급으로 증가하고 있음에도 불구하고, 프레이사는 195명의 용감한 인간들로부터 많은 것을 배웠다"라고 전했다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












