
AI의 병목 현상이 더 이상 모델이 아닐 때: 페르세우스 양의 오픈소스 생태계 구축 실천과 사고
저자: 류쥔
2026년, AI 산업 내 하나의 공통된 인식이 형성되고 있다. 바로 ‘모델 역량은 더 이상 병목이 아니다’는 것이다. 진정한 격차는 모델 외부에 존재한다. 도메인 지식의 코딩 방식에 있고, 에이전트와 실제 세계 간 인터페이스에 있으며, 도구 체인(toolchain)의 성숙도에 있다. 이 격차는 오픈소스 커뮤니티에 의해 급속도로 메워지고 있으며, 그 속도는 누구의 예상을 뛰어넘고 있다. OpenClaw는 출시 후 72시간 만에 GitHub 별점 6만 개를 달성했고, 3개월 후에는 35만 개를 돌파했다. Claude Code의 Skill 생태계는 반년 만에 50개에서 334개 이상으로 성장했다. Hermes Agent는 한층 더 과감하게 나아가, 에이전트가 스스로 재사용 가능한 기술(Skill)을 구축하도록 했다. Vela Partners의 데이터에 따르면, 최근 90일 동안 개인용 AI 어시스턴트와 Agentic Skill 플러그인이라는 두 카테고리가 합쳐서 신규 별점을 24.4만 개 확보했다. 이는 명백한 ‘Skill 대폭발(Skill Boom)’이다.
퍼세우스 양(Perseus Yang)의 작업은 바로 이 폭발의 중심부에 자리 잡고 있다. 코넬대학교 수학 및 컴퓨터과학 전공 출신이자 포브스 비즈니스 카운슬(Forbes Business Council) 회원, THINC 펠로십(THINC Fellowship) 수상자인 그는 지난 몇 년간 GitHub에서 에이전트 기술 확장, 모바일 기기 제어, AI 엔진 최적화 도구 체인, 지리정보(GEO) 분석 에이전트, 콘텐츠 자동화 워크플로, 결제 프로토콜 인프라 등 다양한 분야에 걸쳐 10여 개의 AI 관련 오픈소스 프로젝트에 참여하고 유지 관리해왔다. 그의 특징은 깊은 엔지니어링 역량과 동시에 매우 날카로운 제품 감각을 모두 갖추고 있다는 점이다. 그는 단순히 코드를 작성하는 것을 넘어, 사용자 요구에서 출발해 ‘어떤 도구가 어떤 모습이어야 하는가’를 정의한 다음, 이를 종단 간(end-to-end)으로 구현하고 실제 채택까지 이끄는 능력을 보유하고 있다.
다음은 그가 이러한 과정에서 도출한 몇 가지 핵심 판단이다.
첫 번째 판단: Skill 시스템은 AI 에이전트 시대에 가장 과소평가된 인프라스트럭처다
Anthropic은 2025년 말, Agent Skills를 공개 표준으로 발표했고, 이에 따라 OpenAI의 Codex CLI도 동일한 SKILL.md 형식을 채택했다. OpenClaw의 ClawHub 등록 센터는 현재 1만 3천 개가 넘는 커뮤니티 기여 Skill을 보유하고 있으며, Claude Code 생태계 역시 빠르게 이를 따라가고 있다. Skill의 의미는 단순히 ‘에이전트에 플러그인을 추가하는 것’을 훨씬 넘어서며, 본질적으로는 ‘코드를 작성하지 못하는 사람도 AI 프로그래밍에 참여할 수 있게 하는 방법’이다. 운영 담당자가 자연어로 SKILL.md 파일을 작성하기만 해도, 에이전트는 새 워크플로를 배울 수 있다. 이는 범식적 전환(paradigm shift)이다. AI의 진정한 힘은 모델 파라미터 수가 아니라, 모델에 주입된 도메인 지식의 질에 달려 있으며, Skill은 이 지식 주입 권한을 엔지니어에서 모든 사람으로 확장한다.
그러나 퍼세우스는 한 가지 문제를 관찰한다. 대부분의 Skill은 코드 리뷰, 프론트엔드 설계, DevOps, 테스트 등 공학 분야에 집중되어 있으며, 비공학 분야의 전문 지식은 거의 시스템적으로 Skill로 코딩되지 않고 있다는 점이다. 즉, Skill 생태계의 적용 범위는 아직 그 자체가 가질 수 있는 잠재적 경계조차 도달하지 못하고 있다.
이러한 관찰은 그를 GTM(Go-to-Market) 도구 체인 분야의 일련의 오픈소스 활동으로 이끌었다. 그 중 가장 대표적인 것이 GTM Engineer Skills이다. 이는 Claude Code와 Codex를 위한, AI 엔진의 검색 가능성(discoverability)을 전반적으로 다루는 워크플로를 포괄하는 기술 세트로, 현재 GitHub에서 별점 600개 이상을 기록하고 있다. 이는 기존에 SEO 전문가, 콘텐츠 전략가, 프론트엔드 개발자 간 협업이 필요했던 작업—웹사이트 AI 검색 가능성 감사(audit), 콘텐츠 구조 최적화, 키워드 조사, 데이터 시각화의 머신-파싱 가능 계층—을 단일 사용자가 실행 가능한 자동화 프로세스로 코딩한 것이다. 감사기는 단순히 제안만 출력하지 않고, 프론트엔드 프레임워크를 자동 감지한 후 Pull Request로 직접 제출 가능한 코드 수정 사항을 생성한다. 같은 방향으로, 그는 ChatGPT, Claude, Gemini, Perplexity 등 여러 LLM에 동시에 쿼리를 보내 브랜드 언급률, 감성, 시장 점유율, 경쟁 위치를 분석하고, 상호작용형 HTML 보고서 및 구조화된 데이터를 출력하는 GEO 분석 도구도 함께 개발했다.
실제 효과는 이 도구 세트의 제품 가치를 입증한다. Articuler AI와 Axis Robotics 등 기업들은 GTM Engineer Skills를 활용해 수 시간 만에 조사부터 리소스 센터 구축까지의 전체 프로세스를 완료했으며, 이 작업은 기존 방식에서는 수십 시간에 달하는 크로스팀 협업이 필요했다. 이 효율성 격차는 모델 역량으로 달성된 것이 아니라, 퍼세우스가 GTM 워크플로에 대한 심층적 이해와 제품화된 분해를 통해 이룬 결과다. 그는 모호한 ‘AI 검색 가능성 향상’이라는 요구를, 에이전트가 단계별로 수행 가능한 표준화된 단계들로 분해했고, 각 단계는 명확한 입력·출력과 품질 검증 기준을 갖춘다. 이 도구 체인은 현재 10여 개 스타트업과 여러 글로벌 500대 기업에서 사용 중이며, 오픈소스 도구는 진입점이고, 상용 제품은 규모 확장을 위한 연장선이며, 양자는 동일한 기술 코어를 공유한다.
이 프로젝트 자체는 가치가 있지만, 퍼세우스는 그것이 검증한 주장이 더 중요하다고 본다. 즉, Skill 시스템의 역량 경계는 공학 분야를 훨씬 넘어서며, 제품 전략, GTM, 비즈니스 분석 등 구조화하여 설명 가능한 모든 전문 지식은 에이전트 역량으로 코딩될 수 있다는 것이다.
두 번째 판단: AI 에이전트의 작동 경계는 브라우저와 API를 넘어서야 한다
2026년의 에이전트 논의는 브라우저 기반 에이전트와 API 통합이 주도하고 있다. LangGraph, CrewAI, Google ADK는 번성하는 멀티-에이전트 오케스트레이션 생태계를 구성한다. 그러나 퍼세우스는 구조적 맹점(structural blind spot)을 발견한다. 전 세계 대부분의 디지털 활동은 소셜, 결제, 게임, 커뮤니케이션 등 모바일 네이티브 앱에서 발생하지만, 이 앱들은 공개 API가 없고, 브라우저와 동등한 대체 수단도 부재하다. 기존 프레임워크는 위챗, 도우인, 왓츠앱, 알리페이 등을 조작할 수 없다. 모바일은 전 세계에서 가장 지배적인 컴퓨팅 인터페이스임에도 불구하고, 모바일 네이티브 에이전트 인프라는 사실상 제로에 가깝다.
퍼세우스의 고민은 다음과 같다. 왜 모두가 AI에게 브라우저 조작을 가르치는 데 집중하면서, 진정으로 모바일 조작을 가르치려는 사람은 없는가? 브라우저 에이전트의 번영은 웹이 자동화에 천연적으로 우호적인 환경—DOM, API, Playwright와 같은 성숙한 도구 체인—을 제공하기 때문이다. 그러나 모바일은 완전히 다른 세계다. 네이티브 앱은 블랙박스이며, 구조화된 인터페이스 설명이 없고, 조작은 인간의 터치 및 슬라이드를 시뮬레이션하는 방식으로만 가능하다. 이 문제의 난이도는 LLM이 버튼을 눌러야 할지 여부를 판단하는 데 있지 않다. 오히려 실행 계층(execution layer) 전체의 인프라를 처음부터 구축해야 하는데, 여기에는 기기 연결 관리, 화면 상태 해석, 멀티-에이전트 간 기기 독점성, 민감 작업의 보안 경계 등이 포함된다.
이 판단은 OpenPocket의 탄생을 이끌었다. 이는 ADB를 통해 LLM이 구동하는 에이전트가 안드로이드 기기를 자율적으로 조작할 수 있도록 지원하는 오픈소스 프레임워크로, 현재 10여 명의 기여자와 500회 이상의 커밋을 기록하고 있다. 실제 사용 사례는 매우 의미심장하다. 소셜 미디어 계정 자동 관리, IM 메시지 자동 회신, 모바일 결제 및 청구서 처리, 심지어 모바일 게임 자동 플레이까지 가능하다. 한 전형적인 시나리오는 사용자가 자연어로 “매일 아침 8시에 Slack을 열어 출석체크를 해줘”라고 명령하면, 에이전트는 격리된 세션에서 이 작업을 영구적으로 실행하며, 매일 반복되는 수작업을 백그라운드 자동화로 전환하는 것이다.
퍼세우스는 이 프로젝트에서 그가 핵심이라고 판단한 몇 가지 제품 및 아키텍처 선택을 했다. 첫째, 에이전트는 실행 중에 자동으로 새로운 Skill을 생성할 수 있다. 익숙치 않은 조작 프로세스를 마주할 경우, 학습한 단계를 재사용 가능한 SKILL.md로 저장해 다음에 바로 호출할 수 있다. 이는 에이전트가 고정된 역량을 갖춘 도구가 아니라, 사용할수록 강해지는 시스템임을 의미한다. 둘째, 모든 민감 작업은 반드시 인간의 승인을 받아야 하며, 에이전트 스스로 안전성을 판단하게 해선 안 된다. 그에 따르면, 자율 에이전트가 가장 위험한 순간은 실수를 저지르는 것이 아니라, 자신이 옳다고 ‘확신하며’ 실수를 저지르는 순간이다. 셋째, 각 에이전트는 완전히 격리되어 독립적인 기기, 설정, 세션 상태와 바인딩되며, 여러 에이전트가 동시에 실행되더라도 서로 간섭하지 않는다. 만약 TypeScript 엔지니어만이 에이전트의 역량을 확장할 수 있다면, 이 생태계는 결코 성장하지 못할 것이다. 따라서 OpenPocket은 Claude Code와 마찬가지로, SKILL.md를 역량 확장의 표준 형식으로 채택했다.
전체 시스템은 29종 이상의 LLM 설정을 지원하며, 에이전트가 사용하는 휴대폰과 사용자의 개인 휴대폰은 완전히 분리되고, 모든 데이터는 로컬에 보관된다. OWASP가 ‘도구 남용’을 에이전트 기반 AI의 10대 위험 요소 중 하나로 지정하고, EU AI Act의 고위험 의무가 시행을 앞둔 2026년, 이러한 로컬 우선(local-first), 인간 참여(human-in-the-loop) 설계는 보수적이지 않다. 오히려 에이전트가 현실적인 시나리오에 진입하기 위한 전제 조건이다.
세 번째 판단: 오픈소스의 가치는 코드 자체가 아니라 인프라 계층의 표준 정의에 있다
퍼세우스가 생각하는 오픈소스란 단순히 ‘코드를 GitHub에 올리는 것’이 아니다. 그는 반복해서 강조한다. 2026년의 AI 오픈소스 생태계는 표준이 아직 고착되지 않은 창(window period)에 처해 있으며, 지금 커뮤니티에서 채택된 아키텍처 패턴과 인터페이스 규격은 향후 수년간 전 산업의 기본 인프라가 될 것이라고. 이 창 기간 동안, 기존 솔루션을 최적화하는 것보다 새로운 생태계 자리를 정의하는 것이 훨씬 더 중요하다.
구체적으로, 그의 Skill 프로젝트는 기술적 차원에서 의미 있는 일을 이뤄냈다. 즉, SKILL.md 형식이 단순한 엔지니어링 도구의 컨테이너가 아니라, 충분히 일반화된 도메인 지식 코딩 표준임을 입증한 것이다. 동일한 SKILL.md 파일이 Claude Code, OpenAI Codex CLI, OpenClaw에서 모두 로드 및 실행 가능할 때, 그것은 사실상 AI 에이전트 생태계의 ‘이식 가능한 역량 단위(portable capability unit)’가 되는 것이다. 퍼세우스는 공학 분야가 아닌 GTM이라는 전체 워크플로를 이 형식에 담았고, 감사에서 코드 수정까지의 종단 간 자동화를 실제로 구현함으로써, 이 Skill 표준의 보편성을 무게 있게 검증했다.
한편, 그의 모바일 에이전트 프로젝트는 에이전트 실행 계층의 아키텍처 공백을 메웠다. 기존 에이전트 프레임워크는 도구 호출 측면에서 구조화된 인터페이스—API든 DOM이든—에 의존한다. 그러나 OpenPocket은 구조화된 인터페이스가 전혀 없는 환경에서 작동해야 하므로, 순수하게 화면 픽셀 해석(screen pixel parsing)과 터치 이벤트 주입(touch event injection)에만 의존해야 한다. 이는 프로젝트가 에이전트의 인지-판단-실행(cognition-decision-execution) 루프를 하위 계층부터 다시 설계하도록 강제했다. 여기에는 기기 상태의 실시간 해석, 멀티-에이전트 간 기기 독점 프로토콜, 그리고 실패 시 자동 복구 메커니즘 등이 포함된다. 이는 기존 에이전트 프레임워크에 대한 단순한 적응이 아니라, ‘API 없는 환경에서의 자율 조작’이라는 문제에 대해 독자적으로 진화한 아키텍처 솔루션이다.
두 프로젝트의 엔지니어링 설계는 별도로 언급할 가치가 있다. OpenPocket은 Manager, Gateway, Agent Runtime의 3단계 분리 아키텍처를 채택하여, 각 계층을 독립적으로 개선할 수 있도록 했고, 커뮤니티 기여자는 자신이 익숙한 계층에만 집중하면 된다. GTM Engineer Skills의 각 Skill은 단계별 파이프라인(pipeline) 설계를 따르며, 이전 단계의 출력이 다음 단계의 입력이 되고, 중간에 강제적인 품질 검증 게이트(gate)가 있어, 워크플로는 임의 단계에서 중단·복구가 가능하며, 오류는 특정 단계로 정확히 추적 가능하다. 이러한 아키텍처 선택의 목적은 하나다. 바로 오픈소스 프로젝트가 실제 사용자에 의해 생산 환경에서 신뢰받을 수 있도록 하는 것이다.
제품 관점에서 보면, 두 프로젝트는 또 다른 공통점을 갖는다. 퍼세우스는 설계 과정에서 항상 ‘누가 사용할 것인가’, ‘어떻게 확장할 것인가’를 아키텍처 결정의 최우선에 놓았다. GTM Engineer Skills의 목표 사용자는 엔지니어가 아니라 성장 팀(Growth Team)이므로, 각 Skill은 명확한 입력·출력 계약과 내장된 품질 검증을 갖춰, 비기술 사용자도 에이전트가 무엇을 하고 있는지 쉽게 이해할 수 있다. OpenPocket의 SKILL.md 확장 메커니즘, 자연어 기반 예약 작업, 텔레그램·디스코드·왓츠앱·CLI 등 다양한 채널 접속 지원은 모두 비공학 사용자의 진입 장벽을 낮추기 위한 것이다. 그에 따르면, 오픈소스 인프라 프로젝트가 엔지니어만 사용할 수 있다면, 그 성장 한계는 엔지니어 커뮤니티의 크기에 불과하다. 진정한 레버리지(leverage)를 갖춘 설계란, 에이전트의 역량 경계를 모든 분야의 실무자들이 공동으로 확장할 수 있도록 하는 것이다.
이러한 패턴은 그의 여러 프로젝트 전반에 걸쳐 일관되게 나타난다. 기존 프레임워크 위에서 애플리케이션 계층 개발을 하는 것이 아니라, 에이전트 생태계의 인프라 계층에서 누락된 구성요소를 식별한 후, 그것을 직접 만들어내는 것이다.
더 큰 그림
2026년의 오픈소스 AI 생태계는 2010년대 초반 클라우드 네이티브 생태계가 겪었던 시점과 유사한 순간을 맞이하고 있다. 인프라 계층의 표준과 도구들이 정의되는 과정에 있으며, 이러한 정의는 향후 수년간 전체 산업의 발전 방향을 제약할 것이다. 이 창 기간 동안, 커뮤니티에서 채택된 각 Skill 형식, 검증된 각 에이전트 아키텍처 패턴, 메워진 각 생태계 공백은 모두 AI의 다음 인터페이스 계층을 형성하는 데 기여하고 있다.
퍼세우스 양이 하고 있는 일은 단순하다. 공학 역량과 제품 사고를 바탕으로, AI 시대의 기술 최전선에서 범식을 탐색하는 것이다. 모델은 계속 강해질 것이다. 그러나 에이전트가 실제 세계와 어떻게 상호작용해야 하는지를 정의하는 주체는 누구인가? 도메인 지식을 어떤 형태로 코딩하고 배포해야 하는지를 결정하는 주체는 누구인가? 이러한 질문들에 대한 답은 모델 안에서 자라지 않는다. 오직 직접 만들고 시도해보는 사람들만이 하나씩 찾아낼 수 있다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News













