a16z: OpenAI 등은 애플리케이션 계층의 모든 기회를 없애지 않을 것이다. 당신의 AI 불안 증상을 내려놓으라

2026.05.29

a16z: OpenAI 등은 애플리케이션 계층의 모든 기회를 없애지 않을 것이다. 당신의 AI 불안 증상을 내려놓으라

OpenAI가 모든 AI 애플리케이션을 죽일 것인가? a16z: 당신은 잘못된 길로 가고 있습니다.

2026.05.29 - 03:24:16

Web3 심층 보도에 집중하고 흐름을 통찰

OpenAI가 모든 AI 애플리케이션을 죽일 것인가? a16z: 당신은 잘못된 길로 가고 있습니다.

저자: Joe Schmidt IV

번역 및 편집: TechFlow

TechFlow 리드: AI 창업가들이 가장 걱정하는 것은 무엇인가? OpenAI와 Anthropic가 애플리케이션 계층의 모든 기회를 압도해 버릴까? a16z 파트너는 ‘노란 벽돌길(Yellow Brick Road)’ 이론을 통해 이에 대한 해답을 제시한다. 대규모 언어 모델 연구소는 수평적·단일 단계 작업만을 주도할 뿐이며, 진정한 기회는 수직적 시나리오, 다단계 워크플로우, 그리고 규제 준수 요건이 엄격한 분야에 있다. 이 글은 AI 창업가와 투자자 모두에게 반드시 읽어볼 가치가 있다.

최근 나는 창업자들과 잠재적 직원들로부터 반복적으로 같은 질문을 받았다. “AI 애플리케이션 계층에서 아직 할 수 있는 일이 남아 있나요, 아니면 OpenAI와 Anthropic가 모든 것을 잡아먹을 것인가요?”

이 질문 뒤에는 특유의 ‘AI 불안 증후군’이 자리하고 있다. 일부 사람들은 유일하게 영구적인 하위 계층으로 전락하지 않으려면, 대형 연구소 내부에 머무르거나 로봇공학·하드테크 등 최전선 분야로 가야 한다고 결론 내린다—이론상 ‘연구소가 닿지 못하는 것’이라면 무엇이든 상관없다는 것이다. 만약 모든 소프트웨어가 Codex나 Claude에 의해 직접 흡수되거나, 미래 모델이 당신이 하는 일을 불필요하게 만들 거라면, 어서 도망치라!

듣고 보니, 저는 거의 모든 사람처럼 극단적인 AI 옹호자입니다. 그들의 주장은 절반 정도는 맞습니다. 연구소는 실제로 방대한 애플리케이션 표면을 흡수하고 있습니다. 그러나 ‘애플리케이션 계층’은 동질화된 기회가 아닙니다. 올바른 프레임워크는 당신이 ‘노란 벽돌길’ 위에 서 있는가, 아니면 오즈의 다른 곳에 있는가에 달려 있습니다.

‘노란 벽돌길’은 연구소가 막대한 자원을 투입해 걷고 있는 경로를 줄여 부르는 말입니다. 연구소는 코드 생성, 글쓰기, 이미지 창작과 같은 문제를 해결하기에 가장 적합합니다. 왜냐하면 이러한 문제는 원시 모델 성능 향상과 함께 자연스럽게 개선되기 때문입니다. 사전 학습 및 사후 학습에 쓰이는 1달러마다 제품 품질이 향상되는 것이죠. 한편, 오즈의 다른 곳에는 더 복잡하고 일반적으로 수직화된 문제가 존재합니다. 이 문제들은 단순히 비즈니스 사용자에게 수평적 도구와 표준 도구, 컴퓨터 사용법을 제공하는 것처럼 간단하지 않습니다. 여기서의 가치는 모델 자체의 원시 능력보다는(그 능력도 여전히 중요하지만!), 특정 산업 내에서 출력 결과를 신뢰할 수 있고, 규제를 준수하며, 실용적으로 활용 가능한 상태로 만드는 ‘모델 주변의 발판(scaffolding)’에서 더 많이 창출됩니다.

이 현상을 우리는 지금 바로 목격하고 있습니다. OpenAI와 Anthropic이 실제로 시장에 알리고 있는 바에 따르면, 그들은 범용 AI 동료로 모든 문제를 해결할 수 없다고 인정하고 있습니다. 이에 따라 기업을 위해 자사 모델을 구성하고 맞춤화하는 데 초점을 맞춘 대규모 선제 배포 합작 기업을 발표했습니다. 다음 모델 출시만 기다리면 문제가 해결될 것이라 믿는다면, 이런 프로젝트에 수십억 달러를 투자하지는 않을 것입니다.

즉, AI 애플리케이션을 구축해 부를 축적하려 한다면—노란 벽돌길을 피하고, 오즈의 다른 곳을 건설해야 합니다. 아래는 우리가 배운 바, 그리고 우리 포트폴리오 창업자들이 배운 바 중에서 실제로 효과가 입증된 내용입니다.

노란 벽돌길

당신이 회사를 설립하려 한다면, 노란 벽돌길은 가장 눈에 띄는 길이지만 동시에 가장 위험한 길이기도 합니다. 고성능 모델 하나를 가져와, G Drive, Slack, Salesforce, Notion, GitHub 같은 기성 연결기(Connector)를 몇 개 꽂은 후, 그 위에 어떤 형태의 에이전트 오케스트레이션 계층을 게시하는 것이죠. 정말 멋진데요!

문제는 이것이 바로 Cowork 및 Codex를 통해 연구소가 현재 진행 중인 작업이라는 데 있습니다. 당연히 그들은 모델을 보유하고 있으므로, 더 나은 마진, 통제권, 그리고 하류 참여자들에게 가격 결정권을 행사할 수 있는 힘을 갖습니다. 그러나 아마도 가장 중요한 점은, 그들이 자신의 제품이 어떤 문제를 잘 해결하도록 설계할지를 정의하는 아키텍처 선택권을 확보했다는 사실입니다. 지금까지 그들은 모델 + 도구 호출 패턴을 신중하게 적용해 왔으며, 이는 바로 노란 벽돌길 위에서 수행되는 수평적·저단계 작업에 필요한 방식입니다. 심지어 스타트업이 Codex나 Claude Code를 어느 정도 넘어서는 성과를 낸다 해도, 연구소는 압도적인 유통 채널과 AI 분야 최대의 브랜드 홍보 효과를 지니고 있습니다.

당신이 AI 애플리케이션 기업이라면, 동일한 연결기를 사용해 이 방식을 실행하면서, 하위 에이전트나 구성 요소 없이, 또 별도의 유통 채널 없이 운영한다면, 당신은 ‘어디에도 가지 못하는 길’을 걷고 있을 가능성이 높습니다.

오즈의 다른 곳

스타트업에게는 결코 운이 나쁘거나 어두운 전망만 있는 것은 아닙니다. 노란 벽돌길 밖에는 거대한 기회가 있으며, 스타트업은 여기서 고객을 직접 확보하고 복잡한 문제를 해결할 명확한 경로를 확보할 수 있습니다.

이 기업들은 모델을 도구, 자동화, 통합(즉, 소프트웨어)의 복잡한 네트워크 속에 스며들게 함으로써 에이전트 기반 경험을 구축합니다. 이로 인해 스타트업은 본래부터 수직화되어 있습니다. 그들은 다단계·다참여자 워크플로우에 집중할 수 있으며, 역할 및 수직 분야별 특정 작업을 위한 하위 에이전트를 활용합니다. 이는 Anthropic이나 OpenAI가 수평 플랫폼으로는 도달할 수 없는 영역입니다. 예를 들어, 여러 시스템에서 컨텍스트를 수집한 후, 각 단계에서 승인을 받아야 하는 여러 사람에게 이를 라우팅하는 작업이 여기에 해당합니다. 이 과정은 일반적으로 하나 이상의 레거시 시스템을 포함하며, 결정론적 결과를 요구하고, 모호함을 용납하지 않으며, 때때로 특정한 가치 있는 비즈니스 성과와 연계됩니다. 연구소는 이러한 문제의 가치를 잘 알고 있습니다. 그래서 자사의 외주 설정 스토어를 구축하고, 고급 강화학습 사업 카테고리 전체를 형성하는 것입니다.

왜 오즈의 다른 곳은 ‘마법사’가 차지하지 못할까?

위 주장에 대한 일반적인 반응은, 지금까지 모델/연구소가 계속해서 개선되지 않을 것이라고 베팅하는 것은 꽤 안 좋은 거래였다는 점입니다. 그들은 분명히 계속해서 좋아질 것이며, 결국 이러한 애플리케이션 계층 서비스 시장을 잠식해 갈 것입니다.

연구소는 분명히 개선될 것입니다. 그러나 저는 오즈의 다른 곳이 시간이 지남에 따라 자신을 보호할 수 있는 몇 가지 방법이 있다고 생각합니다.

데이터 및 학습 피드백 루프:

당신이 내재화한 많은 것들이 어떤 트레이닝 데이터셋에도 포함되어 있지 않습니다—비공식적인 산업 규범, 문서화되지 않은 표준, 현장 종사자들의 머릿속에만 존재하는 ‘부족 지식(Tribal Knowledge)’. 이 모든 것은 공개 네트워크 상에 존재하지 않습니다. 아무리 많은 트레이닝 컴퓨팅을 투입해도, 실제 이러한 지식이 작동하는 워크플로우 속에 직접 몰입하는 것만큼은 대체할 수 없습니다. 여기에는 두 가지 중첩된 피드백 루프가 있습니다. 하나는 고객 간 루프—동일한 문제의 다양한 변형을 더 많이 접할수록 축적되는 패턴—이고, 다른 하나는 고객 내부 루프—특정 의사결정 뒤에 숨은 이유, 명시되지 않은 예외, 기업 고유의 경험 법칙 등으로, 이는 시스템과의 실제 상호작용을 통해서만 드러납니다.

고객 데이터가 고객 간 공유되지 않더라도, 애플리케이션 기업은 고객 간 문제 유형의 패턴 인식을 활용하여 미래 문제에 대한 올바른 아키텍처를 제공할 수 있습니다. 예를 들어, 한 기업이 이미 법률 개정 100회, 보험 심사 사이클 1,000회, SDR 활동 10,000회를 자사 에이전트로 실행했다면, 이는 신규 진입자가 절대 재현할 수 없는 방식으로 문제의 ‘형태(shape)’를 내재화한 것입니다. 심지어 새 에이전트를 처음 시작하는 경우조차 말입니다.

수평적 에이전트는 이와 동일한 학습 인프라를 원칙적으로 구축할 수 있습니다. 그러나 그렇게 하지 않는 이유는 순전한 집중력 부족 외에도, 사용자 경험(UX)에 있습니다. 이러한 지식을 포착하는 것은 전적으로 사용자의 워크플로우 인터페이스에 달려 있으며, 수직 플레이어는 자신의 워크플로우가 필요로 하는 내용을 기반으로 이러한 인터페이스를 설계할 수 있습니다. 반면 수평 도구는 그러한 유연성을 갖추지 못합니다. 평가 데이터셋, 출력 라벨링, 엣지 케이스 분류 체계는 수직 특화된 데이터 피드백 루프로 누적되어 미세 조정(fine-tuning)의 연료가 되며, 신규 진입자는 비교 가능한 실제 운영 노출 없이는 이를 생성할 수 없습니다. 이것이 가능한지는 데이터 권리, 누적된 운영 노출량, 고객 계약 구조에 따라 달라지지만, 어쨌든 패턴 인식은 계속해서 축적됩니다.

모델 변동성 및 복잡성 관리: 연구소는 이미 내부적으로 라우팅을 수행하고 있습니다—요청 유형에 따라 서로 다른 모델 클래스를 사용하고, 밑바닥에서는 앙상블을 활용합니다. 그러나 그들이 할 수 없는 일은 공급업체 간 라우팅, 특정 하위 작업을 위한 경쟁사 모델 평가, 혹은 실제 최적의 좁은 영역을 위해 오픈소스 기반 미세 조정 모델을 사용하는 것입니다. 오즈의 다른 곳에 있는 기업들은 전체 모델 시장에서 각 하위 작업에 가장 적합한 모델을 선택합니다. 단지 자사 연구소에서 출시된 모델만을 사용하는 것이 아닙니다. 또한 아무도 하고 싶어 하지 않는 작업도 수행합니다—모델 업그레이드 시 매번 평가를 다시 실행하고, 고객의 엣지 케이스에 맞춰 프롬프트를 재교정하며, 생산 환경을 교란시키지 않고 새로운 버전을 롤아웃하는 작업입니다. 연구소는 고객을 대신해 이러한 작업을 수행하지 않습니다. 그들은 다음 세대 모델을 판매하고, 당신이 스스로 마이그레이션하라고만 말합니다. 오즈의 다른 곳의 기업은 이러한 마이그레이션 작업을 흡수합니다. 고객은 전체 시장에서 최고의 지능을 얻을 뿐 아니라, 매번 업그레이드 시에도 연속성을 보장받습니다.

비용 최적화: Opus 4.7을 이용해 모든 쿼리를 실행하는 것은 마이너스 마진으로 가는 가장 빠른 길입니다. 최고의 오즈의 다른 곳 기업들은 모델 계층 간 라우팅을 수행합니다—가장 어려운 작업은 최첨단 모델이 처리하고, 대부분의 작업은 중간 수준 모델이 담당하며, 권한을 획득한 곳에서는 더 작고 맞춤화되거나 미세 조정된 모델을 활용합니다. 일부 기업은 이제 이 기반 위에서 자사 모델을 후처리 학습(post-training)하여, 고객이 관심 있는 좁은 작업 영역에 특화된 최적화를 수행하고, 최첨단 API 호출 비용의 일부분만으로 서비스를 제공합니다. 연구소는 ‘밑줄 금액’을 기준으로 가격을 책정합니다—X달러에 제공되는 최소 지능. 오즈의 다른 곳 기업은 정반대의 개념을 판매합니다—워크플로우가 실제로 필요로 하는 특정 수준의 지능을 제공하는 데 드는 최소 달러 비용. 이것은 각 하위 작업이 정확히 어떤 수준의 지능을 필요로 하는지 정확히 알아야만 가능합니다. 그런데 연구소는 구조상 각 수직 분야 전반에 걸쳐 이를 알 수 없습니다. 이는 직접적으로 낮고 통제 가능한 결과 가격으로 전환됩니다.

거버넌스(Governance): 고객이 해당 수직 분야에서 AI를 운영하는 ‘제어 평면(Control Plane)’이 되는 것은 상당한 가치를 지닙니다—이는 권한, 감사, 에이전트가 허용된 행위, 그리고 실제로 수행한 행위가 모두 집약되는 지점입니다. 이 제어 평면은 특정 용례에 맞춘 ‘울타리(Fence)’로 구성되며, 이 울타리는 산업 및 업무 유형에 따라 완전히 다르게 나타납니다. 그들이 도구, 워크플로우, 에이전트가 접촉하는 데이터를 종단 간(end-to-end)으로 소유하기 때문에, 수평 도구가 어렵게 느끼는 방식으로 결정론적 결과를 제공할 수 있습니다. 또한 최종 구매자를 대신해 규제 복잡성을 흡수하는 실체이기도 합니다—법률 분야의 FRCP 및 변호사 협회 규정, 의료 분야의 HIPAA, 금융 분야의 SEC 및 FINRA, 주 보험 규제 등. 수평 플레이어는 100개가 넘는 수직 분야를 동시에 운영하지 않는 한, 이를 신뢰성 있게 수행할 수 없습니다. CIO는 계약서에서 자사가 제공하는 에이전트의 규제 준수를 책임진다고 명시하는 파트너를 원합니다.

이 모든 것은 한 가지로 귀결됩니다: 집중. 이는 특정 수직 분야(보험, 법률, 회계)일 수도 있고, 깊이 있게 완성된 기능(영업, 고객 지원, 재무)일 수도 있습니다. 어떤 방식이든, 이 작업은 고객군의 워크플로우, 엣지 케이스, 규제에 집중하는 팀을 필요로 합니다. 연구소는 이를 위해 설계되지 않았습니다. 그들은 누구에게나 어디서나 서비스를 제공해야 하며, 이것이 바로 그들이 먼저 노란 벽돌길을 건설한 이유입니다. 같은 구조적 타협이 그들을 오즈의 다른 곳으로부터 멀어지게 합니다—당신은 동시에 ‘어 everywhere’가 될 수도 있고, ‘어떤 한 가지’에서 탁월해질 수도 있지만, 둘 다는 불가능합니다.

실천 사례: 영업 — 11x 기술 CEO의 실용적 조언

실제로 이 문제를 어떻게 접근해야 할까요? 11x CEO Prabhav Jain의 실용적 조언을 소개합니다.

결과 중심 집중

연구소에 대한 회복탄력성을 갖춘 기업을 구축하는 전술적 경로는, 고객이 실제로 관심을 갖는 특정 결과에서 출발하는 것입니다. 우리에게 그것은 기업이 더 많은 영업 리드(Sales Lead)를 생성하도록 돕는 일이었습니다. 여기서부터 문제는 전술적으로 구체화됩니다. 우리는 리드 생성을 실제로 촉진하는 어떤 종단 간 활동을 직접 소유해야 할까요? 각 활동을 세부 작업으로 분해합니다. 어떤 작업은 에이전트화될 수 있고, 어떤 것은 그렇지 못합니다. 어떤 작업은 복잡한 분야 전문 지식을 필요로 하고, 어떤 것은 그렇지 않습니다. 연구소도 워크플로우를 출시하지만, 워크플로우가 단계가 많고, 입력이 혼란스럽고, 상태를 해석하기 어려우며, 현실 세계의 제약이 존재할 때는 단순히 더 나은 모델만으로는 목표에 도달할 수 없습니다. 이때는 전통적인 소프트웨어 엔지니어링이 등장하며, 연구소는 이 영역에서 집중된 애플리케이션 기업에 비해 어떤 이점도 없습니다. 예를 들어, 우리가 처리하는 다음 작업들은 일부는 에이전트화되었고, 일부는 그렇지 않았습니다: 맞춤 신호 기반 잠재고객 탐색, 잠재고객 정보 풍부화, 심층 계정 조사, CRM에서 컨텍스트 추출, 특정 채널 메시지 작성자, 잠재고객 자격 검증 에이전트, 이메일 전송 시스템. 이는 단번에 완료할 수 있는 작업이 아니며, 심도 있는 엔지니어링이 필요합니다.

오즈의 비유에서 핵심 통찰은, 실제 워크플로우에서 약 절반에 달하는 비-에이전트화 부분이 연구소의 이점을 전혀 누리지 못한다는 점입니다. 그들은 모델 계층 아래의 결정론적 소프트웨어를 작성하는 데 있어서 당신보다 우월하지 않습니다. 그리고 에이전트화된 나머지 절반 역시, 실제로 원하는 결과에 맞춰 모델을 조정하고, 훈련하고, 제약을 걸어야 합니다. 분야 전문 지식은 일반적인 훈련 데이터에 존재하지 않습니다. 이러한 기술은 수직 분야 또는 기능에 맞춰 처음부터 구축되며, 워크플로우의 정확한 순간에 모델에 입력됩니다. 예를 들어, 우리의 에이전트가 전화 통화를 통해 유입된 리드를 자격 검증할 때, 저는 해당 산업 및 역할에 적합한 우수한 영업 대화를 기준으로 모델을 훈련시켜야 했습니다. 이는 애플리케이션 기업의 역할이며, 이 역량은 복리로 성장합니다.

더 중요한 점은, 이러한 기술은 비즈니스가 지속적으로 진화함에 따라 빠르게 시대에 뒤떨어진다는 점입니다. 따라서 이러한 워크플로우와 컨텍스트를 지속적으로 진화시킬 수 있는 능력이야말로 진정한 경쟁 우위입니다. 예를 들어, 우리가 규모화된 이메일 외부 영업(Outreach) 제품을 출시했을 당시, ‘AI’가 작성한 이메일은 막 등장한 상태였습니다. 오늘날에 이르러, 사람들은 AI 작성 이메일과 인간 작성 이메일을 매우 민감하게 구분하며, 이 판단력은 매 몇 달마다 변화합니다. 우리의 에이전트는 시장 역학에 끊임없이 적응해야 하지만, 바로 이 지점에서 ‘보호막(Moat)’이 형성됩니다. 실제로, 시장이 끊임없이 변화함에도 불구하고, 지난 몇 달간 우리의 긍정적 응답률은 4배 증가했으며, 고객에게 수억 달러 규모의 영업 기회를 창출했습니다.

복잡도가 높은 문제 중심 집중

복잡한 문제야말로 진정한 비즈니스 가치를 해방시키는 곳입니다. 그렇지 않으면, 당신은 단지 얇은 포장층을 구축하는 데 그치게 될 것입니다.

충분히 복잡한 비즈니스 문제를 분해하면, 곧바로 혼란이 드러납니다. GTM 분야의 예시 하나를 들겠습니다. 아주 단순해 보이지만, 다음과 같습니다: “어떤 기업이 이미 고객이라면, 그 기업의 연락처에 더 이상 연락해서는 안 된다.” 그러나 현실은 훨씬 복잡합니다. 아마도 귀하의 CRM에는 해당 기업의 도메인이 기록되어 있을 겁니다. 그렇다면 수십 개의 자회사를 보유한 기업은 어떨까요? CRM 기록에 기재된 것이 모기업의 도메인이라면요? Salesforce 내 만료된 매칭 필드로 인해, 기존 고객의 CRO에게 차가운 이메일이 발송된다면요? 현실 세계의 데이터는 혼란스럽습니다. 인간조차 이를 처리하기 어려운데, 모델이 마법처럼 이 장벽을 넘을 수는 없습니다. 혼란 속에서 질서를 찾아내려면, 특정 문제 형태에 특화된 에이전트가 필요합니다. 단순히 CRM을 가리키는 범용 부조종사(Copilot)가 아닌 것이죠. 실제로 우리 데이터에 따르면, 우리는 고객보다 훨씬 높은 데이터 품질과 신선도를 보유하고 있다는 사실을 인지했고, 따라서 기본적으로 우리 데이터를 우선 기준으로 삼습니다.

울타리(Fence)는 단순히 ‘나쁜 일’을 막기 위한 것이 아닙니다. 이것이 바로 고객이 당신에게 돈을 지불하는 이유입니다.

울타리는 심각하게 과소평가되고 있습니다. 심지어 동일한 제품 내에서도, 각 용례는 고유한 울타리를 필요로 합니다. 우리에게는 규제가 엄격한 금융 서비스 잠재고객과 중소기업(SMB) SaaS 고객이 요구하는 보호 수준이 완전히 다릅니다. 이러한 보호 수준은 에이전트가 콘텐츠를 어떻게 작성할지, 누구에게 연락할 수 있는지, 어떤 데이터에 접근할 수 있는지, 전화 통화에서 무엇을 말할 수 있는지, 그리고 각 의사결정이 어떻게 기록될지에까지 침투합니다.

일괄 적용 방식의 시스템은 이러한 차이 앞에서 무너집니다. 울타리는 용례별로 구축되어야 하고, 고객별로 설정되어야 하며, 지속적으로 감사되어야 합니다. 이 작업은 전적으로 애플리케이션 기업의 몫입니다. 그래서 우리는 전담 배포 엔지니어(FDE)와 기술 배포 전략가를 고용해, 각 고객의 요구에 맞춰 조정하고 있습니다. 예를 들어, 우리는 Fortune 1000 기업 중 한 곳과 협력하여, 음성 기반으로 대규모 중소기업 고객군에게 사전 동의를 얻은 외부 전화를 걸고 있습니다. 초기 반복 단계에서는 응답률이 낮았습니다—우리는 빠르게 반복하며, 이 특정 대상 고객이 통화 시작 후 10초 이내에 참여하도록 유도하는 방법을 배워야 했습니다. 중소기업 경영자들의 행동은 대규모 B2B 구매자나 소비자와 완전히 다릅니다. 지금 우리는 하루에 이 고객사에게 제공하는 영업 기회가, 해당 세그먼트의 전체 영업 팀이 한 달 동안 창출하는 것보다 많습니다.

보험 분야 사례 — FurtherAI CEO의 실전 조언

영업은 하나의 예시일 뿐입니다. 보험은 같은 원리를 다른 각도에서 설명하는 또 다른 사례입니다. FurtherAI CEO Aman Gour이 ‘길 밖에서’ 구축하는 방법에 대해 제시한 통찰을 소개합니다.

우리가 실제 보험 업무에 AI를 배포하기 시작했을 때, 우리는 끊임없이 하나의 특정 가정을 듣게 되었습니다: “모델이 곧 지능이며, 워크플로우는 단지 그 주변의 발판일 뿐이다.”

점점 더 많은 보험사와 협력해 오면서, 우리는 이 관점이 틀렸다는 확신을 굳히고 있습니다.

보험 분야에서는 많은 지능이 워크플로우 자체에 내재되어 있습니다. 두 보험사가 동일해 보이는 보험 청구서 경로—제출, 심사, 견적, 보험 계약—를 거친다고 해도, 경로 자체는 단순한 부분입니다. 두 회사를 구분 짓는 것은 바로 이 경로 내부의 모든 요소입니다: 어떤 위험이 상위로 보고되어야 하는가, 어떤 손실 신호가 중요한가, 두 가지 위험 선호 규칙이 충돌할 때 어느 쪽이 우선하는가, 언제 인적 승인이 필요한가, 어떤 외부 데이터를 호출해야 하는가, 그리고 최종 결정이 어떻게 기록되는가.

이러한 논리는 깔끔한 규칙 엔진(rule engine) 안에 존재하지 않습니다. 그것은 표준 운영 절차(SOP), 관리자 심사, 보험 심사 철학, 기업 고유의 위험 선호도, 그리고 수년간의 운영 경험 속에 흩어져 있습니다. 이 중 상당수는 모델이 직접 읽을 수 있는 형태로 기록되지도 않았습니다.

그래서 우리는 매번 처음부터 추론하는 순수한 에이전트도, 혼란스러운 현실에 직면해 무너지는 경직된 워크플로우도 믿지 않습니다. 우리가 지금까지 구축해 온 것은 ‘에이전트화된 워크플로우(Agentified Workflow)’입니다. 워크플로우는 반복 가능성, 감사 가능성, 비용 통제를 제공합니다. 에이전트는 변화성을 처리하고, 이상적인 경로가 끊겼을 때 복구합니다. 책임 있는 판단이 필요한 단계에서는 인간이 계속 참여합니다.

첫날, 이는 수작업을 자동화합니다. 그러나 시간이 지나면서, 매번 상위 보고는 하나의 신호가 되고, 매번 예외는 피드백이 되며, 매번 인적 수정은 운영 매뉴얼의 불완전함을 드러냅니다. 시간이 흐르면, 워크플로우는 단순한 스크립트가 아니라 보험사의 운영 기억(Operation Memory)이 됩니다. 이는 연구소가 도달하기 어려운 부분입니다. 그들은 계속해서 더 나은 모델과 더 나은 범용 에이전트를 출시할 것입니다. 괜찮습니다. 그러나 그들은 보험사의 실제 운영 워크플로우 속에 충분히 오래 머물러, 어떤 계정이 상위 보고되었는지, 어떤 위험이 거부되었는지, 혹은 보험 심사관이 왜 위험 선호 가이드라인을 무시하고도 옳았는지를 이해할 수 없습니다.

이러한 이해는 오직 실제 운영 환경에서 워크플로우를 수천 번 실행해 봐야만 얻을 수 있습니다. 첫날 배포한 워크플로우는 보호막이 아닙니다. 시간이 흐르며 생산 사용에서 만들어지는 피드백 루프가 바로 보호막입니다.

우리에게 이것이 바로 ‘길 밖에서’ 구축한다는 의미입니다.

당신이 ‘오즈의 다른 곳’에 있는지 판단하는 방법

도구 및 단계 테스트: 이 작업을 수행하려면 얼마나 많은 단계가 필요하며, 이를 지원하기 위해 얼마나 복잡한 도구를 구축해야 하나요? Google Drive에서 수행하는 수평적 AI 검색—단계 하나, 도구 하나, 결과에 대한 오차 허용 범위가 크고, 사용자가 요약을 읽고 틀렸다고 판단되면 다시 질문할 수 있음—과, 3년간 로펌 선례를 기반으로 한 다단계 법률 개정—수십 단계에 걸쳐 여러 도구를 넘나들며, 출력물은 파트너의 검토를 통과해야 하고, 법정에서 변호되어야 할 수도 있음—을 비교해 보십시오. 두 경우 모두 ‘에이전트가 일을 한다’는 외형을 띠지만, 후자만이 전문 팀이 수년에 걸쳐 구축한 심층 소프트웨어를 필요로 합니다.

시스템 테스트: 당신은 고객이 작업을 실행하는 데 사용하는 ‘시스템(System)’을 구축하고 있는가, 아니면 고객의 기존 시스템 위에 얹히는 ‘도구(Tool)’를 구축하고 있는가? 시스템은 워크플로우를 종단 간으로 소유합니다—데이터 캡처, 거버넌스, 완료 기록—이것들이 바로 고객이 실제 작업이 어떻게 이루어지는지를 설명할 때 가리키는 대상입니다. 반면 도구는 고객이 이미 실행 중인 워크플로우에 지능을 추가할 뿐입니다. 도구 기반 시나리오는 실제 수익을 창출할 수 있지만, 고객이 오케스트레이션 계층으로서 당신에게 의존하지 않기 때문에 연구소가 이를 빼앗아 갈 수 있습니다. 높은 ACV(Annual Contract Value)는 일반적으로 시스템의 신호입니다. 왜냐하면 시스템은 실제 인력을 대체하고, 그에 따라 보수를 받기 때문입니다. 다만 이것이 보장되지는 않습니다. 스스로에게 물어보십시오. 만약 연구소가 당신과 직접 경쟁한다고 주장하는 제품을 출시한다면, 고객은 여전히 당신의 도구가 필요할까요? 그렇다면, 당신은 시스템을 구축하고 있는 것입니다. 아니라면, 당신은 도구를 만들고 있는 것입니다—ACV가 높더라도 말입니다.

헤지펀드/손익계산서(P&L) 테스트: 연구소의 성과는 벤치마크 테스트를 기준으로 평가되지만, ‘오즈의 다른 곳’의 성과는 고객의 손익계산서를 기준으로 평가됩니다. 고객은 당신의 모델이 SWE-Bench나 MMLU에서 얼마나 높은 점수를 받는지에는 관심이 없습니다—고객은 당신의 에이전트가 거래를 성사시켰는지, 계약서를 정확히 개정했는지, 혹은 올바른 보험 상품을 심사했는지에만 관심이 있습니다. 고객이 범용 능력 점수가 아니라 특정 워크플로우의 결과에 초점을 맞추고 있다면, 당신은 ‘오즈의 다른 곳’에 있는 것입니다. 고객이 범용 능력에 대해 비용을 지불한다면, 당신이 판매하는 것은 Claude나 Codex 구독만으로도 얻을 수 있는 것입니다. 최고의 에이전트 비즈니스는 헤지펀드처럼 실행되어야 합니다—벤치마크 점수가 아니라, 고객의 손익계산서에서 창출하는 알파(Alpha)로 승부해야 합니다.

둘 다 승리할 수 있고, 또한 승리할 것이다

우리는 ‘노란 벽돌길’ 위에서도, 길 밖에서도 거대한 승자들을 보게 될 것입니다. 모델은 계속해서 승리할 것입니다. 왜냐하면 그들은 모델을 보유하고, 또한 그들이 설계한 수평 도구의 유통 채널을 보유하고 있기 때문입니다.

‘오즈의 다른 곳’도 승리할 수 있습니다. 단, 그들이 ‘작업 시스템(Work System)’을 소유해야 합니다—기업이 실제 작업을 수행하는 인터페이스, 그리고 그곳에서 흐르고 포착되는 데이터를 말합니다. 이러한 기업은 데이터 캡처, 워크플로우 실행 시스템, 거버넌스를 모두 소유합니다. 수직 분야 내에서 더 복잡한 워크플로우가 성숙함에 따라, 이는 고객이 의존하게 되는 핵심 경험으로 복합적으로 성장합니다. 차세대 모델이 기존 플레이어와 신규 진입자로부터 출시될 때, 기업은 이러한 모델을 통합하고 고객에게 전달하는 계층이 됩니다. 바닥의 모델은 교체 가능하지만, 작업 시스템은 그렇지 않습니다.

차세대 기업용 소프트웨어는 길 밖에서 구축될 것입니다.

당신이 그런 소프트웨어를 구축하고 있다면, 다음 주소로 연락해 주십시오: [email protected].

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

a16z