
AI 투자자의 2026년 불안: 모델이 모든 것을 집어삼키는 시대, 스타트업의 경쟁 우위는 무엇을 남겼는가?
저자: 사라 구오(Sarah Guo)
번역·편집: TechFlow
TechFlow 서두: 대규모 언어 모델(LLM)이 모든 평가 지표(benchmark)에서 인간을 압도적으로 능가하기 시작하자, 투자자들은 일종의 절망에 빠지고 있다. “Anthropic과 엔비디아 외에는 투자할 만한 것이 아무것도 없다.” 이 글은 실리콘밸리 최정상급 투자자가 데이터와 사례를 바탕으로 제시한 통찰이다. 진정한 경쟁 우위는 평가 지표 위에 있지 않다—그것은 측정 불가능한 영역 속에 숨어 있다.
2026년 중반, 투자자들 사이에서 유행하는 AI 정신착란은 바로 이런 절망이다: “더 이상 투자할 만한 것이 없으니, 전부 Anthropic과 엔비디아에 몰아넣고 집에 가야겠다.”
나는 이런 감정을 한 번도 느껴본 적 없다. 나는 이미 모델이 나보다 여러 세대 앞서 더 똑똑해졌다는 것을 확신하고 있으며, 시장 가격으로 Anthropic과 엔비디아 주식을 기꺼이 매수할 것이다. 내 가장 영리한 친구들 역시 ‘자기 개선(self-improvement)’이 곧 성공할 것이라고 거의 확신하고 있다—하지만 그럼에도 나는 이 절망을 느끼지 못한다.
이 절망은 어리석지 않다. 논리는 이렇다. 만약 모델이 모든 분야에서 계속해서 향상된다면, 그 위에 구축된 모든 기업은 단지 얇은 포장일 뿐이며, 흡수될 준비만 기다리고 있는 것이다. 살아남을 수 있는 유일한 가치는 컴퓨팅 파워와 최첨단 모델 가중치뿐이다.
소프트웨어 분야를 예로 들어보자. 이는 절망론자들이 가장 신뢰하는 사례다. Devin은 2024년 출시 당시 표준 소프트웨어 벤치마크에서 단 13%의 작업만 해결할 수 있었고, 거의 무시되었다. 그러나 1년 반 후, 최고 수준의 에이전트는 80점 이상을 기록하며 골드만삭스와 미군 내부에서 실제 업무를 수행하고 있다. 거의 모든 이들이 같은 잘못된 교훈을 도출했다: “모델이 소프트웨어 공학을 삼켜버렸다.” 하지만 모델이 소프트웨어 공학 중 가장 측정하기 쉬운 부분을 잡아먹을 때, 우리는 오래전부터 많은 팀이 알고 있던 사실을 다시 깨닫고 있다—공학은 측정 자체를 거부해 왔으며, 가장 쉽게 측정되는 부분이 반드시 유일하게 중요한 것은 아니다.
MIT의 메르트 데미르(Mert Demirer)와 그 공동연구진이 비로소 수치로 이를 입증했다: 10만 명 이상의 개발자를 대상으로 조사한 결과, 최신 코딩 에이전트는 작성된 코드량을 약 180% 증가시켰고, 실제로 배포된 코드량은 약 30% 증가시켰다. 코드 작성이 싸졌다. 그러나 남은 부분은 여전히 사람을 통해 이루어져야 하며, 그것이 매우 중요하다. 물론 순효과는 여전히 놀랍다.
벤치마크란 측정 가능한 것이다. 그리고 측정 가능한 것은 곧 훈련할 수 있는 것이다. 따라서 코딩 에이전트가 가장 먼저 성숙한 이유는 컴파일러가 무료 검증기이자 테스트 스위트 또한 무료 검증기이기 때문이다. 답이 스스로를 무료로 검증할 수 있을 때, 당신은 그 검증을 반복적으로 활용해 끊임없이 개선하여 결국 그것을 능가할 수 있다. 그러나 테스트 통과 여부는 결코 다음과 같은 질문에 대한 답을 주지 않는다: “이 변경사항이, 3개의 문서화되지 않은 모듈이 존재하는 이유가 복잡하게 얽혀 있고, 배포 파이프라인이 누가 작성했는지도 인정하려 하지 않는 크론(cron) 작업 하나에 의존해 겨우 유지되는 10년 된 레거시 코드베이스에 대해 옳은가?”
그런 ‘정확성(correctness)’은 랭킹 차트에서는 읽을 수 없으며, 사실상 어떤 것도 통해서도 읽을 수 없다. 그러한 복잡한 시스템이 실제로 효과적인지를 알기 위해서는 현실 세계에서 충분히 오랜 시간 동안 실행해 보아야 한다. 그런데 더 똑똑한 모델이라 해도 세상을 더 빠르게 움직이게 하지는 못한다. 구글 규모의 시스템에 대해 누구도 유닛 테스트를 돌린 후 초록 체크 표시만 보고 믿지 않는다. 사람들이 그것을 믿는 이유는, 수년간의 실제 트래픽을 견뎌냈기 때문이다. 이런 정확성은 단순히 사적일 뿐 아니라, 자본이 붕괴시킬 수 없는 느린 형태의 경쟁 우위—즉, ‘느린 성채(slow moat)’이기도 하다. 낙관주의자조차도 시계를 건너뛸 수는 없다는 점을 인정한다. 오픈AI의 추론 모델 선구자인 노암 브라운(Noam Brown)은 최근 이렇게 썼다: “에이전트의 1년 간 성능을 신뢰성 있게 평가하는 유일한 방법은… 그 에이전트를 실제로 1년간 운영해 보는 것일 수 있다.”
가브 페레이라(Gabe Pereyra)가 말했듯, 진정한 자동화란 단순히 모델이 좋아지는 것이 아니다. 그것은 제품, 모델, 워크플로우, 기업이라는 네 가지 요소가 함께 움직이는 것이다. 그런데 이 네 가지 중 세 가지는 조직의 속도로 움직인다.
움직이는 ‘사람’은 벤치마크가 닿지 못하는 영역이다: 회의를 망설이는 파트너를 설득해 업무 방식을 바꾸게 만들기, 재구성 과정에서 팀의 결속력을 유지하기. 그래서 우리가 CEO를 채용할 때, 사람을 다루는 능력은 분석 능력만큼이나 중요하다. 더 똑똑한 모델이 등장한다고 해서 이 비중이 바뀌지 않는다. 피드백은 모호하며, 시간 범위는 수 년 단위이며, 신뢰는 특정 개인에게 귀속된다. 내가 아는 모든 기업이 모든 엔지니어에게 최첨단 코딩 모델을 제공하고 있지만, 그 어느 곳도 그 속도로 엔지니어링 조직을 변화시키지 않고 있다. 도입은 분기 단위로 이루어졌다—어쩌면 그건 정말 놀라운 토큰 성장 분기였을지도 모른다! 그러나 재구성은 수 년이 걸리고 있다.
눈에 보이는 것은 사라지고 있는 것이다. 가치 있는 업무는 구조적으로 보이지 않는다: 당신이 랭킹 차트에 올릴 수 있는 모든 것은, 곧 그것에 대해 훈련할 수 있는 것이며, 따라서 측정 가능한 모든 것은 이미 상품화의 길을 걷고 있다. 이 과정은 시간이 걸리며 결코 완전히 끝나지 않지만, 방향은 결코 되돌아가지 않는다. 리플링(Rippling)에서의 내 친구 매트 맥인니스(Matt MacInnis)의 표현을 빌리자면, “일반적인 질문에 답변하는 데 사용된 토큰은 거의 무가치하다. 왜냐하면 어떤 모델이든 그 질문에 답할 수 있기 때문이고, 반면 당신의 기업 데이터를 기반으로 추론하는 데 사용된 토큰은 훨씬 더 높은 가치를 지닌다. 왜냐하면 그것은 당신이 진짜로 원하는 일을 하기 때문이며, 단지 ‘타당해 보이는’ 일만 하는 것이 아니기 때문이다.”
보이는 업무는 두 방향에서 ‘삼켜지고’ 있다. 아래쪽에서, ‘작업 포화(task saturation)’가 발생한다: 일단 어떤 작업이 저렴하게 검증 가능해지면, 구매자는 ‘어떤 모델이 했는가’보다는 ‘얼마나 들었는가’를 묻기 시작하고, 작업은 그 주에 가장 저렴한 오픈소스 또는 지식 증류(distillation) 모델로 넘어간다. 그들이 영향을 미칠 수 있는 모든 곳에서, 마진은 결국 핵심이다. 위쪽에서는 연구실들이 모델이 자신의 ‘발판(scaffold)’까지 삼키도록 하려 한다. 정보 검색(retrieval), 저렴한 호출과 고비용 호출 사이의 라우팅, 도구 사용, 심지어 추론 전략까지—모델을 둘러싼 모든 장치들이 가중치로 흡수되어, 결국 ‘래퍼(wrapper)’ 자체가 모델이 된다. 이것이 바로 ‘선두 흡수(frontier absorption)’다. 마진 압박은 반대로도 작용한다: 일반적인 에이전트는 모든 일을 해야 하므로 비용이 크다. 반면, 특정 분야에 특화된 애플리케이션은 워크플로우를 최적화해 소량의 토큰만으로도 작동하게 만들 수 있으며, 토큰을 판매하는 연구실과 달리, 그 차액을 자신이 모두 가져간다.
따라서 우리는 어떤 종류의 업무라도 두 가지 질문을 던질 수 있다. 첫째, 그 정확성은 사적이고, 구축 비용이 매우 높은가? 즉, 단지 특정 기업의 데이터 내부에만 존재하는 진실인가? 둘째, 그 업무는 고립되어 있는가? 즉, 당신이 접근할 수 없는 시스템 내부에 잠겨 있는가? 이 두 질문을 작업의 ‘포화 정도’와 비교하면, 2×2 행렬이 완성된다. 공개된 정답을 요구하는 포화된 업무는 ‘상품화된 토큰’이며, 오픈소스 모델이 장악한다. 공개된 정답을 요구하는 선두 업무—즉, 코딩 벤치마크가 위치한 영역—은 연구실이 승리하는 곳이다. 왜냐하면 평가가 무료라면, 그것을 ‘가지고 있다’는 것 자체는 큰 의미가 없기 때문이다. 상금은 마지막 구석, 즉 ‘훈련 불가능한 영역’에 있다: 정확성이 오직 사적 영역 내에서만 존재하는 선두 업무. 당신은 AI 네이티브 선구 기업들을 호스팅하는 추론 클라우드에서 이를 확인할 수 있다. 대부분의 토큰은 일반적인 오픈소스 모델이 아닌 맞춤형 모델에 의해 생성된다.
마지막 구석에 진입하는 ‘벽의 높이’는 다양하다. 단일 개발자의 장난감 코드베이스는 이식 가능하고 표준화되어 있으므로, 그 벽은 낮다. 반면 은행의 프로덕션 시스템은 둘 다 해당되지 않으며, 당신은 SWE-Bench Verified에서 2% 더 잘한다고 해서 루트 권한을 얻지 못한다.
능력은 많은 것을 삼켜버리지만, 더 나은 모델은 사적 기본 사실(private ground truth)을 공개적인 것으로 만들지 않는다. 모델은 라이선스를 소유하지 않으며, 책임을 부담하지 않으며, 기업의 문서를 소유하지 않는다. 답이 틀렸을 때, 소송의 피고가 될 수도 없다. 여기서 병목은 지능이 아니라 허가권과 책임이다. 당신은 누구보다 훨씬 더 똑똑한 모델을 상상할 수 있지만, 여전히 그 모델은 문을 열어주어야 하고, 여전히 누군가가 그 모델이 한 일에 대해 서명해야 한다.
그 문에는 자물쇠와 문고리가 있다. 자물쇠는 환경(environment)이다: 당신은 보안 심사, 통합, 그리고 당신이 서명한 결과에 대한 계약을 마친 후에야, 시스템 내부에서 신뢰를 얻은 상태에서 AI가 유용한 일을 했는지 검증할 수 있다. 문고리는 사용자(user)다. 지금 미국의 대부분 의사들은 매일 OpenEvidence를 사용하지만, 어떤 양의 컴퓨팅 파워도 이를 살 수는 없다. 연구실이 내일 완벽한 의료 모델을 훈련시킨다고 해도, 의사들의 업무 습관이나 UC 샌프란시스코의 의사결정 프로세스에 진입할 수 없다. 왜냐하면 신뢰는 관계를 기반으로 서서히 형성되며, 사용자의 묵인을 필요로 하지, 그들의 그래디언트 디센트(gradient descent)를 지워버리는 것이 아니기 때문이다.
이것 역시 ‘일’이다. 애플리케이션은 눈에 띄지 않는 작업을 통해 훈련 불가능한 영역에서 자리를 잡는다: 기업의 사적 현실을 모델이 행동할 수 있도록 정리하고, 모델이 행동할 수 있는 도구를 제공하며, 고객과 협력해 직원들의 현실을 변화시키는 것이다. 번역 서비스를 제공하는 기업은 복제하기 어렵다—그리고 번역은 결코 끝나지 않는다. 통합 및 유지보수는 관계만큼 오래 지속되며, 해당 분야의 전문 엔지니어와 도구를 고객 측에 배치하는 팀이 이를 확보한다.
예를 들어, 최정상급 ‘화이트슈즈(white-shoe)’ 로펌에서 M&A 부문만 해도 연간 거의 천 건의 거래를 처리한다. 기밀 유지를 비롯한 수많은 이유로, 수백 명의 어시스턴트 각자가 고객 파일을 데스크톱으로 다운로드해 일반 에이전트에게 검토를 요청하는 것은 불가능하다. 설령 가능하다고 해도, 당신이 얻게 될 것은 조각난 학습일 뿐이며, 어시스턴트 한 명씩의 수정만 보게 될 뿐 전체 거래 흐름은 파악할 수 없다. 중요한 신호는 거래 수준에 존재하며, 거래에는 고유한 ‘형태(shape)’가 있다: M&A의 경우 기밀유지계약서(NDA), 조건서(term sheet), 실사(due diligence), 매매계약서(purchase agreement), 부속서류, 인수완료체크리스트(closing checklist)가 있다. IP 소송의 경우, 신청서(motion), 증거 개시(discovery), 선행기술(prior art), 추가 신청서 등이 있다. 각 업무 영역마다 고유한 구조가 있으며, 변호사와 도구는 영역 간에 서로 교환되지 않는다. 로펌이 실제로 해결하는 문제는 이러한 모든 구조 위에 또 다른 차원에 존재한다: 각 업무 영역을 병렬로 운영하는 것이다. 최고 파트너는 수백 건의 사건을 동시에 운영하면서, 새 사건을 도입하고 어시스턴트를 교육한다. 이런 로펌의 전환은 평가를 위한 단일 과제가 아니다. 그것은 데이터 기반 분석을 수행하는 운영자가 필요하며, 목표는 극도로 모호하고, 피드백은 불완전하며, 시간 범위는 매우 길며, 정지하지 않는 환경에서 이루어져야 한다.
불행히도, 보이지 않는 가치는 판매하기도 어렵다. 그 이유는 상품화하기 어려운 이유와 동일하다: 기업은 외부에서 AI가 자사 운영을 전환시킬지 여부를 판단할 수 없으며, 벤치마크도 마찬가지다. 따라서 가장 강력한 기업들은 외부에서 이를 입증하려 하지 않고, 오히려 내부로 들어가 결과에 가격을 매긴다. 시에라(Sierra)는 에이전트가 고객 문제를 해결할 때만 요금을 부과하고, 인간에게 넘길 때는 요금을 부과하지 않는다. 따라서 가격 자체가 평가가 된다. 다만 이는 시에라가 ‘해결됨(resolved)’을 어떻게 정의하느냐에 따라 성립한다. 코그니션(Cognition)의 데빈(Devin)도 소프트웨어 분야에서 동일한 접근법을 취해 ‘성능 보증(performance guarantee)’을 제공한다. 그러나 이 보증은 당신이 신뢰받아 시스템에 진입한 경우에만 결과에 대해 적용 가능하다.
서비스 토큰(service token)조차—모두가 순수한 상품이라 부르는 계층—도 상품처럼 작동하지 않는다. 최고의 AI 네이티브 기업들은 Baseten 또는 Fireworks 같은 1~2개의 공급업체에 서비스를 집중시킨다. 왜냐하면 토큰 당 비용은 계획대로 상품화되지만, 실제 트래픽 하에서의 신뢰성과 희귀한 컴퓨팅 파워에 대한 보장된 접근 권한은 그렇지 않기 때문이다. 당신이 어디서 서비스를 제공하느냐는, 어떤 모델을 사용하느냐와 다른 선택이다. 추론 비용에서 유일하게 상품처럼 작동하는 부분은 가격뿐이다.
흔히 제기되는 반론 중 하나는, 연구실이 당신의 공급업체라는 점이다—왜 연구실이 자사 1차 제품을 원가 이하로 운영해 당신을 착취하거나, API 접근 권한을 철회하고 직접 시장을 장악하지 않을까? 이것이 절망론의 진짜 버전인데, 이 주장은 모델 계층이 단일 플레이어 게임일 때만 타당하다. 그런데 현실은 분명 그렇지 않다—오히려 3.5명의 참가자가 벌이는 사망 경쟁에 더 가깝다. 국제적 플레이어들은 훈련에서 6개월 뒤처져 있으며, 개발 연합 규모는 작년의 5배로 커졌다. 고객은 공급업체 간 경쟁을 원하며, 연구실은 어느 하나의 애플리케이션이 망하는 것보다 시장 점유율을 원한다.
이 점은 연구실들이 정면으로 충돌하는 시장에서 분명히 드러난다. 소비자 챗 서비스 분야에서 최고 모델이 단순히 승리한 적은 없다. ChatGPT는 수년간의 실제 경쟁을 거쳐 선두를 유지해 왔으며, 현재 잃고 있는 점유율은 더 나은 모델이 아니라 안드로이드와 검색의 힘을 바탕으로 점차 점유율을 높이고 있는 Gemini로 흘러가고 있다. 예측 시장과 인터넷 분위기에서 현재 ‘최고의 모델’을 보유한 기업으로 평가받는 Anthropic은 소비자 챗 분야에서는 거의 영향력이 없지만, 기업 및 코딩 분야에서 사업을 구축해 왔다. 더 나은 모델이 가장 핵심적인 애플리케이션에서 경쟁사를 압도할 수 없다면, 병원의 기록 시스템이나 은행의 책임 체계를 통과하는 통합 방식으로도 경쟁사를 밀어낼 수 없다. 오늘날 대중의 선택은 단순히 코딩 능력에만 기반하지 않는다. 선두가 계속 혼잡하게 유지된다면, 그 위에 자리한 영역은 가치 있게 될 것이다.
외부에서 평가할 수 없는 업무의 경우, 내부의 누군가가 무엇이 ‘좋은 답’인지 결정해야 하며, 이 결정 자체가 바로 ‘전체 게임’이다. 충분히 많은 이런 결정을 문서화하면, 그것이 곧 벤치마크가 된다. 하비(Harvey)는 법률 분야에 벤치마크를, 시에라는 음성 에이전트 분야에 벤치마크를 발표했다. 당신은 이미 해당 분야에서 실제로 사용되고 있는 존재가 되어, ‘그 분야에서 좋은 것이란 무엇인가’를 정의할 권한을 얻는다. 이러한 기업들은 실제 채택을 위한 투쟁을 통해 이 권한을 획득한 것이다.
실제 자금이 움직이는 평가는 사적이며 기업별로 다르다: 이 기업이 이 업무 유형에서 무엇을 ‘좋은 작업’으로 받아들이는가? 이 질문은 아직 완성되지 않았다. 왜냐하면 법률의 깊이가 어떤 공개 테스트도 압도하기 때문이다. OpenEvidence는 안전한 임상 답변이 어떤 모습인지 정의하고 있다. 이들은 진정한 ‘측정’이 아니다. 이것은 ‘무엇이 진실이고, 무엇이 좋은가’에 대한 판단이며, 그것을 문서화해 다른 모든 사람이 측정되는 기준이 되게 만드는 것이다. 그리고 이 기준은 기초 연구실이 아무리 똑똑해도 작성할 수 없다. 왜냐하면 그런 권위는 오직 해당 분야 내부에서만 존재하기 때문이다. 이 권위는 이미 자리 잡은 곳에 머무르는 경향이 있다. 베테랑 변호사들이 법률 벤치마크를 작성한다. 안전한 임상 답변을 정의하는 권한은 의사에게 있다. 그리고 ‘해결됨(resolved)’이란, 이미 고객을 확보한 기업이 ‘그렇게 정의한다’는 뜻이다.
선두 흡수는 우리가 점점 더 많은 업무를 측정할 수 있게 되면서 끊임없이 상승하고 있다. 측정 가능한 부분은 흡수되어 사라지고, 훈련 불가능한 영역은 그 위에 서 있는 사람들의 발밑에서 줄어든다. 따라서 당신은 방어 가능한 지점을 찾아 휴식할 수 없다. 당신은 계속해서 아직 평가되지 않은 영역으로 나아가야 하며, 끊임없이 재보험(re-underwrite)해야 한다. 좁은 과제에 대해, 당신의 사적 데이터와 당신만의 평가 기준을 사용해 최첨단 수준까지 훈련하고, 중요한 지점에서 일반 모델을 능가할 수 있다. 그런 전문 모델은 경쟁 우위의 일부가 된다. 반면 일반 모델 위에서 경쟁하는 것은 자본 전쟁이며, 당신은 가장 많은 컴퓨팅 파워를 가진 자에게 패배할 것이다. 이는 얕은 접근과 보이는 과제만을 다루는 기업들이 빠지기 쉬운 함정이다. 그것은 일반 과제 범위 내에서 최첨단 훈련을 넘어서 생존하겠다는 약속을 한다. 승자는 데이터센터 규모에 의해 결정되는 듯 보이며, 결말은 독립적인 챔피언이 아니라, 컴퓨팅 파워가 풍부한 기업에 매각되는 경우가 많다.
이 모든 것은 방어다. 더 어려운 것은 공격, 즉 무엇을 먼저 구축할지 선택하는 것이다. 이것이 내가 1년간 찾았던 것이며, 아마도 세 차례 정도 찾았을지도 모른다. 모델은 여기서 도움이 되지 않는다. 모델은 당신이 가리키는 방향으로는 무엇이든 할 수 있지만, 어떤 방향을 가리켜야 할지를 알려주지는 않는다. 당신은 그것을 벤치마크로 측정할 수 없으며, 따라서 훈련할 수도 없다. 이것이 기존 기업들이 모든 것을 차지하지 못하는 이유이기도 하다: 그들은 이미 확보한 영토를 지키고 있고, 다음 새로운 것은 우리 나머지 사람들보다 먼저 용도를 발견한 자들로부터 나온다. 어쩌면 ‘의도(intent)’가 컴퓨팅 파워보다 더 희귀한 자원일지도 모른다.
절망론은 절반은 맞다. 얇은 포장 계층은 분명히 흡수되고 있으며, 오늘날 기업처럼 보이는 많은 것들이 바로 그 얇은 포장이다. 그러나 그것이 남은 것에 대해 틀렸다. 메커니즘은 명확하지만, 목적지는 아니다. 나는 방향성을 베팅한다: 지능은 점점 더 저렴해지고, 가치는 모델이 도달할 수 없는 소수의 영역으로 계속 이동한다. 훈련 불가능한 영역은 역사적 가치를 지닌다. 따라서 그런 영역 하나에 진입하고, 눈에 띄지 않는 번역 작업을 시작하며, 거기서 ‘무엇이 좋은가’를 문서화하기 시작하라. 누군가는 반드시 그렇게 할 것이다. 올해 가장 많이 인용된 벤치마크 점수는 곧 무가치해질 영토의 지도이며, 누가 ‘무엇이 좋은가’를 말할 권한을 잃게 될지를 알리는 공고이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














