
IOSG: 브라우저가 프록시가 될 때
글: Mario Chow & Figo @IOSG
서론
지난 12개월 동안 웹 브라우저와 자동화의 관계는 극적인 변화를 겪었다. 거의 모든 대형 기술 기업들이 자율 브라우저 에이전트(browser agent) 구축 경쟁에 뛰어들고 있다. 이 추세는 2024년 말부터 더욱 분명해졌으며, OpenAI는 1월에 에이전트 모드를 출시했고, Anthropic은 Claude 모델에 '컴퓨터 사용(computer use)' 기능을 공개했으며, Google DeepMind는 Project Mariner를 발표했고, Opera는 에이전트 기반 브라우저인 Neon을 선언했으며, Perplexity AI는 Comet 브라우저를 출시했다. 신호는 명확하다. AI의 미래는 웹 페이지를 자율적으로 탐색할 수 있는 에이전트에 있다.
이러한 추세는 단순히 브라우저에 더 똑똑한 챗봇을 추가하는 것을 넘어서며, 기계가 디지털 환경과 상호작용하는 방식의 근본적 전환을 의미한다. 브라우저 에이전트란 웹 페이지를 '볼 수' 있고 링크 클릭, 폼 작성, 페이지 스크롤, 텍스트 입력 등 인간 사용자처럼 행동할 수 있는 AI 시스템이다. 이러한 패턴은 현재 여전히 수작업이 필요하거나 기존 스크립트로는 너무 복잡해 자동화하기 어려운 작업들을 자동화함으로써 엄청난 생산성과 경제적 가치를 해방할 수 있다는 가능성을 제시한다.

▲ GIF 시연: AI 브라우저 에이전트의 실제 작동. 지시사항을 따르며 목표 데이터셋 페이지로 이동하고, 자동으로 스크린샷을 찍고 필요한 데이터를 추출함.
누가 AI 브라우저 전쟁에서 승리할 것인가?
거의 모든 대형 기술 기업들과 일부 스타트업들도 각자의 브라우저 AI 에이전트 솔루션을 개발 중이다. 다음은 가장 대표적인 몇 가지 프로젝트들이다:
OpenAI – 에이전트 모드
OpenAI의 에이전트 모드(이전 이름 Operator, 2025년 1월 출시)는 자체 브라우저를 갖춘 AI 에이전트다. Operator는 웹 양식 작성, 식료품 주문, 회의 일정 조정 등 다양한 반복적인 온라인 작업을 처리할 수 있으며, 모두 사람들이 일반적으로 사용하는 표준 웹 인터페이스를 통해 수행된다.

▲ AI 에이전트가 전문 비서처럼 회의를 주선함: 캘린더 확인, 가능한 시간대 찾기, 이벤트 생성, 확인 메일 발송 및 .ics 파일 생성까지 수행.
Anthropic – Claude의 'Computer Use'
2024년 말, Anthropic은 Claude 3.5에 완전히 새로운 'Computer Use(컴퓨터 사용)' 기능을 도입하여 사람처럼 컴퓨터와 브라우저를 조작할 수 있는 능력을 부여했다. Claude는 화면을 보고, 커서를 이동하며, 버튼을 클릭하고, 텍스트를 입력할 수 있다. 이는 동종 최초로 일반에 공개 테스트 버전으로 제공된 대규모 언어 모델 기반 에이전트 도구이며, 개발자는 Claude를 이용해 웹사이트와 애플리케이션을 자동으로 탐색하게 할 수 있다. Anthropic은 이를 실험적 기능으로 위치 지정하며, 주요 목표는 웹상에서 다단계 작업 흐름을 자동화하는 것이다.

Perplexity – Comet
질의응답 엔진으로 유명한 AI 스타트업 Perplexity은 2025년 중반 Chrome의 AI 기반 대체제로서 Comet 브라우저를 출시했다. Comet의 핵심은 주소창(omnibox)에 내장된 대화형 AI 검색엔진으로, 전통적인 검색 링크 대신 즉각적인 답변과 요약을 제공한다.

또한 Comet은 사이드바에 상주하는 에이전트인 Comet Assistant도 내장하고 있어, 여러 웹사이트에서 일상적인 작업을 자동 실행할 수 있다. 예를 들어, 열려 있는 이메일을 요약하거나 회의를 일정 조정하거나, 브라우저 탭을 관리하거나, 사용자를 대신해 웹페이지를 탐색하고 정보를 수집할 수 있다.

사이드바 인터페이스를 통해 현재 웹페이지 내용을 인지할 수 있도록 함으로써, Comet은 브라우징과 AI 어시스턴트를 원활하게 통합하려는 목적을 가지고 있다.
브라우저 에이전트의 실제 응용 사례
앞서 우리는 OpenAI, Anthropic, Perplexity 등 주요 기술 기업들이 다양한 제품 형태를 통해 브라우저 에이전트(browser agents)에 기능을 부여하는 방법을 살펴보았다. 그들의 가치를 더 직관적으로 이해하기 위해, 이러한 기능이 실제 생활과 기업 업무 프로세스에서 어떻게 활용될 수 있는지를 구체적인 사례를 통해 살펴보겠다.
일상적인 웹 자동화
#전자상거래 및 개인 쇼핑
매우 실용적인 사례 중 하나는 쇼핑 및 예약 작업을 에이전트에게 위임하는 것이다. 에이전트는 고정된 리스트에 따라 자동으로 온라인 장바구니를 채우고 주문을 완료하거나, 여러 소매업체 간 최저 가격을 찾아 결제 과정을 대행할 수 있다.

여행의 경우 다음과 같은 작업을 AI에게 지시할 수 있다. "다음 달에 도쿄로 가는 항공권을 800달러 미만으로 예약해주고, 무료 Wi-Fi가 있는 호텔도 예약해줘." 에이전트는 항공사 및 호텔 웹사이트를 통해 전체 절차를 처리한다. 항공편 검색, 옵션 비교, 승객 정보 입력, 호텔 예약 완료까지 모두 수행한다. 이러한 자동화 수준은 기존 여행 로봇을 훨씬 뛰어넘는다. 단순히 추천하는 것을 넘어 직접 구매를 실행한다는 점에서 차별화된다.
#업무 효율성 향상
에이전트는 사람들이 브라우저에서 수행하는 많은 반복적인 업무 작업을 자동화할 수 있다. 예를 들어, 이메일을 정리하고 할 일 목록을 추출하거나, 여러 캘린더에서 공백 시간을 확인하고 회의를 자동으로 일정 조정하는 것이다. Perplexity의 Comet 어시스턴트는 이미 웹 인터페이스를 통해 수신함 내용을 요약하거나 일정을 추가할 수 있다. 또한 사용자의 권한을 부여받으면 SaaS 도구에 로그인하여 정기 보고서 생성, 스프레드시트 업데이트, 폼 제출 등의 작업을 수행할 수 있다. HR 에이전트가 여러 채용 사이트에 자동으로 채용 공고를 게시하거나, 영업 에이전트가 CRM 시스템의 잠재 고객 데이터를 업데이트하는 상상을 해보라. 이러한 일상적인 잡务는 직원들에게 많은 시간을 소모하지만, AI는 웹 양식과 페이지 조작을 자동화함으로써 이를 해결할 수 있다.

단일 작업뿐만 아니라, 여러 네트워크 시스템을 연결하는 전체 워크플로우를 연계할 수도 있다. 이러한 모든 단계들은 서로 다른 웹 인터페이스에서 조작이 필요하며, 바로 이것이 browser agent의 강점이다. 에이전트는 다양한 대시보드에 로그인하여 문제를 진단하거나, 신입 직원의 입사를 위한 프로세스(여러 SaaS 웹사이트에서 계정 생성 등)를 조정할 수 있다. 본질적으로 현재 여러 웹사이트를 열어서 완료해야 하는 다단계 작업이라면 모두 에이전트에게 위임할 수 있다.
현재의 도전 과제와 한계
잠재력이 크지만, 오늘날의 브라우저 에이전트는 완벽함에서 아직 큰 차이가 있다. 현재의 구현은 오랫동안 존재해온 기술적, 인프라적 문제들을 드러내고 있다:
아키텍처 불일치
현대 웹은 인간이 조작하는 브라우저를 위해 설계되었으며, 시간이 지남에 따라 자동화를 적극적으로 저지하는 방향으로 진화해왔다. 데이터는 종종 시각적 표현을 최적화한 HTML/CSS에 묻혀 있으며, 상호작용 제스처(마우스 오버, 스와이프)에 제한되거나, 공개되지 않은 API를 통해서만 접근 가능하다.
여기에 더해, 크롤러 차단 및 사기 방지 시스템은 추가적인 장벽을 인위적으로 만들어낸다. 이러한 도구들은 IP 평판, 브라우저 지문, JavaScript 챌린지 응답, 행동 분석(예: 마우스 움직임의 무작위성, 타이핑 리듬, 머무는 시간 등)을 결합한다. 역설적이게도, AI 에이전트가 '완벽'하게, 즉 순간적으로 양식을 작성하거나 절대 실수하지 않는 효율성을 보일수록, 오히려 악의적인 자동화로 더 쉽게 식별된다. 이는 하드한 실패로 이어질 수 있다. 예를 들어 OpenAI나 Google의 에이전트가 결제 전까지 모든 단계를 성공적으로 수행했더라도, 결국 CAPTCHA나 2차 보안 필터에 의해 차단될 수 있다.

인간 중심의 인터페이스와 로봇에 불편한 방어층이 겹쳐져, 에이전트는 취약한 '인간 모방' 전략을 취할 수밖에 없다. 이러한 방법은 매우 쉽게 실패하며 성공률이 낮다(인간의 개입 없이는 완전한 거래 완료율이 여전히 3분의 1 미만).
신뢰와 보안 우려
에이전트에게 완전한 제어권을 부여하려면 일반적으로 로그인 자격 증명, 쿠키, 2단계 인증 토큰, 심지어 결제 정보와 같은 민감한 정보에 접근해야 한다. 이는 사용자와 기업 모두가 이해할 수 있는 우려를 낳는다:
-
에이전트가 오류를 범하거나 악성 웹사이트에 속는다면 어떻게 될까?
-
에이전트가 서비스 약관에 동의하거나 어떤 거래를 실행한다면 누구에게 책임이 있을까?
이러한 리스크를 바탕으로 현재의 시스템들은 일반적으로 신중한 태도를 취하고 있다:
-
Google의 Mariner는 신용카드 정보를 입력하거나 서비스 약관에 동의하지 않고, 사용자에게 넘긴다.
-
OpenAI의 Operator는 로그인 또는 CAPTCHA 챌린지 시 사용자가 직접 처리하도록 안내한다.

Anthropic의 Claude 기반 에이전트는 보안상 이유로 로그인 자체를 거부할 수도 있다.
결과적으로 AI와 인간 사이에서 빈번한 정지와 인계가 발생하며, 원활한 자동화 경험을 약화시킨다.
이러한 장애물에도 불구하고, 진전은 빠르게 이루어지고 있다. OpenAI, Google, Anthropic 등 기업들은 매 반복마다 실패 경험을 배우고 있다. 수요가 증가함에 따라 '공진화(co-evolution)'가 나타날 가능성이 높다. 즉, 유리한 상황에서는 웹사이트가 에이전트 친화적으로 변하고, 에이전트는 인간 행동 모방 능력을 계속해서 향상시켜 기존 장벽을 우회하게 되는 것이다.
방법과 기회
현재의 브라우저 에이전트는 두 가지 극명히 다른 현실에 직면해 있다. 하나는 Web2의 적대적 환경으로, 크롤러 차단 및 보안 방어가 어디에나 존재한다. 다른 하나는 Web3의 개방적 환경으로, 자동화가 오히려 종종 장려된다. 이러한 차이는 다양한 솔루션의 방향을 결정짓는다.
다음 솔루션들은 대략 두 가지로 나눌 수 있다. 하나는 에이전트가 Web2의 적대적 환경을 우회하도록 돕는 것이고, 다른 하나는 Web3에 원생(native)인 솔루션이다.
브라우저 에이전트가 여전히 현저한 도전에 직면해 있지만, 새로운 프로젝트들이 끊임없이 등장하며 이러한 문제들을 직접 해결하려 하고 있다. 암호화폐 및 탈중앙 금융(DeFi) 생태계는 개방적이고, 프로그래밍 가능하며, 자동화에 덜 적대적이기 때문에 자연스러운 실험장이 되고 있다. 개방된 API, 스마트 계약, 체인 상의 투명성은 Web2 세계에서 흔히 있는 마찰점을 많이 제거한다.
다음은 네 가지 유형의 솔루션으로, 각각 현재의 핵심 한계 중 하나 이상을 해결하려 하고 있다:
체인 상 조작을 위한 원생 에이전트 브라우저
이러한 브라우저는 자율 에이전트를 위한 것이며, 블록체인 프로토콜과 깊이 통합되어 처음부터 설계되었다. Selenium, Playwright 또는 지갑 플러그인과 같은 추가 의존성이 필요한 기존 Chrome 브라우저와 달리, 원생 에이전트 브라우저는 에이전트가 호출할 수 있는 API와 신뢰할 수 있는 실행 경로를 직접 제공한다.
탈중앙 금융(DeFi)에서 거래의 유효성은 사용자가 '인간처럼' 행동하는지가 아니라 암호 서명에 의존한다. 따라서 체인 상 환경에서는 에이전트가 Web2 세계에서 흔한 CAPTCHA, 사기 탐지 점수, 디바이스 지문 검사를 우회할 수 있다. 그러나 이러한 브라우저가 Amazon과 같은 Web2 웹사이트를 향하면 관련 방어 메커니즘을 우회할 수 없으며, 그러한 상황에서는 여전히 일반적인 로봇 방지 조치가 발동된다.
에이전트 브라우저의 가치는 모든 웹사이트에 마법처럼 접근할 수 있는 것이 아니라 다음에 있다:
-
원생 블록체인 통합: MetaMask 팝업이나 dApp 프론트엔드 DOM 파싱 없이 내장 지갑 및 서명 지원.
-
자동화 우선 설계: 프로토콜 조작에 직접 매핑될 수 있는 안정적인 고수준 명령 제공.
-
보안 모델: 자동화 중에도 개인키가 안전하게 유지되는 세밀한 권한 제어 및 샌드박스.
-
성능 최적화: 브라우저 렌더링이나 UI 지연 없이 여러 체인 상 호출을 병렬로 실행 가능.
#사례: Donut

Donut은 블록체인 데이터와 조작을 일급 구성 요소로 통합한다. 사용자(또는 해당 에이전트)는 토큰의 실시간 리스크 지표를 확인하거나 '/swap 100 USDC to SOL'과 같은 자연어 명령을 직접 입력할 수 있다. Web2의 적대적 마찰점을 우회함으로써 Donut은 에이전트가 DeFi에서 최고 속도로 작동할 수 있게 하여 유동성, 차익거래, 시장 효율성을 향상시킨다.
검증 가능하고 신뢰할 수 있는 에이전트 실행
에이전트에게 민감한 권한을 부여하는 것은 큰 위험이 따른다. 관련 솔루션은 신뢰할 수 있는 실행 환경(TEEs)이나 제로지식 증명(ZKPs)을 사용하여, 에이전트의 예상 동작을 실행 전에 암호화하여 확인함으로써, 사용자와 상대방이 개인키나 자격 증명을 노출하지 않고도 에이전트의 동작을 검증할 수 있도록 한다.
#사례: Phala Network
Phala는 TEEs(예: Intel SGX)를 사용하여 실행 환경을 격리하고 보호함으로써, Phala 운영자나 공격자가 에이전트 로직과 데이터를 엿보거나 조작하는 것을 방지한다. TEE는 외부에서 볼 수 없고 수정할 수 없는 하드웨어 기반의 '보안 밀실'과 같다.
브라우저 에이전트의 경우, 이는 로그인, 세션 토큰 보유, 결제 정보 처리 등을 할 수 있음을 의미하지만, 이러한 민감한 데이터는 결코 보안 밀실을 벗어나지 않는다. 사용자의 기기, 운영 체제, 네트워크가 침해되더라도 정보가 유출되지 않는다. 이는 에이전트 애플리케이션의 실질적 적용에서 가장 큰 장애물 중 하나인 민감한 자격 증명과 조작에 대한 신뢰 문제를 직접 완화한다.
탈중앙화된 구조화 데이터 네트워크
현대의 로봇 감지 시스템은 요청이 '너무 빠른지' 또는 '자동화되었는지'만 확인하는 것이 아니라, IP 평판, 브라우저 지문, JavaScript 챌린지 응답, 행동 분석(예: 커서 이동, 타이핑 리듬, 세션 기록)을 결합한다. 데이터센터 IP나 완전히 반복 가능한 브라우징 환경에서 오는 에이전트는 쉽게 식별된다.
이 문제를 해결하기 위해, 이러한 네트워크는 인간 중심으로 최적화된 웹페이지를 크롤링하는 대신 직접 기계가 읽을 수 있는 데이터를 수집하여 제공하거나, 실제 인간의 브라우징 환경을 통해 트래픽을 프록시한다. 이렇게 하면 기존 크롤러가 파싱 및 반크롤링 과정에서 겪는 취약성을 우회하고, 에이전트에게 더 깨끗하고 신뢰할 수 있는 입력을 제공할 수 있다.
에이전트 트래픽을 이러한 실제 세계의 세션으로 프록시함으로써, 분산 네트워크(distribution network)는 AI 에이전트가 즉시 차단되지 않고 인간처럼 웹 콘텐츠에 접근할 수 있도록 한다.
#사례
-
Grass: 탈중앙화 데이터 /DePIN 네트워크. 사용자가 유휴 주택용 광대역을 공유하여 공개 웹 데이터 수집 및 모델 학습을 위한 에이전트 친화적이며 지리적으로 다양한 접근 경로를 제공.
-
WootzApp: 암호화폐 결제를 지원하는 오픈소스 모바일 브라우저로, 백그라운드 에이전트 및 제로지식 신원 기능을 갖추고 있으며, AI/데이터 작업을 소비자에게 '게임화'하여 제공.
-
Sixpence: 글로벌 참여자의 브라우징을 통해 AI 에이전트의 트래픽을 라우팅하는 분산 브라우저 네트워크.
그러나 이는 완전한 해결책이 아니다. 행동 감지(마우스/스크롤 궤적), 계정 수준 제한(KYC, 계정 연차), 지문 일관성 검사는 여전히 차단을 유발할 수 있다. 따라서 분산 네트워크는 인간 모방 실행 전략과 결합해야 최대 효과를 발휘할 수 있는 기반 은닉 계층으로 간주되어야 한다.
에이전트 중심 웹 표준(전망)
현재越来越多한 기술 커뮤니티와 조직들이 미래의 웹 사용자가 인간뿐 아니라 자동화된 에이전트(agent)라면, 웹사이트가 어떻게 안전하고 규정에 맞춰 그것들과 상호작용해야 하는지를 탐색하고 있다.
이러한 논의는 웹사이트가 '내가 신뢰할 수 있는 에이전트의 접근을 허용한다'고 명확하게 표시하고, 오늘날처럼 에이전트를 '로봇 공격'으로 차단하는 대신 상호작용을 위한 안전한 채널을 제공하는 것을 목표로 하는 새로운 표준과 메커니즘을 추진하고 있다.
-
'Agent Allowed' 태그: 검색 엔진이 준수하는 robots.txt처럼, 미래의 웹페이지는 코드 내에 '여기서 안전하게 접근 가능하다'고 브라우저 에이전트에게 알려주는 태그를 포함할 수 있다. 예를 들어, 에이전트로 항공권을 예약할 때 웹사이트가 CAPTCHA를 띄우는 대신 인증된 인터페이스를 직접 제공하는 것이다.
-
인증된 에이전트용 API 게이트웨이: 웹사이트는 검증된 에이전트를 위해 전용 입구를 열 수 있으며, 이는 '빠른 통로'와 같다. 에이전트는 인간처럼 클릭하거나 입력을 모방할 필요 없이, 주문, 결제, 데이터 조회를 완료하기 위한 더 안정적인 API 경로를 이용할 수 있다.
-
W3C 논의: 월드 와이드 웹 컨소시엄(W3C)은 '관리된 자동화(managed automation)'를 위한 표준화된 채널을 제정하는 방법을 연구하고 있다. 이는 미래에 신뢰할 수 있는 에이전트가 웹사이트에 의해 식별되고 수용되며 동시에 보안과 책임성을 유지할 수 있는 글로벌 통용 규칙이 생길 수 있음을 의미한다.
이러한 탐색은 여전히 초기 단계이지만, 실현된다면 인간↔에이전트↔웹사이트 간의 관계를 크게 개선할 수 있다. 이제 더 이상 리스크 관리 시스템을 '속이기' 위해 에이전트가 인간의 마우스 움직임을 열심히 모방할 필요 없이, '공식적으로 허용된' 채널을 통해 당당하게 작업을 완료할 수 있는 상상을 해보라.
이 경로에서 암호화 기반의 인프라는 먼저 시작할 가능성이 크다. 체인 상 애플리케이션은 본질적으로 개방된 API와 스마트 계약에 의존하며 자동화에 친절하기 때문이다. 반면, 전통적인 Web2 플랫폼은 특히 광고나 사기 방지 시스템에 의존하는 기업들일수록 계속해서 신중하게 방어할 가능성이 높다. 하지만 사용자와 기업이 자동화가 가져오는 효율성 향상을 점차 수용함에 따라, 이러한 표준화 노력은 전 인터넷이 '에이전트 우선 아키텍처'로 나아가는 중요한 촉매제가 될 수 있다.
결론
브라우저 에이전트는 초기 단순한 대화 도구에서 점차 복잡한 온라인 업무 프로세스를 수행할 수 있는 자율 시스템으로 진화하고 있다. 이 전환은 자동화를 사용자와 인터넷의 상호작용 핵심 인터페이스에 직접 통합하는 더 광범위한 추세를 반영한다. 생산성 향상의 가능성은 크지만, 뿌리 깊은 로봇 방지 메커니즘을 돌파하고, 보안성과 신뢰성, 책임 있는 사용 방식을 보장하는 등의 도전도 만만치 않다.
단기적으로는 에이전트의 추론 능력 향상, 속도 증가, 기존 서비스와의 긴밀한 통합, 분산 네트워크의 발전이 신뢰성을 점차 높일 수 있다. 장기적으로는 서비스 제공자와 사용자 모두에게 자동화가 이익이 되는 상황에서 '에이전트 친화적' 표준이 점차 자리잡을 수 있다. 그러나 이 전환은 균일하게 이루어지지 않을 것이다. DeFi와 같이 자동화에 친화적인 환경에서는 채택 속도가 빠르겠지만, 사용자 상호작용 제어에 크게 의존하는 Web2 플랫폼에서는 수용이 느릴 것이다.
앞으로 기술 기업들의 경쟁은 점점 더 다음 몇 가지 측면에 집중될 것이다. 현실 세계의 제약 하에서의 탐색 능력, 핵심 업무 프로세스에 안전하게 통합되는 능력, 다양한 온라인 환경에서 안정적으로 결과를 제공하는 능력 등이다. 그리고 이것이 궁극적으로 '브라우저 전쟁'을 재편할 수 있을지는 순수한 기술력만으로 결정되지 않으며, 신뢰를 구축하고, 인센티브를 조율하며, 일상 사용에서 실질적인 가치를 보여줄 수 있느냐에 달려 있다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














