
GPT-5.4, ‘에이전트 네이티브’ 대규모 언어 모델 등장?
소문이 퍼진 지 불과 이틀 만인 3월 5일(현지 시간), OpenAI는 공식적으로 GPT-5.4를 출시했다. 이번 모델 업데이트의 핵심은 현재 가장 뜨거운 AI 에이전트(AI Agent) 분야다.
GPT-5.4 이전까지 대규모 언어 모델(LLM)의 능력 한계는 한 마디로 요약할 수 있다: “어떻게 해야 하는지”는 알려줄 수 있지만, 그것을 직접 실행하진 못한다.
경쟁사를 분석해 달라고 하면, 길고 자세한 문장으로 된 보고서를 작성해 준다. 엑셀 파일을 정리해 달라고 하면, 직접 실행해야 할 파이썬 코드를 작성해 준다. 항공권을 예매해 달라고 하면, 어느 웹사이트에 접속해서 어떤 버튼을 눌러야 하는지 단계별로 설명해 준다.
그 사이에 가로놓인 벽은 바로 ‘컴퓨터 조작’이다.
GPT-5.4는 OpenAI가 개발한 첫 번째, 이 벽을 완전히 허물어버린 범용 모델이다.
![]()
GPT-5.4의 기존 모델 대비 성능 향상|출처: OpenAI
GPT-5.4는 스크린샷을 통해 화면 내용을 인식하고, 마우스 및 키보드 명령을 직접 발행하며, 여러 애플리케이션 간 복잡한 다단계 워크플로를 실행할 수 있다. OpenAI 측은 이를 “지금까지 전문 업무용으로 개발된 가장 강력하고 효율적인 최첨단 모델”이라고 평가했다.
기술적으로 더 구체적으로 말하자면, GPT-5.4는 최대 100만 토큰의 컨텍스트 윈도우를 지원하며, Playwright 등 외부 라이브러리를 직접 호출해 웹 브라우저와 데스크톱 애플리케이션을 제어할 수 있다.
이는 곧, 모델이 처리하는 것이 더 이상 “업무에 관한 대화”가 아니라 “업무 그 자체”임을 의미한다.
01 OpenAI의 사전 준비
최근 몇 달간 OpenAI의 행보를 주의 깊게 지켜본 사람이라면, GPT-5.4가 갑작스럽게 등장한 제품이 아니라, 명확한 전략 노선 위에서 내려진 최신 수임을 알 수 있을 것이다.
바로 2주 전, OpenAI는 GPT-5.3-Codex를 발표하며, 기존 ‘코드 작성이 가능한 에이전트’였던 Codex를 ‘개발자가 컴퓨터에서 수행하는 거의 모든 작업을 수행할 수 있는 에이전트’로 진화시켰다. 이 모델은 SWE-Bench Pro 및 Terminal-Bench에서 업계 벤치마크를 새로 경신했다.
동시에 OpenAI는 기업 고객을 위한 ‘Frontier’ 플랫폼을 출시했으며, HP, Intuit, Uber 등이 초기 사용자로 참여했다.
![]()
GPT-5.4는 표 작성에서 GPT-5.2보다 분명히 더 우수한 성능을 보임|출처: OpenAI
그보다 훨씬 이전인 3월 2일, OpenAI는 AWS와의 기존 38억 달러 규모 협력을 8년간 1,000억 달러 이상으로 확대하기로 발표했다. AWS는 이제 OpenAI Frontier 플랫폼의 독점 제3자 클라우드 유통 파트너가 된다. 이 규모의 투자액 자체가 하나의 강력한 신호다.
아마존, 소프트뱅크, 엔비디아가 각각 수백억 달러를 투입해 마련한 총 1,100억 달러 규모의 최신 펀딩 라운드 역시 같은 시기에 마무리됐다.
이 회사는 단순히 “좋은 제품을 개발하는 기업”이 아니라, “기업용 AI 에이전트 시장을 선점하기 위해 전력 질주 중인 기업”이다.
GPT-5.4가 탑재한 원생(native) 컴퓨터 조작 능력은 바로 이 질주를 위한 핵심 무기다.
02 정말 실용적일까?
발표회에서의 기능 시연은 언제나 인상 깊지만, 실제 현장에서의 성능이 문제다.
금융 기술(FinTech) 기업 월리 캐피털(Walleye Capital)은 내부 테스트 결과, GPT-5.4가 엑셀 기반 재무 모델 평가 정확도를 30%p 향상시켰다고 보고했다. 이는 시나리오 분석 자동화 프로세스를 상당히 가속화했다.
인재 평가 플랫폼 메코르(Mercor)의 CEO는 이를 “지금까지 우리가 테스트해 본 가장 우수한 모델”이라 칭하며, 프레젠테이션 제작, 재무 모델링, 법률 분석 등 장기적이고 복합적인 과제에서 두각을 나타냈다고 평가했다.
매일 Codex를 사용하는 독립 개발자는 더 현실적인 평가를 내렸다: “GPT-5.4는 이제 제가 Codex에서 매일 사용하는 새로운 기본 동력원이다. 그 사고 방식은 인간에 훨씬 가깝고, 5.3처럼 기술적 세부사항에 집착하지 않는다.” 그러나 그는 다음과 같이 경고도 덧붙였다—“주의해야 한다. 모델이 작업을 잘못 실행했음에도 불구하고 이를 은폐한 사례를 몇 차례 목격했다.”
![]()
GPT-5.4의 조작 및 시각 인식 능력 향상|출처: OpenAI
이 세부 사항은 꼭 주목해볼 만하다.
벤치마크 테스트 데이터 역시 이러한 능력 향상을 입증하고 있다. 보도에 따르면, GPT-5.4는 GDPval 벤치마크에서 일반 사무직 근로자의 83%를 상회하는 성능을 기록했다. 이 수치는 매우 인상적이지만, 진짜 핵심 질문은 “얼마나 많은 사람을 능가하느냐”가 아니라 “어떤 업무에서 사람을 대체할 수 있느냐”다.
그러나 에든버러 대학교 정보학과 제프 달턴(Jeff Dalton) 박사는 또 다른 현실적인 문제를 지적했다. 현재까지 공개된 시연에서는, 그러한 거대한 주장들을 뒷받침할 만한 충분히 상세한 평가 증거가 거의 부족하다는 점이다. 능력 자체는 분명 존재하지만, 그 한계가 어디까지인지에 대해서는 더 많은 독립 검증이 필요하다.
03 에이전트 전장, 안전지대는 없다
GPT-5.4가 OpenAI의 에이전트 비전을 대표한다면, 경쟁사들도 결코 한가롭지 않다.
애널로픽(Anthropic)의 클로드(Claude) 3.7 손넷(Claude 3.7 Sonnet)은 이미 올해 2월부터 ‘컴퓨터 사용(Computer Use)’ 기능을 제공하고 있으며, 애널로픽은 이를 복잡한 과제에 특화된 하이브리드 추론 모델로 정의했다.
구글의 젬니(Gemini) 2.0 시리즈 역시 ‘에이전트(Agentic)’ 기능을 꾸준히 강화 중이며, 프로젝트 마리너(Project Mariner)는 크롬 브라우저 내에서 자율적으로 다단계 작업을 완료할 수 있다.
그러나 GPT-5.4와 경쟁 제품의 본질적 차이는, 이 모델이 OpenAI가 범용 모델 자체에 컴퓨터 조작 능력을 내장한 첫 사례라는 점에 있다—즉, 별도의 도구도 아니고, 추가 API 호출이 필요한 것도 아니다. 능력 자체가 모델의 일부로 탑재되어 있는 것이다.
이 ‘원생(native)’이라는 표현이 공학적 구현 측면에서 의미하는 바는, 구체적으로 말하면 지연 시간 감소, 보다 자연스러운 과제 연결, 그리고 ‘접착제 코드(glue code)’의 대폭 감소를 의미한다. 기업들이 에이전트 애플리케이션을 신속하게 도입하려 할 때, 이 차이는 배포 비용에 직접적인 영향을 미친다.
OpenAI는 또한 GPT-5.4가 마이크로소프트 엑셀(Microsoft Excel) 및 구글 시트(Google Sheets)에 직접 연동되어 셀 단위의 세밀한 분석과 자동화 작업을 수행할 수 있다고 발표했다. 이는 명백히 기업 의사결정 프로세스의 핵심 영역을 겨냥한 전략이다.
에이전트 전장에서 중요한 건 누가 더 빨리 달리는가가 아니라, 누가 기업의 업무 흐름 속에 가장 먼저 자신을 깊이 통합하여 ‘뽑아낼 수 없는 존재’가 되는가다.
기술 발표회는 늘 열정으로 가득하지만, 진정한 시험은 91일 차에 찾아온다—그때는 열기가 식고, 실제 업무 현장에서 사용자가 이 도구를 열어, 스크린샷을 정확히 받아내고, 버튼을 정확히 클릭하며, 조용히 작업을 완료한 후 결과물을 제대로 반환할 수 있는가가 관건이다.
그 개발자가 언급한 ‘오류 은폐’는, 지금까지 본 이 보도 기사에서 가장 경계해야 할 한 마디다.
AI 에이전트의 능력 한계는 결코 ‘무엇을 할 수 있는가’가 아니라, ‘그 일을 맡겨도 믿을 수 있는가’에 있다.
신뢰야말로 이 에이전트 전쟁에서 진정한 화폐다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News













