
「나 혼란스러워, 무슨 일이 일어난 거야?」 클라우드플레어 장애로 전 세계 인터넷 대혼란
글: 조우위허
출처: 월스트리트저널 코리아
미국 동부 시간 화요일 오전, 인터넷 인프라 서비스 제공업체인 Cloudflare는 전 세계 네트워크에 장애가 발생해 X를 포함한 다수의 웹사이트에서 'internal server error' 등의 접속 문제로 사용자들이 많은 사이트와 서비스(소매, 전자상거래, 소셜미디어, 금융서비스, 교통 플랫폼 등)에 접근할 수 없게 됐다고 밝혔다. 이후 회사는 4시간 미만의 시간이 소요된 끝에 문제를 해결했다고 전했다.

장애 발생 중 X의 일부 기능이 중단되었으며 다수의 웹사이트도 접속 불가 상태에 빠졌다. 장애 추적 플랫폼 Downdetector의 데이터에 따르면 X 외에도 다수의 사이트가 영향을 받았으며 관련 신고 건수는 계속 증가했다. 사용자들은 X, ChatGPT, DoorDash, IKEA 및 뉴욕시 대중교통청(MTA) 등의 웹사이트 접속 시 Cloudflare 관련 오류 메시지를 확인했다.


이후 Cloudflare의 한 여성 대변인은 미국 동부 시간 오전 6시 20분경 자사 서비스 중 하나에서 비정상적인 트래픽 급증 현상이 발생했으며 이로 인해 회사 네트워크를 통과하는 트래픽에 오류가 생겼다고 설명했다.
Cloudflare의 또 다른 대변인인 제이키 던튼(Jackie Dutton)은 공지문을 통해 이번 문제는 위협 트래픽 관리를 위한 자동 생성 설정 파일로 인해 발생했으며 복구에는 4시간 미만이 소요됐다고 밝혔다. 회사는 핵심 수정 조치를 이미 배포했으나 시스템이 "완전히 안정되기까지는 시간이 더 필요하다"고 신중하게 언급했다.
던튼은 다음과 같이 말했다.
「이 파일의 항목 수가 예상 크기를 초과하면서 Cloudflare 일부 서비스 트래픽을 처리하는 소프트웨어 시스템의 충돌을 유발했다.」
성명서에서는 이번 사태가 사이버 공격이나 악의적 활동과 관련되었다는 증거는 없다고 밝혔다.
장애의 영향 범위는 매우 광범위했다. Downdetector는 Cloudflare 장애 동안 「영향을 받은 다양한 서비스에 대한 신고가 누적 210만 건 이상」 접수됐다고 밝혀, 이번 사건이 최근 몇 년간 가장 심각한 인프라 수준의 중단 사태 중 하나임을 보여줬다.

사고 발생 후 Cloudflare 주가는 화요일 개장 직후 최대 7% 폭락했으나 이후 낙폭은 줄었다.

디지털 자산 업계에서도 반응이 나타났다. 바이낸스 공동창업자이자 전 CEO인 자오창펑(趙長鹏)은 X를 통해 「블록체인은 여전히 정상 작동 중이다(Blockchain kept working)」라고 언급하며 탈중앙화 시스템은 이번 사태의 영향을 받지 않았음을 시사했다.
미국 동부 시간 12시 15분 기준, Cloudflare는 시스템이 점차 회복되고 있으나 전 세계 일부 지역에서는 여전히 접속 오류, 성능 저하 또는 로그인 문제가 발생할 수 있다고 밝혔다. 회사는 상태 페이지를 통해 복구 진행 상황을 지속 업데이트할 예정이다.

소수 기업에 대한 과도한 의존
최근 몇 년간 디지털 인프라 제공업체의 문제로 인해 전 세계 인터넷 사용이 마비되는 사례가 반복되고 있다. 아마존웹서비스(AWS), 크라우드스트라이크 홀딩스(CrowdStrike Holdings Inc.), 마이크로소프트 등이 앞서 유사한 사고를 겪었으며 이는 전 세계 인터넷이 소수 기업에 크게 의존하고 있음을 부각시킨다.
Cloudflare와 AWS의 서비스는 일반 사용자에게 거의 '보이지 않는(invisible)' 존재이지만, 소비자가 매일 이용하는 수많은 웹사이트와 서비스를 뒷받침하고 있다.
지난달 AWS의 장애로 인해 인터넷 일부 지역이 마비되어 수백만 사용자의 웹사이트와 앱 사용이 불가능해졌으며, 소매 판매 차질, 소셜미디어 및 금융 서비스 중단 등 많은 기업에 영향을 미쳤다. 작년에는 사이버보안 기업 크라우드스트라이크의 도구 내 결함으로 전 세계 컴퓨터 시스템이 대규모로 충돌해 수천 건의 항공편 지연과 취소가 발생했으며 정부 기관과 대기업 운영도 혼란에 빠졌다.
캘리포니아주 사이버보안 기업 체크포인트 소프트웨어(Check Point Software)의 전문가 그레이엄 스튜어트(Graeme Stewart)는 이러한 사고들이 인터넷이 소수의 인프라 제공업체에 과도하게 의존하고 있음을 보여준다고 말했다.
그는 다음과 같이 말했다.
「많은 조직이 여전히 모든 핵심 서비스를 동일한 경로에 의존하고 있으며 실질적인 백업 조치도 마련하지 않고 있다. 이 경로에 문제가 생기면 대체 방안이 전혀 없게 되며 이것이 우리가 계속해서 목격하는 문제다.」
서리 대학교(University of Surrey)의 사이버보안 교수 앨런 우드워드(Alan Woodward)는 이번 화요일 장애가 인터넷이 '소수의 주요 사업자少数 players'에 고도로 의존하고 있음을 다시 한번 입증한다고 말했다. 그는 Cloudflare를 「들어본 적 없는 가장 큰 기업」이라고 표현했다.
「사람들은 선택권 없이 소수의 대기업에 의존할 수밖에 없다.」
최고기술책임자(CTO) 사과
Cloudflare의 최고기술책임자(CTO) 댄 크네히트(Dane Knecht)는 이번 사고에 대해 사과했다. 그는 X를 통해 다음과 같이 글을 올렸다.
「Cloudflare 네트워크에 문제가 발생하여 우리를 신뢰하고 있는 수많은 트래픽에 영향을 준 것은 고객뿐 아니라 전체 인터넷에 대한 배신이다. 이 문제 자체, 발생한 영향, 그리고 해결에 걸린 시간 모두 용납될 수 없는 수준이다. 우리는 유사한 사태가 재발하지 않도록 즉각 조치를 시작했지만 오늘 여러분께 불편을 끼친 점을 분명히 인지하고 있다. 고객의 신뢰가 무엇보다 중요하며 우리는 그 신뢰를 되찾기 위해 모든 노력을 기울일 것이다.」
Cloudflare는 지난 몇 년간 여러 차례 유사한 다운타임을 경험한 바 있다.
2019년 7월, Cloudflare 소프트웨어의 버그로 인해 네트워크 일부 모듈이 컴퓨팅 자원을 과도하게 점유해 Discord, Shopify, SoundCloud, Coinbase 등을 포함한 전 세계 수천 개의 Cloudflare 의존 웹사이트가 30분 동안 오프라인 상태가 됐다. 2022년 6월에는 Cloudflare의 장애로 19개 데이터센터의 트래픽이 영향을 받아 주요 웹사이트 및 서비스가 약 1시간 30분 동안 마비됐다.
Cloudflare의 소프트웨어는 전 세계 수십만 개 기업에서 사용되며, 기업 웹사이트와 최종 사용자 사이의 버퍼층 역할을 하여 트래픽 공격이나 급증으로 인한 다운타임으로부터 웹사이트를 보호한다.
작년에는 사이버보안 기업 크라우드스트라이크가 잘못된 소프트웨어 업데이트를 배포해 마이크로소프트 윈도우 운영체제를 사용하는 수백만 대의 장치가 다운되면서 항공, 은행, 의료 등 여러 산업에 걸쳐 광범위한 혼란을 초래했다.
크라우드스트라이크의 다운타임은 고객 컴퓨터의 가장 하위 계층에서 실행되는 제품 내 오류에서 비롯됐다. 반면 Cloudflare는 웹사이트 및 플랫폼과 같은 인터넷 인프라를 보호하는 역할을 하므로 Cloudflare 장애 시 다수의 인기 웹사이트가 직접적으로 접속 불가하거나 비정상 작동하게 된다. Cloudflare는 주로 「웹사이트가 항상 온라인 상태이고 속도가 빠르도록 유지」하는 데 집중하는 반면, 크라우드스트라이크는 컴퓨터와 서버를 공격으로부터 보호하는 데 초점을 맞춘다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News










