TechFlow 소식, 11월 19일 Cloudflare은 2025년 11월 18일 발생한 전 세계 네트워크 중단 사태에 대한 상세한 사후 분석 보고서를 공식 발표했다. 보고서에 따르면 이번 장애는 UTC 기준 11:20에 시작되었으며, 사이버 공격이 아닌 데이터베이스 시스템의 권한 변경으로 인해 발생한 연쇄 반응이 원인이었다. 구체적으로 ClickHouse 데이터베이스의 쿼리 동작 변화로 인해 봇 관리 시스템의 특성 구성 파일이 비정상적으로 증가했고, 이는 사전 설정된 메모리 할당 한도를 초과하면서 시스템 충돌을 유발했다.
보고서는 장애 기간 동안 핵심 CDN, Turnstile, Workers KV 등 여러 주요 서비스의 영향 상황뿐 아니라 11:28부터 17:06까지의 전체 장애 대응 시간표를 상세히 기록하고 있다. Cloudflare 팀은 잘못된 설정의 확산을 차단하고 정상 버전으로 롤백함으로써 문제를 해결했다.
Cloudflare CEO 매튜 프린스는 보고서에서 이 사례가 2019년 이후 회사 차원에서 가장 심각한 장애였음을 인정하며, 추후 유사 사건 재발 방지를 위해 구성 파일 검증 강화, 글로벌 기능 스위치 도입, 오류 처리 메커니즘 최적화 등의 조치를 취할 것을 약속했다.




