
암호화 산업의 인프라 위기
글: YQ
번역: AididiaoJP, Foresight News
아마존 웹 서비스(AWS)가 다시 한 번 중대한 장애를 겪으며 암호화 인프라에 심각한 영향을 미쳤다. 미국 동부 1지역(버지니아 북부 데이터센터)의 AWS 문제로 코인베이스(Coinbase)를 비롯해 로빈후드(Robinhood), 인퓨라(Infura), 베이스(Base), 솔라나(Solana) 등 수십 개 주요 암호화 플랫폼이 마비되었다.
AWS는 수천 개 기업이 의존하는 핵심 데이터베이스 및 컴퓨팅 서비스인 Amazon DynamoDB와 EC2에서 "오류율 증가"를 인정했다. 이번 장애는 본문의 중심 논점이 즉각적이고 뚜렷하게 입증되는 사례가 되었다. 암호화 인프라가 중앙집중형 클라우드 서비스 제공업체에 의존함으로써 시스템적인 취약점을 초래하며, 이는 스트레스 상황에서 반복적으로 노출된다.
이번 타이밍은 엄중한 교훈을 준다. 193억 달러 규모의 정리매도 연쇄 사건이 거래소 수준의 인프라 결함을 드러낸 지 단 10일 만에 오늘 AWS 장애는 문제가 개별 플랫폼을 넘어 기반 클라우드 인프라 계층까지 확장됨을 보여준다. AWS가 고장 나면 중앙집중형 거래소뿐 아니라 중앙 집중형 의존성을 가진 '탈중앙화' 플랫폼과 무수히 많은 다른 서비스에도 연쇄 영향이 동시에 발생한다.
이것은 고립된 사건이 아니라 일종의 패턴이다. 아래 분석은 2025년 4월, 2021년 12월, 2017년 3월 발생한 유사한 AWS 장애 사례를 기록하며, 매번 주요 암호화 서비스가 마비되었다. 다음 인프라 고장이 언제 발생할지, 어떤 요인이 트리거가 될지가 중요한 것이 아니라, 고장 자체가 반드시 발생한다는 점이다.
2025년 10월 10-11일 정리매도 연쇄 사건: 사례 연구
2025년 10월 10-11일의 정리매도 연쇄 사건은 인프라 고장 양상에 대한 계몽적인 사례 연구를 제공한다. UTC 시간 20:00, 중대한 지정학적 발표가 시장 전반의 매도세를 유발했다. 1시간 만에 60억 달러어치가 정리되었고, 아시아 시장 개장 시점에는 160만 명의 거래자 계좌에서 193억 달러의 레버리지 포지션이 증발했다.

그림 1: 2025년 10월 정리매도 연쇄 사건 타임라인
이 대화형 타임라인 그래프는 시간당 정리 금액의 극적인 진행 과정을 보여준다. 첫 번째 시간 동안만 60억 달러가 증발했고, 그 후 연쇄가 가속화된 두 번째 시간에는 더욱 격렬했다. 시각화 내용:
-
20:00-21:00: 초기 충격 - 60억 달러 정리 (빨간색 영역)
-
21:00-22:00: 연쇄 최고조 - 42억 달러, 이때 API 제한 시작
-
22:00-04:00: 지속 악화 구간 - 유동성이 부족한 시장에서 91억 달러 정리
-
주요 전환점: API 속도 제한, 시장 조성자 철수, 오더북 얇아짐
규모 면에서 기존 모든 암호화 시장 사건보다 최소한 한 자릿수 이상 크며, 역사적 비교는 이 사건의 단계 함수적 성격을 보여준다:

그림 2: 역사적 정리 사건 비교
막대그래프 비교는 2025년 10월 사건의 돌출성을 극적으로 설명한다:
-
2020년 3월(COVID): 12억 달러
-
2021년 5월(폭락): 16억 달러
-
2022년 11월(FTX): 16억 달러
-
2025년 10월: 193억 달러, 기존 기록보다 16배 큼
하지만 정리 금액은 이야기의 일부만 말해준다. 더 흥미로운 질문은 메커니즘에 관한 것이다. 외부 시장 사건은 어떻게 이러한 특정 고장 양상을 유발했는가? 답변은 중앙집중형 거래소 인프라와 블록체인 프로토콜 설계 내 시스템적 약점을 드러낸다.
오프체인 고장: 중앙집중형 거래소 아키텍처
인프라 과부하 및 속도 제한
거래소 API는 남용 방지 및 서버 부하 관리를 위해 속도 제한을 시행한다. 정상 운영 중에는 이 제한이 정당한 거래를 허용하면서 잠재적 공격을 차단한다. 극단적 변동성 기간에는 수천 명의 거래자가 동시에 포지션을 조정하려 하므로 같은 속도 제한이 병목구간이 된다.
CEX는 초당 하나의 주문으로 정리 알림을 제한한다. 초당 수천 건의 주문을 처리할 때조차 마찬가지다. 10월 연쇄 사건 당시 이로 인해 불투명성이 발생했다. 사용자는 실시간 연쇄의 심각성을 확인할 수 없었다. 제3자 모니터링 도구는 분당 수백 건의 정리를 보였지만 공식 데이터 소스는 훨씬 적게 보였다.
API 속도 제한은 거래자가 중요한 첫 시간 동안 포지션을 수정하는 것을 막았고, 연결 요청은 타임아웃되었으며 주문 제출은 실패했다. 스탑로스 주문은 실행되지 않았고 포지션 조회는 오래된 데이터를 반환했다. 이러한 인프라 병목현상이 시장 사건을 운영 위기로 전환시켰다.
전통적 거래소는 정상 부하에 안전 여유를 더해 인프라를 구성한다. 그러나 정상 부하와 스트레스 부하는 극명히 다르며, 일평균 거래량은 피크 스트레스 수요를 잘 예측하지 못한다. 연쇄 사건 기간에는 거래량이 100배 이상 급증하고 포지션 데이터 조회는 각 사용자가 동시에 계좌를 확인하므로 1000배 증가한다.

그림 4.5: 암호화 서비스에 영향을 준 AWS 장애
자동 확장 클라우드 인프라는 도움이 되지만 즉각적인 응답은 불가능하다. 추가 데이터베이스 리드 복제본 생성에는 수분이 걸리고 새로운 API 게이트웨이 인스턴스 생성에도 수분이 필요하다. 그 몇 분 동안 마진 시스템은 과부하된 오더북에서 나오는 손상된 가격 데이터를 기반으로 계속 포지션 가치를 표시한다.
오라클 조작 및 가격 책정 취약점
10월 연쇄 사건 당시 마진 시스템의 핵심 설계 선택이 명확해졌다. 일부 거래소는 외부 오라클 데이터 스트림이 아닌 내부 현물 시장 가격을 기반으로 담보 가치를 산정했다. 정상 시장 조건에서는 차익거래자가 여러 장소 간 가격 일관성을 유지한다. 하지만 인프라에 스트레스가 가해질 경우 이러한 결합이 붕괴된다.

그림 3: 오라클 조작 흐름도
이 대화형 흐름도는 다섯 단계 공격 벡터를 시각화한다:
-
초기 매도: USDe에 6000만 달러 매도 압력 적용
-
가격 조작: 단일 거래소에서 USDe가 1.00달러에서 0.65달러로 폭락
-
오라클 장애: 마진 시스템이 손상된 내부 가격 데이터 스트림 사용
-
연쇄 트리거: 담보품 가치 하향 조정, 강제 정리 시작
-
증폭: 총 193억 달러 정리 (322배 증폭)
이 공격은 바이낸스가 패키징된 합성 담보에 대해 현물 시장 가격을 사용하도록 설정한 점을 이용했다. 공격자가 6000만 달러 상당의 USDe를 비교적 얇은 오더북에 던졌을 때 현물 가격은 1.00달러에서 0.65달러로 폭락했다. 현물 가격 기준으로 담보를 표시하도록 설정된 마진 시스템은 USDe 담보 포지션 전체를 35% 하향 재평가했다. 이로 인해 수천 개 계좌에 마진콜과 강제 정리가 발생했다.
이들 정리는 동일한 비유동성 시장에 더 많은 매도 주문을 강요하여 가격을 추가로 낮췄다. 마진 시스템은 더 낮은 가격을 관찰하고 더 많은 포지션 가치를 표시하며, 피드백 루프가 6000만 달러 매도 압력을 193억 달러 강제 정리로 증폭시켰다.

그림 4: 정리 연쇄 피드백 루프
이 순환 피드백 그래프는 연쇄의 자기강화 특성을 설명한다:
가격 하락 → 정리 트리거 → 강제 매도 → 가격 추가 하락 → [루프 반복]
제대로 설계된 오라클 시스템을 채택했다면 이러한 메커니즘은 작동하지 않았을 것이다. 바이낸스가 여러 거래소의 시간가중 평균 가격(TWAP)을 사용했다면 순간적인 가격 조작은 담보 평가에 영향을 주지 못했을 것이다. 체인링크 또는 기타 다중 소스 오라클에서 온 집계 가격 데이터 스트림을 사용했다면 공격은 실패했을 것이다.
4일 전 wBETH 사건은 유사한 취약점을 보여주었다. wBETH는 ETH와 1:1 교환 비율을 유지해야 한다. 연쇄 사건 기간 유동성이 고갈되면서 wBETH/ETH 현물 시장은 20% 할인을 나타냈다. 마진 시스템은 이에 따라 wBETH 담보품 가치를 하향 조정했고, 사실상 기본 ETH로 완전히 담보된 포지션의 정리를 유발했다.
자동 감소청산(ADL) 메커니즘
정리를 현재 시장 가격으로 실행할 수 없을 때 거래소는 자동 감소청산(ADL)을 시행하여 이익을 본 거래자에게 손실을 분담시킨다. ADL은 이익 포지션을 강제로 청산하여 정리된 포지션의 부족분을 메운다.
10월 연쇄 사건 기간 바이낸스는 여러 거래쌍에서 ADL을 실행했다. 이익을 본 롱 포지션을 보유한 거래자들은 자신의 리스크 관리 실패 때문이 아니라 다른 거래자의 포지션이 지불불능 상태가 되었기 때문에 거래가 강제 청산되는 것을 발견했다.
ADL은 중앙집중형 파생상품 거래의 기본 아키텍처 선택을 반영한다. 거래소는 자신이 돈을 잃지 않도록 보장한다. 즉 손실은 다음 중 하나 이상이 부담해야 한다:
-
보험기금(정리 부족분을 메우기 위해 거래소가 확보한 자금)
-
ADL(이익 거래자를 강제 청산)
-
손실 사회화(손실을 모든 사용자에게 분산)
미결제계약 규모 대비 보험기금 규모가 ADL 빈도를 결정한다. 2025년 10월 바이낸스 보험기금은 총 약 20억 달러였다. BTC, ETH, BNB 퍼피츄얼 계약의 40억 달러 미결제계약에 비해 50% 커버리지를 제공한다. 그러나 10월 연쇄 사건 기간 모든 거래쌍의 미결제계약 총액은 200억 달러를 초과했다. 보험기금으로는 부족분을 커버할 수 없었다.
10월 연쇄 사건 이후 바이낸스는 총 미결제계약이 40억 달러 이하일 경우 BTC, ETH, BNB USDⓈ-M 계약에서 ADL이 발생하지 않는다고 발표했다. 이는 인센티브 구조를 창출한다. 거래소는 ADL을 피하기 위해 더 큰 보험기금을 유지할 수 있지만 이는 수익성 있게 배치될 수 있는 자금을 차지한다.
온체인 고장: 블록체인 프로토콜의 한계
막대그래프는 다양한 사건에서 다운타임을 비교한다:
-
Solana(2024년 2월): 5시간 - 투표 처리량 병목
-
Polygon(2024년 3월): 11시간 - 검증자 버전 불일치
-
Optimism(2024년 6월): 2.5시간 - 정렬기 과부하(에어드랍)
-
Solana(2024년 9월): 4.5시간 - 트랜잭션 스팸 공격
-
Arbitrum(2024년 12월): 1.5시간 - RPC 제공업체 장애

그림 5: 주요 네트워크 장애 - 지속시간 분석
Solana: 합의 병목
Solana는 2024-2025년 기간 여러 차례 장애를 겪었다. 2024년 2월 장애는 약 5시간 지속되었고, 2024년 9월 장애는 4-5시간 지속되었다. 이들 장애는 유사한 근본 원인에서 비롯된다. 네트워크가 스팸 공격이나 극단적 활동 기간에 트랜잭션 처리량을 감당하지 못하는 것이다.
그림 5 세부사항: Solana 장애(2월 5시간, 9월 4.5시간)는 스트레스 하에서 네트워크 회복력의 반복적 문제를 강조한다.
Solana 아키텍처는 처리량을 최적화한다. 이상적인 조건에서 네트워크는 초당 3,000-5,000건의 트랜잭션을 처리하며 아세컨드급 최종성을 갖는다. 이 성능은 이더리움보다 수 차원 우수하다. 그러나 스트레스 사건 기간에는 이러한 최적화가 취약점을 만들어낸다.
2024년 9월 장애는 검증자의 투표 메커니즘을 압도한 스팸 트랜잭션 물결에서 비롯되었다. Solana 검증자는 합의를 위해 블록에 투표해야 한다. 정상 운영 중에는 검증자가 투표 트랜잭션을 우선 처리하여 합의 진행을 보장한다. 그러나 프로토콜은 이전에 요금 시장에서 투표 트랜잭션을 일반 트랜잭션과 동등하게 취급했다.
트랜잭션 메모리풀이 수백만 개의 스팸 트랜잭션으로 가득 차면 검증자가 투표 트랜잭션을 전파하기 어려워진다. 충분한 투표가 없으면 블록은 최종화되지 않는다. 최종화되지 않은 블록은 체인을 멈춘다. 미처리 트랜잭션을 가진 사용자는 그것들이 메모리풀에 머무는 것을 본다. 새로운 트랜잭션은 제출할 수 없다.
StatusGator는 2024-2025년 여러 차례 Solana 서비스 장애를 기록했지만 Solana는 공식적으로 이를 인정하지 않았다. 이는 정보 비대칭을 초래한다. 사용자는 지역 연결 문제와 전 네트워크 문제를 구분할 수 없다. 제3자 모니터링 서비스는 책임성을 제공하지만 플랫폼은 포괄적인 상태 페이지를 유지해야 한다.
이더리움: 가스비 폭발
이더리움은 2021년 DeFi 호황기 동안 극단적인 가스비 급등을 경험했다. 간단한 송금의 트랜잭션 수수료가 100달러를 넘었고 복잡한 스마트 계약 상호작용은 500-1000달러를 소비했다. 이러한 수수료는 소액 거래에 대해 네트워크를 사용 불가능하게 만들었으며 MEV 추출이라는 다른 공격 경로를 가능하게 했다.

그림 7: 네트워크 스트레스 기간의 거래 비용
이 선 그래프는 스트레스 사건 기간 각 네트워크의 가스비 급등을 극적으로 보여준다:
-
이더리움: 5달러(정상) → 450달러(최고 혼잡) - 90배 증가
-
Arbitrum: 0.50달러 → 15달러 - 30배 증가
-
Optimism: 0.30달러 → 12달러 - 40배 증가
시각화는 시작점이 훨씬 낮음에도 불구하고 Layer 2 솔루션조차도 상당한 가스비 급등을 경험했음을 보여준다.
최대 추출 가능 가치(MEV)는 검증자가 트랜잭션을 재정렬하거나 포함, 배제함으로써 추출할 수 있는 이익을 설명한다. 고 가스비 환경에서 MEV는 특히 수익성이 높아진다. 차익거래자들은 대규모 DEX 거래를 앞서 가려고 경쟁하고 정리 봇은 담보가 부족한 포지션을 먼저 정리하려고 경쟁한다. 이러한 경쟁은 가스비 경매 전쟁으로 나타난다.
혼잡 기간 거래 포함을 보장하려는 사용자는 MEV 봇보다 더 높은 입찰을 해야 한다. 이로 인해 거래 수수료가 거래 가치를 초과하는 상황이 발생한다. 100달러 에어드랍을 받으려는가? 150달러 가스비를 지불하라. 정리를 피하기 위해 담보를 추가해야 하는가? 500달러 우선료를 지불하는 봇과 경쟁하라.
이더리움의 가스 제한은 각 블록의 총 계산량을 제한한다. 혼잡 기간 사용자는 희귀한 블록 공간을 입찰한다. 요금 시장은 설계대로 작동한다. 더 높은 입찰자가 우선권을 얻는다. 그러나 이 설계는 고 사용량 기간 네트워크를 점점 더 비싸게 만들며, 사용자가 가장 접근이 필요한 순간에 그렇게 만든다.
Layer 2 솔루션은 계산을 오프체인으로 이동하여 이 문제를 해결하려 하며 정기적인 결제를 통해 이더리움의 보안을 계승한다. Optimism, Arbitrum 및 기타 롤업은 오프체인에서 수천 건의 트랜잭션을 처리한 후 압축된 증명을 이더리움에 제출한다. 이 아키텍처는 정상 운영 기간 거래당 비용을 성공적으로 낮췄다.
Layer 2: 정렬기 병목
그러나 Layer 2 솔루션은 새로운 병목을 도입한다. Optimism은 25만 개 주소가 동시에 에어드랍을 신청할 때 2024년 6월 장애를 경험했다. 트랜잭션을 이더리움에 제출하기 전에 정렬하는 컴포넌트인 정렬기가 압도되어 사용자는 수시간 동안 트랜잭션을 제출할 수 없었다.
이 장애는 계산을 오프체인으로 이동해도 인프라 수요를 제거하지 않는다는 것을 보여준다. 정렬기는 들어오는 트랜잭션을 처리하고 정렬하며 실행하고 이더리움 결제를 위한 사기 증명 또는 ZK 증명을 생성해야 한다. 극단적 트래픽 하에서 정렬기는 독립 블록체인과 동일한 확장성 문제에 직면한다.
여러 RPC 제공업체의 가용성을 유지해야 한다. 주 제공업체가 고장 나면 사용자는 대체 제공업체로 원활하게 장애 조치해야 한다. Optimism 장애 기간 일부 RPC 제공업체는 기능을 유지했지만 다른 것은 고장났다. 고장난 제공업체에 기본 연결된 지갑 사용자는 체인과 상호작용할 수 없었고 체인 자체는 여전히 온라인 상태였다.
AWS 장애는 암호화 생태계에 존재하는 집중된 인프라 리스크를 반복적으로 입증했다:
-
2025년 10월 20일(오늘): 미국 동부 1지역 장애가 코인베이스, 벤모(Venmo), 로빈후드, 카임(Chime)에 영향. AWS는 DynamoDB 및 EC2 서비스 오류율 증가를 인정.
-
2025년 4월: 지역적 장애가 바이낸스, 쿠코인(KuCoin), MEXC를 동시에 영향. AWS 호스팅 컴포넌트 고장 시 여러 주요 거래소가 사용 불가능해짐.
-
2021년 12월: 미국 동부 1지역 장애로 코인베이스, 바이낸스.US 및 '탈중앙화' 거래소 dYdX가 8-9시간 마비되며 아마존 자체 창고 및 주요 스트리밍 서비스도 영향.
-
2017년 3월: S3 장애로 코인베이스 및 GDAX 사용자 로그인이 5시간 동안 차단되며 광범위한 인터넷 장애와 함께 발생.
패턴은 명확하다. 이 거래소들은 AWS 인프라에 핵심 컴포넌트를 호스팅한다. AWS가 지역적 장애를 겪을 때 여러 주요 거래소 및 서비스가 동시에 사용 불가능해진다. 사용자는 장애 기간 자금 접근, 거래 실행, 포지션 수정이 불가능하며, 이는 시장 변동이 즉각적인 조치를 요구할 수 있는 순간이다.
Polygon: 합의 버전 불일치
Polygon(구 Matic)은 2024년 3월 11시간 장애를 경험했다. 근본 원인은 검증자 버전 불일치로 일부 검증자는 구형 소프트웨어 버전을 실행하고 다른 검증자는 업그레이드된 버전을 실행했다. 이들 버전은 상태 전환을 서로 다른 방식으로 계산했다.
그림 5 세부사항: Polygon 장애(11시간)는 분석된 주요 사건 중 가장 길며 합의 장애의 심각성을 강조한다.
검증자가 올바른 상태에 대해 서로 다른 결론을 내릴 때 합의는 실패하고 체인은 새로운 블록을 생성할 수 없다. 검증자가 블록 유효성에 대해 합의할 수 없기 때문이다. 이는 교착 상태를 만든다. 구형 소프트웨어를 실행하는 검증자는 업데이트된 소프트웨어를 실행하는 검증자가 생성한 블록을 거부하고, 업데이트된 소프트웨어를 실행하는 검증자는 구형 소프트웨어를 실행하는 검증자가 생성한 블록을 거부한다.
해결을 위해 검증자 업그레이드를 조정해야 하지만 장애 기간에는 시간이 걸린다. 각 검증자 운영자는 연락되어야 하고 올바른 소프트웨어 버전을 배포하고 검증기를 재시작해야 한다. 수백 개 독립 검증자가 있는 탈중앙화 네트워크에서 이러한 조정은 수시간 또는 수일이 걸린다.
하드포크는 일반적으로 블록 높이 트리거를 사용한다. 모든 검증자가 특정 블록 높이 전에 업그레이드하여 동시 활성화를 보장하지만 이는 사전 조정이 필요하다. 점진적 업그레이드, 즉 검증자가 점차적으로 새 버전을 채택하는 것은 Polygon 장애를 유발한 것과 정확히 같은 버전 불일치 위험을 초래한다.
아키텍처 트레이드오프

그림 6: 블록체인 삼중 곤란 - 탈중앙화 vs 성능
이 산점도 시각화는 서로 다른 시스템을 두 가지 핵심 차원에 매핑한다:
-
비트코인: 고 탈중앙화, 저 성능
-
이더리움: 고 탈중앙화, 중간 성능
-
Solana: 중간 탈중앙화, 고 성능
-
바이낸스(CEX): 최소 탈중앙화, 최대 성능
-
Arbitrum/Optimism: 중고 탈중앙화, 중간 성능
핵심 통찰: 어떤 시스템도 최대 탈중앙화와 최대 성능을 동시에 달성할 수 없으며 각 설계는 서로 다른 용도에 대해 신중한 트레이드오프를 한다.
중앙집중형 거래소는 아키텍처 단순성으로 낮은 지연을 달성하며, 마이크로초 안에 주문을 처리하는 매칭 엔진과 중앙 집중형 데이터베이스에 존재하는 상태를 가진다. 합의 프로토콜이 오버헤드를 도입하지 않지만 이러한 단순성은 단일 고장 지점을 만들어내며, 인프라에 스트레스가 가해질 때 밀접하게 결합된 시스템을 통해 연쇄 고장이 전파된다.
탈중앙화 프로토콜은 상태를 검증자 사이에 분산시켜 단일 고장 지점을 제거한다. 고처리량 체인은 장애 기간 이 속성을 유지한다(자금 손실 없음, 일시적 활성만 손상). 그러나 분산된 검증자 간 합의 도출은 계산 오버헤드를 도입하며, 상태 전환이 최종화되기 전에 검증자가 합의해야 한다. 검증자가 호환되지 않는 버전을 실행하거나 압도적인 트래픽에 직면할 때 합의 프로세스는 일시 중단될 수 있다.
복제본 추가는 내결함성을 향상시키지만 조정 비용을 증가시킨다. 비잔틴 장애 허용 시스템에서 각 추가 검증자는 통신 오버헤드를 증가시킨다. 고처리량 아키텍처는 이 오버헤드를 최소화하기 위해 최적화된 검증자 통신을 사용하여 뛰어난 성능을 달성하지만 특정 공격 패턴에 취약하다. 보안 중심 아키텍처는 검증자 다양성과 합의 안정성을 우선시하며 기반 계층 처리량을 제한하면서 탄력성을 극대화한다.
Layer 2 솔루션은 계층적 설계를 통해 두 속성을 모두 제공하려 한다. L1 결제를 통해 이더리움의 보안 속성을 계승하면서 오프체인 계산으로 고처리량을 제공한다. 그러나 정렬기 및 RPC 계층에 새로운 병목을 도입하여 일부 문제를 해결하는 동시에 새로운 고장 양상을 창출하는 아키텍처 복잡성을 보여준다.
확장성은 여전히 근본 문제
이 사건들은 시스템이 정상 부하에 맞춰 리소스를 구성한 후 스트레스 하에서 재앙적으로 실패한다는 일관된 패턴을 드러낸다. Solana는 일반 트래픽을 효과적으로 처리했지만 거래량이 10,000% 증가할 때 붕괴했다. 이더리움 가스비는 DeFi 채택이 혼잡을 유발할 때까지 합리적이었다. Optimism 인프라는 25만 개 주소가 동시에 에어드랍을 신청할 때까지 잘 작동했다. 바이낸스 API는 정상 거래 기간에는 기능했지만 정리 연쇄 기간에는 제한되었다.
2025년 10월 사건은 거래소 수준에서 이러한 역학을 보여주었다. 정상 운영 기간 바이낸스 API 속도 제한 및 데이터베이스 연결은 충분했지만 정리 연쇄 기간 각 거래자가 동시에 포지션을 조정하려 할 때 이러한 제한이 병목이 되었다. 거래소를 보호하기 위해 강제 정리를 시행하는 마진 시스템은 최악의 순간에 강제 매도자를 만들어 위기를 증폭시켰다.
자동 확장은 단계 함수적 부하 증가에 대해 충분한 보호를 제공하지 못한다. 추가 서버 시작에는 수분이 걸리고 그 몇 분 동안 마진 시스템은 얇은 오더북에서 나오는 손상된 가격 데이터를 기반으로 포지션 가치를 표시한다. 새로운 용량이 온라인에 도달할 때쯤에는 연쇄가 이미 확산되었다.
희귀한 스트레스 사건을 대비해 리소스를 과도하게 구성하면 정상 운영 기간 자금을 소모한다. 거래소 운영자는 일반 부하에 최적화하여 가끔 발생하는 고장을 경제적으로 합리적인 선택으로 받아들인다. 다운타임 비용은 사용자에게 외부화되며, 이들은 핵심 시장 변동 기간 정리, 거래 정체, 자금 접근 불가를 경험한다.
인프라 개선

그림 8: 인프라 고장 양상 분포(2024-2025)
근본 원인의 파이 차트 분해:
-
인프라 과부하: 35%(가장 흔함)
-
네트워크 혼잡: 20%
-
합의 실패: 18%
-
오라클 조작: 12%
-
검증자 문제: 10%
-
스마트 계약 취약점: 5%
몇 가지 아키텍처 변경이 고장 빈도와 심각성을 줄일 수 있으나 각각 트레이드오프를 수반한다:
가격 시스템과 정리 시스템 분리
10월 문제는 마진 계산을 현물 시장 가격과 결합한 데서 부분적으로 기인한다. 패키징 자산에 대해 현물 가격이 아닌 교환 비율을 사용했다면 wBETH의 잘못된 평가를 피할 수 있었을 것이다. 보다 일반적으로 핵심 리스크 관리 시스템은 조작될 수 있는 시장 데이터에 의존해서는 안 된다. 다중 소스 집계 및 TWAP 계산을 갖춘 독립 오라클 시스템은 더 강건한 가격 데이터 스트림을 제공한다.
과도한 구성 및 중복 인프라
2025년 4월 바이낸스, 쿠코인, MEXC에 영향을 준 AWS 장애는 중앙집중형 인프라 의존의 리스크를 입증했다. 여러 클라우드 제공업체에 걸쳐 핵심 컴포넌트를 운영하면 운영 복잡성과 비용이 증가하지만 관련 고장을 제거한다. Layer 2 네트워크는 자동 장애 조치 기능을 갖춘 여러 RPC 제공업체를 유지할 수 있다. 추가 비용은 정상 운영 기간 낭비처럼 보일 수 있지만 피크 수요 기간 다운타임을 수시간 방지한다.
강화된 스트레스 테스트 및 용량 계획
시스템이 실패할 때까지 잘 작동하는 패턴은 스트레스 하에서 테스트 부족을 시사한다. 정상 부하의 100배를 시뮬레이션하는 것은 개발 중 병목을 식별하는 비용이 실제 장애 기간 발견하는 것보다 낮기 때문에 표준 관행이어야 한다. 그러나 현실적인 부하 테스트는 여전히 도전적이다. 프로덕션 트래픽은 합성 테스트가 완전히 포착할 수 없는 패턴을 나타내며 사용자는 실제 붕괴 기간 행동이 테스트 기간과 다르다.
앞으로의 길
과도한 구성은 가장 신뢰할 수 있는 해결책을 제공하지만 경제적 인센티브와 충돌한다. 희귀 사건을 위해 10배의 여유 용량을 유지하는 것은 매일 비용이 들며 매년 한 번 발생하는 문제를 방지하기 위한 것이다. 재해적 고장이 과도한 구성을 정당화할 만큼 충분한 비용을 부과하기 전까지 시스템은 스트레스 하에서 계속 실패할 것이다.
규제 압력이 변화를 강제할 수 있다. 규정이 99.9% 가동률을 강제하거나 허용 가능한 다운타임을 제한한다면 거래소는 과도한 구성을 해야 할 것이다. 그러나 규정은 일반적으로 재해 후에 따라오며 예방하지 않는다. Mt. Gox가 2014년 붕괴한 후 일본이 공식 암호화폐 거래소 규정을 제정했다. 2025년 10월 정리 연쇄 사건은 유사한 규제 대응을 유발할 가능성이 높다. 이러한 대응이 결과를 지정할지(허용 가능한 최대 다운타임, 정리 기간 최대 슬리피지) 아니면 방법을 지정할지(특정 오라클 제공업체, 서킷 브레이커 임계값)는 아직 불확실하다.
근본적 도전은 이러한 시스템이 글로벌 시장에서 지속적으로 작동하지만 전통적 상업 시간에 맞춰 설계된 인프라에 의존한다는 점이다. 스트레스가 02:00에 발생하면 팀은 수정 배포를 위해 서둘러야 하고 사용자는 계속 증가하는 손실에 직면한다. 전통적 시장은 스트레스 기간 거래를 중단한다. 암호화 시장은 그냥 붕괴한다. 이것은 특성인지 결함인지 여부는 관점과 입장에 따라 다르다.
블록체인 시스템은 짧은 시간 내 상당한 기술적 복잡성을 달성했다. 수천 개 노드 간 분산 합의를 유지하는 것은 진정한 공학적 성취를 나타낸다. 그러나 스트레스 하에서 신뢰성을 달성하려면 프로토타입 아키텍처를 넘어 생산 수준 인프라로 전환해야 한다. 이러한 전환은 자금을 필요로 하며 기능 개발 속도보다 안정성을 우선시해야 한다.
도전은 상승장 기간 누구나 돈을 벌고 다운타임이 다른 사람의 문제처럼 보일 때 어떻게 안정성을 성장보다 우선시할
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News
![Axe Compute [나스닥: AGPU] 기업 재구조화 완료(기존 POAI), 엔터프라이즈급 분산형 GPU 컴퓨팅 파워 Aethir, 본격적으로 메인스트림 시장 진입](https://upload.techflowpost.com//upload/images/20251212/2025121221124297058230.png)













