
Cuộc khủng hoảng cơ sở hạ tầng trong ngành tiền mã hóa
Tuyển chọn TechFlowTuyển chọn TechFlow

Cuộc khủng hoảng cơ sở hạ tầng trong ngành tiền mã hóa
Vấn đề không nằm ở chỗ lần sự cố cơ sở hạ tầng tiếp theo có xảy ra hay không, mà là khi nào nó xảy ra và yếu tố kích hoạt là gì.
Bài viết: YQ
Biên dịch: AididiaoJP, Foresight News
Dịch vụ Web Amazon lại gặp sự cố nghiêm trọng, ảnh hưởng nặng nề đến cơ sở hạ tầng mã hóa. Vấn đề tại khu vực AWS Đông Hoa Kỳ 1 (trung tâm dữ liệu Bắc Virginia) đã khiến Coinbase và hàng chục nền tảng mã hóa lớn khác như Robinhood, Infura, Base và Solana ngừng hoạt động.
AWS đã xác nhận "tỷ lệ lỗi gia tăng" ảnh hưởng đến Amazon DynamoDB và EC2 – các dịch vụ cơ sở dữ liệu và tính toán cốt lõi mà hàng ngàn công ty phụ thuộc vào. Sự cố này ngay lập tức minh họa rõ ràng cho luận điểm chính của bài viết: sự phụ thuộc của cơ sở hạ tầng mã hóa vào các nhà cung cấp dịch vụ đám mây tập trung tạo ra những lỗ hổng hệ thống, liên tục bộc lộ khi chịu áp lực.
Thời điểm này mang tính cảnh tỉnh sâu sắc. Chỉ mười ngày sau khi chuỗi thanh lý trị giá 19,3 tỷ USD phơi bày sự cố cơ sở hạ tầng ở cấp độ sàn giao dịch, sự gián đoạn AWS hôm nay cho thấy vấn đề không chỉ giới hạn ở từng nền tảng riêng lẻ, mà mở rộng tới lớp cơ sở hạ tầng đám mây nền tảng. Khi AWS gặp sự cố, tác động dây chuyền ảnh hưởng đồng thời đến cả các sàn giao dịch tập trung, các nền tảng "phi tập trung" nhưng có yếu tố phụ thuộc tập trung, cùng vô số dịch vụ khác.
Đây không phải là sự kiện đơn lẻ, mà là một mô hình lặp lại. Phân tích dưới đây ghi nhận các sự cố AWS tương tự xảy ra vào tháng 4 năm 2025, tháng 12 năm 2021 và tháng 3 năm 2017, mỗi lần đều dẫn đến việc các dịch vụ mã hóa chính ngừng hoạt động. Vấn đề không phải là liệu sự cố cơ sở hạ tầng tiếp theo có xảy ra hay không, mà là khi nào nó xảy ra và yếu tố kích hoạt sẽ là gì.
Sự kiện thanh lý chuỗi ngày 10-11 tháng 10 năm 2025: Nghiên cứu điển hình
Sự kiện thanh lý chuỗi ngày 10-11 tháng 10 năm 2025 cung cấp một ví dụ điển hình mang tính cảnh tỉnh về mô hình sự cố cơ sở hạ tầng. Vào lúc 20:00 UTC, một thông báo địa chính trị lớn đã gây ra đợt bán tháo trên toàn thị trường. Trong vòng một giờ, 6 tỷ USD đã bị thanh lý. Đến khi thị trường châu Á mở cửa, 19,3 tỷ USD vị thế ký quỹ đã bốc hơi trong tài khoản của 1,6 triệu nhà giao dịch.

Hình 1: Dòng thời gian sự kiện thanh lý chuỗi tháng 10 năm 2025
Biểu đồ dòng thời gian tương tác này cho thấy diễn biến mạnh mẽ của khối lượng thanh lý theo từng giờ. Chỉ riêng giờ đầu tiên đã mất 6 tỷ USD, sau đó còn dữ dội hơn trong giờ thứ hai khi chuỗi phản ứng gia tốc. Hình ảnh trực quan thể hiện:
-
20:00-21:00: Tác động ban đầu - 6 tỷ USD bị thanh lý (vùng màu đỏ)
-
21:00-22:00: Cao điểm chuỗi - 4,2 tỷ USD, lúc này API bắt đầu giới hạn tốc độ
-
22:00-04:00: Giai đoạn xấu đi liên tục - 9,1 tỷ USD bị thanh lý trong điều kiện thanh khoản cạn kiệt
-
Điểm ngoặt then chốt: Giới hạn tốc độ API, nhà tạo lập thị trường rút lui, sổ lệnh trở nên mỏng manh
Với quy mô ít nhất lớn hơn mọi sự kiện thị trường mã hóa trước đây một bậc, so sánh lịch sử cho thấy bản chất bước nhảy của sự kiện này:

Hình 2: So sánh các sự kiện thanh lý lịch sử
Biểu đồ cột so sánh một cách kịch tính mức độ nổi bật của sự kiện tháng 10 năm 2025:
-
Tháng 3 năm 2020 (COVID): 1,2 tỷ USD
-
Tháng 5 năm 2021 (sụt giảm): 1,6 tỷ USD
-
Tháng 11 năm 2022 (FTX): 1,6 tỷ USD
-
Tháng 10 năm 2025: 19,3 tỷ USD, gấp 16 lần kỷ lục trước đó
Nhưng con số thanh lý mới chỉ kể một phần câu chuyện. Câu hỏi thú vị hơn liên quan đến cơ chế: Làm thế nào một sự kiện thị trường bên ngoài lại kích hoạt mô hình sự cố cụ thể này? Câu trả lời tiết lộ những điểm yếu hệ thống trong kiến trúc sàn giao dịch tập trung và thiết kế giao thức blockchain.
Sự cố ngoại chuỗi: Kiến trúc sàn giao dịch tập trung
Tải quá mức và giới hạn tốc độ cơ sở hạ tầng
Các API của sàn giao dịch thực hiện giới hạn tốc độ để ngăn chặn lạm dụng và quản lý tải máy chủ. Trong điều kiện vận hành bình thường, các giới hạn này cho phép giao dịch hợp pháp đồng thời ngăn chặn các cuộc tấn công tiềm tàng. Trong thời kỳ biến động cực đoan, khi hàng ngàn nhà giao dịch cùng lúc cố gắng điều chỉnh vị thế, các giới hạn tốc độ giống nhau này lại trở thành điểm nghẽn.
CEX giới hạn thông báo thanh lý xuống còn một lệnh mỗi giây, ngay cả khi xử lý hàng ngàn lệnh mỗi giây. Trong sự kiện chuỗi tháng 10, điều này gây ra sự thiếu minh bạch. Người dùng không thể xác định được mức độ nghiêm trọng thực tế của chuỗi thanh lý. Các công cụ giám sát bên thứ ba hiển thị hàng trăm lần thanh lý mỗi phút, trong khi nguồn dữ liệu chính thức lại cho thấy con số thấp hơn nhiều.
Giới hạn tốc độ API ngăn cản nhà giao dịch sửa đổi vị thế trong giờ đầu tiên quan trọng, các yêu cầu kết nối hết thời gian chờ, việc gửi lệnh thất bại. Lệnh dừng lỗ không được thực hiện, truy vấn vị thế trả về dữ liệu lỗi thời, sự tắc nghẽn cơ sở hạ tầng này đã biến một sự kiện thị trường thành khủng hoảng vận hành.
Các sàn giao dịch truyền thống cấu hình cơ sở hạ tầng dựa trên tải bình thường cộng thêm dung sai an toàn. Nhưng tải bình thường hoàn toàn khác với tải áp lực, khối lượng giao dịch trung bình hàng ngày không thể dự đoán tốt nhu cầu tải đỉnh điểm. Trong sự kiện chuỗi, khối lượng giao dịch tăng vọt 100 lần hoặc hơn, số lượng truy vấn dữ liệu vị thế tăng 1000 lần vì mỗi người dùng đồng thời kiểm tra tài khoản của mình.

Hình 4.5: Các sự gián đoạn AWS ảnh hưởng đến các dịch vụ mã hóa
Cơ sở hạ tầng đám mây tự động mở rộng giúp ích, nhưng không thể phản ứng tức thì, việc khởi động các bản sao đọc cơ sở dữ liệu bổ sung cần vài phút. Việc tạo các phiên bản API Gateway mới cũng cần vài phút. Trong vài phút đó, hệ thống ký quỹ tiếp tục đánh dấu giá trị vị thế dựa trên dữ liệu giá hỏng từ sổ lệnh quá tải.
Thao túng oracles và lỗ hổng định giá
Trong sự kiện chuỗi tháng 10, một lựa chọn thiết kế then chốt trong hệ thống ký quỹ trở nên rõ ràng: một số sàn giao dịch tính toán giá trị tài sản đảm bảo dựa trên giá thị trường giao ngay nội bộ chứ không phải luồng dữ liệu oracle bên ngoài. Trong điều kiện thị trường bình thường, các nhà kinh doanh chênh lệch giá duy trì sự nhất quán giá giữa các nơi. Nhưng khi cơ sở hạ tầng chịu áp lực, sự liên kết này sụp đổ.

Hình 3: Sơ đồ luồng thao túng oracle
Sơ đồ luồng tương tác này trực quan hóa vector tấn công gồm năm giai đoạn:
-
Bán tháo ban đầu: Áp lực bán 60 triệu USD lên USDe
-
Thao túng giá: USDe trên một sàn giao dịch đơn lẻ giảm mạnh từ 1,00 USD xuống 0,65 USD
-
Sự cố oracle: Hệ thống ký quỹ sử dụng luồng dữ liệu giá nội bộ bị hỏng
-
Kích hoạt chuỗi: Tài sản đảm bảo bị định giá thấp, bắt đầu thanh lý bắt buộc
-
Khuếch đại: Tổng cộng 19,3 tỷ USD bị thanh lý (khuếch đại 322 lần)
Cuộc tấn công tận dụng cài đặt của Binance sử dụng giá thị trường giao ngay cho tài sản đảm bảo tổng hợp đóng gói. Khi kẻ tấn công bán 60 triệu USD USDe vào một sổ lệnh tương đối mỏng, giá giao ngay giảm mạnh từ 1,00 USD xuống 0,65 USD. Hệ thống ký quỹ được cấu hình để định giá tài sản đảm bảo theo giá giao ngay, đã định giá lại tất cả các vị thế đảm bảo bằng USDe thấp hơn 35%. Điều này kích hoạt thông báo ký quỹ và thanh lý bắt buộc cho hàng ngàn tài khoản.
Các lần thanh lý này buộc thêm lệnh bán vào cùng thị trường kém thanh khoản, tiếp tục đẩy giá xuống thấp hơn. Hệ thống ký quỹ quan sát những mức giá thấp hơn này và đánh dấu giá trị thêm nhiều vị thế, vòng phản hồi này khuếch đại áp lực bán 60 triệu USD thành 19,3 tỷ USD thanh lý bắt buộc.

Hình 4: Vòng phản hồi chuỗi thanh lý
Sơ đồ vòng lặp tuần hoàn này minh họa bản chất tự khuếch đại của chuỗi thanh lý:
Giá giảm → Kích hoạt thanh lý → Bán bắt buộc → Giá giảm thêm → [Vòng lặp lặp lại]
Nếu sử dụng hệ thống oracle được thiết kế đúng, cơ chế này sẽ không hiệu quả. Nếu Binance sử dụng giá trung bình theo thời gian (TWAP) từ nhiều sàn giao dịch, thao túng giá tức thời sẽ không ảnh hưởng đến định giá tài sản đảm bảo. Nếu họ sử dụng luồng dữ liệu giá tổng hợp từ Chainlink hoặc oracle đa nguồn khác, cuộc tấn công sẽ thất bại.
Sự kiện wBETH bốn ngày trước đây cho thấy lỗ hổng tương tự. wBETH nên duy trì tỷ lệ đổi 1:1 với ETH. Trong sự kiện chuỗi, thanh khoản cạn kiệt, thị trường giao ngay wBETH/ETH cho thấy chiết khấu 20%. Hệ thống ký quỹ đã định giá thấp tài sản đảm bảo wBETH tương ứng, kích hoạt thanh lý các vị thế thực tế được đảm bảo đầy đủ bởi ETH cơ bản.
Cơ chế Giảm vị thế Tự động (ADL)
Khi thanh lý không thể thực hiện ở giá thị trường hiện tại, các sàn giao dịch triển khai Giảm vị thế Tự động (ADL), phân bổ tổn thất cho các nhà giao dịch đang có lãi. ADL buộc đóng các vị thế lãi ở giá hiện tại để bù đắp khoảng trống từ các vị thế bị thanh lý.
Trong sự kiện chuỗi tháng 10, Binance đã thực hiện ADL trên nhiều cặp giao dịch. Các nhà giao dịch nắm giữ vị thế mua lãi phát hiện các giao dịch của họ bị đóng bắt buộc, không phải do thất bại trong quản lý rủi ro cá nhân, mà vì vị thế của các nhà giao dịch khác trở nên mất khả năng thanh toán.
ADL phản ánh một lựa chọn kiến trúc cơ bản trong giao dịch phái sinh tập trung. Sàn giao dịch đảm bảo bản thân họ sẽ không bị lỗ. Điều này có nghĩa tổn thất phải do một hoặc nhiều bên sau đây gánh chịu:
-
Quỹ bảo hiểm (quỹ mà sàn dành riêng để bù đắp khoảng trống thanh lý)
-
ADL (bắt buộc các nhà giao dịch có lãi đóng vị thế)
-
Tổn thất xã hội hóa (phân bổ tổn thất cho tất cả người dùng)
Kích thước quỹ bảo hiểm so với quy mô hợp đồng chưa thanh toán quyết định tần suất ADL. Quỹ bảo hiểm của Binance vào tháng 10 năm 2025 tổng cộng khoảng 2 tỷ USD. So với 4 tỷ USD hợp đồng chưa thanh toán của các hợp đồng vĩnh viễn BTC, ETH và BNB, điều này cung cấp mức độ che phủ 50%. Nhưng trong sự kiện chuỗi tháng 10, tổng hợp đồng chưa thanh toán của tất cả các cặp vượt quá 20 tỷ USD. Quỹ bảo hiểm không thể bù đắp khoảng trống.
Sau sự kiện chuỗi tháng 10, Binance tuyên bố rằng họ đảm bảo các hợp đồng BTC, ETH và BNB USDⓈ-M sẽ không xảy ra ADL nếu tổng hợp đồng chưa thanh toán duy trì dưới 4 tỷ USD. Điều này tạo ra một cấu trúc khuyến khích: sàn có thể duy trì quỹ bảo hiểm lớn hơn để tránh ADL, nhưng điều này chiếm dụng vốn có thể được triển khai để kiếm lợi nhuận.
Sự cố nội chuỗi: Hạn chế của giao thức blockchain
Biểu đồ cột so sánh thời gian ngừng hoạt động trong các sự kiện khác nhau:
-
Solana (tháng 2 năm 2024): 5 giờ - Điểm nghẽn thông lượng bỏ phiếu
-
Polygon (tháng 3 năm 2024): 11 giờ - Phiên bản trình xác thực không khớp
-
Optimism (tháng 6 năm 2024): 2,5 giờ - Định sequencer quá tải (airdrop)
-
Solana (tháng 9 năm 2024): 4,5 giờ - Tấn công spam giao dịch
-
Arbitrum (tháng 12 năm 2024): 1,5 giờ - Sự cố nhà cung cấp RPC

Hình 5: Các sự cố mạng chính - Phân tích thời gian
Solana: Điểm nghẽn đồng thuận
Solana đã trải qua nhiều lần gián đoạn trong giai đoạn 2024-2025. Sự cố tháng 2 năm 2024 kéo dài khoảng 5 giờ, sự cố tháng 9 năm 2024 kéo dài 4-5 giờ. Những sự cố này bắt nguồn từ nguyên nhân căn bản tương tự: mạng không thể xử lý khối lượng giao dịch trong thời gian tấn công spam hoặc hoạt động cực đoan.
Chi tiết Hình 5: Các sự cố của Solana (5 giờ vào tháng 2, 4,5 giờ vào tháng 9) làm nổi bật vấn đề lặp đi lặp lại về độ bền vững của mạng khi chịu áp lực.
Kiến trúc của Solana được tối ưu hóa cho thông lượng. Trong điều kiện lý tưởng, mạng xử lý 3.000-5.000 giao dịch mỗi giây với tính cuối cùng dưới một giây. Hiệu suất này cao hơn Ethereum hàng bậc. Nhưng trong các sự kiện áp lực, sự tối ưu hóa này tạo ra lỗ hổng.
Sự cố tháng 9 năm 2024 bắt nguồn từ một làn sóng giao dịch rác, đè bẹp cơ chế bỏ phiếu của các trình xác thực. Các trình xác thực Solana phải bỏ phiếu cho các khối để đạt được đồng thuận. Trong vận hành bình thường, các trình xác thực ưu tiên xử lý giao dịch bỏ phiếu để đảm bảo tiến độ đồng thuận. Nhưng trước đó giao thức coi giao dịch bỏ phiếu như giao dịch thông thường trong thị trường phí.
Khi bộ nhớ giao dịch đầy ắp hàng triệu giao dịch rác, các trình xác thực khó khăn trong việc lan truyền giao dịch bỏ phiếu. Thiếu đủ phiếu bầu, các khối không thể được xác nhận cuối cùng. Không có khối được xác nhận cuối cùng, chuỗi ngừng hoạt động. Người dùng có giao dịch đang chờ xử lý thấy chúng bị kẹt trong bộ nhớ. Giao dịch mới không thể gửi.
StatusGator ghi nhận nhiều lần gián đoạn dịch vụ Solana trong năm 2024-2025, trong khi Solana chưa bao giờ chính thức thừa nhận. Điều này tạo ra sự bất cân xứng thông tin. Người dùng không thể phân biệt giữa vấn đề kết nối cục bộ và vấn đề toàn mạng. Các dịch vụ giám sát bên thứ ba cung cấp trách nhiệm giải trình, nhưng các nền tảng nên duy trì trang trạng thái toàn diện.
Ethereum: Phí Gas bùng nổ
Ethereum đã trải qua tình trạng phí Gas tăng vọt cực đoan trong thời kỳ bùng nổ DeFi năm 2021, phí giao dịch chuyển tiền đơn giản vượt quá 100 USD. Các tương tác hợp đồng thông minh phức tạp tiêu tốn 500-1000 USD. Những khoản phí này khiến mạng trở nên không thể sử dụng được đối với các giao dịch nhỏ, đồng thời mở ra một vector tấn công khác: Khai thác MEV.

Hình 7: Chi phí giao dịch trong thời kỳ áp lực mạng
Biểu đồ đường này một cách kịch tính cho thấy sự gia tăng phí Gas của các mạng khác nhau trong sự kiện áp lực:
-
Ethereum: 5 USD (bình thường) → 450 USD (đỉnh tắc nghẽn) - Tăng 90 lần
-
Arbitrum: 0,50 USD → 15 USD - Tăng 30 lần
-
Optimism: 0,30 USD → 12 USD - Tăng 40 lần
Hình ảnh trực quan cho thấy, ngay cả các giải pháp Layer 2 cũng trải qua sự gia tăng đáng kể về phí Gas, mặc dù điểm khởi đầu thấp hơn nhiều.
Giá trị Khai thác Tối đa (MEV) mô tả lợi nhuận mà các trình xác thực có thể khai thác bằng cách sắp xếp lại, bao gồm hoặc loại trừ giao dịch. Trong môi trường phí Gas cao, MEV trở nên đặc biệt sinh lời. Các nhà kinh doanh chênh lệch giá đua nhau vượt mặt các giao dịch DEX lớn, các robot thanh lý tranh nhau thanh lý các vị thế thiếu ký quỹ trước tiên. Cuộc cạnh tranh này biểu hiện dưới dạng chiến tranh đấu giá phí Gas.
Người dùng muốn đảm bảo giao dịch được đưa vào trong thời gian tắc nghẽn phải trả giá cao hơn các robot MEV. Điều này tạo ra các tình huống phí giao dịch vượt quá giá trị giao dịch. Muốn nhận airdrop 100 USD của bạn? Trả 150 USD phí Gas. Cần thêm tài sản đảm bảo để tránh thanh lý? Cạnh tranh với các robot đang trả 500 USD phí ưu tiên.
Giới hạn Gas của Ethereum giới hạn tổng lượng tính toán trên mỗi khối. Trong thời gian tắc nghẽn, người dùng đấu giá cho không gian khối khan hiếm. Thị trường phí hoạt động như thiết kế: người trả giá cao hơn được ưu tiên. Nhưng thiết kế này khiến mạng ngày càng đắt đỏ trong thời gian sử dụng cao, đúng lúc người dùng cần truy cập nhất.
Các giải pháp Layer 2 cố gắng giải quyết vấn đề này bằng cách chuyển tính toán ra khỏi chuỗi, đồng thời thừa kế tính bảo mật của Ethereum thông qua việc thanh toán định kỳ. Optimism, Arbitrum và các Rollup khác xử lý hàng ngàn giao dịch ngoài chuỗi, sau đó gửi bằng chứng nén lên Ethereum. Kiến trúc này thành công trong việc giảm chi phí mỗi giao dịch trong vận hành bình thường.
Layer 2: Điểm nghẽn sequencer
Nhưng các giải pháp Layer 2 lại tạo ra các điểm nghẽn mới. Optimism đã trải qua một sự cố vào tháng 6 năm 2024 khi 250.000 địa chỉ cùng lúc nhận airdrop. Sequencer – thành phần sắp xếp giao dịch trước khi gửi lên Ethereum – bị quá tải, người dùng không thể gửi giao dịch trong vài giờ.
Sự cố này cho thấy, việc chuyển tính toán ra ngoài chuỗi không loại bỏ nhu cầu cơ sở hạ tầng. Sequencer phải xử lý giao dịch đến, sắp xếp chúng, thực thi và tạo bằng chứng gian lận hoặc bằng chứng ZK để thanh toán lên Ethereum. Dưới lưu lượng cực cao, sequencer đối mặt với các thách thức mở rộng giống như blockchain độc lập.
Cần duy trì sẵn nhiều nhà cung cấp RPC. Nếu nhà cung cấp chính gặp sự cố, người dùng nên chuyển sang phương án dự phòng một cách liền mạch. Trong sự cố Optimism, một số nhà cung cấp RPC vẫn hoạt động, trong khi các nhà cung cấp khác gặp sự cố. Người dùng ví mặc định kết nối đến nhà cung cấp lỗi không thể tương tác với chuỗi, ngay cả khi chuỗi vẫn đang hoạt động.
Các sự gián đoạn AWS đã nhiều lần chứng minh rủi ro cơ sở hạ tầng tập trung trong hệ sinh thái mã hóa:
-
Ngày 20 tháng 10 năm 2025 (hôm nay): Sự gián đoạn khu vực Đông Hoa Kỳ 1 ảnh hưởng đến Coinbase, Venmo, Robinhood và Chime. AWS thừa nhận tỷ lệ lỗi tăng ở các dịch vụ DynamoDB và EC2.
-
Tháng 4 năm 2025: Sự gián đoạn khu vực ảnh hưởng đồng thời đến Binance, KuCoin và MEXC. Khi các thành phần được lưu trữ trên AWS gặp sự cố, nhiều sàn giao dịch chính trở nên không khả dụng.
-
Tháng 12 năm 2021: Sự gián đoạn khu vực Đông Hoa Kỳ 1 khiến Coinbase, Binance.US và sàn giao dịch "phi tập trung" dYdX ngừng hoạt động 8-9 giờ, đồng thời ảnh hưởng đến kho hàng của chính Amazon và các dịch vụ phát trực tuyến chính.
-
Tháng 3 năm 2017: Sự gián đoạn S3 ngăn người dùng đăng nhập Coinbase và GDAX trong năm giờ, kèm theo sự gián đoạn internet rộng rãi.
Mô hình rất rõ ràng: các sàn giao dịch này lưu trữ các thành phần quan trọng trên cơ sở hạ tầng AWS. Khi AWS trải qua sự gián đoạn khu vực, nhiều sàn giao dịch và dịch vụ chính cùng lúc trở nên không khả dụng. Người dùng không thể truy cập vốn, thực hiện giao dịch hoặc điều chỉnh vị thế trong thời gian gián đoạn, đúng lúc biến động thị trường có thể đòi hỏi hành động ngay lập tức.
Polygon: Phiên bản đồng thuận không khớp
Polygon (trước đây là Matic) đã trải qua sự gián đoạn 11 giờ vào tháng 3 năm 2024. Nguyên nhân gốc rễ liên quan đến sự không khớp phiên bản trình xác thực, một số trình xác thực chạy phiên bản phần mềm cũ, trong khi các trình xác thực khác chạy phiên bản đã nâng cấp. Những phiên bản này tính toán chuyển đổi trạng thái theo những cách khác nhau.
Chi tiết Hình 5: Sự gián đoạn Polygon (11 giờ) là sự kiện chính dài nhất trong phân tích, làm nổi bật mức độ nghiêm trọng của sự cố đồng thuận.
Khi các trình xác thực đưa ra kết luận khác nhau về trạng thái đúng, đồng thuận thất bại, chuỗi không thể tạo ra khối mới vì các trình xác thực không thể thống nhất về tính hợp lệ của khối. Điều này tạo ra bế tắc: các trình xác thực chạy phần mềm cũ từ chối các khối do các trình xác thực chạy phần mềm mới tạo ra, trong khi các trình xác thực chạy phần mềm mới từ chối các khối do các trình xác thực chạy phần mềm cũ tạo ra.
Việc khắc phục cần phối hợp nâng cấp trình xác thực, nhưng việc phối hợp này trong thời gian gián đoạn mất thời gian. Mỗi nhà vận hành trình xác thực phải được liên hệ, phải triển khai phiên bản phần mềm đúng và phải khởi động lại trình xác thực của họ. Trong một mạng lưới phi tập trung có hàng trăm trình xác thực độc lập, việc phối hợp này cần hàng giờ hoặc hàng ngày.
Phân nhánh cứng thường sử dụng bộ kích hoạt chiều cao khối. Tất cả các trình xác thực nâng cấp trước một chiều cao khối cụ thể, đảm bảo kích hoạt đồng thời, nhưng điều này cần phối hợp trước. Việc nâng cấp từng phần, khi các trình xác thực dần áp dụng phiên bản mới, có nguy cơ gây ra chính sự không khớp phiên bản dẫn đến sự gián đoạn Polygon.
Sự đánh đổi kiến trúc

Hình 6: Bài toán nan giải blockchain - Phi tập trung vs Hiệu suất
Biểu đồ phân tán này ánh xạ các hệ thống khác nhau vào hai chiều quan trọng:
-
Bitcoin: Độ phi tập trung cao, hiệu suất thấp
-
Ethereum: Độ phi tập trung cao, hiệu suất trung bình
-
Solana: Độ phi tập trung trung bình, hiệu suất cao
-
Binance (CEX): Độ phi tập trung tối thiểu, hiệu suất tối đa
-
Arbitrum/Optimism: Độ phi tập trung trung cao, hiệu suất trung bình
Thông tin then chốt: Không hệ thống nào có thể đạt được độ phi tập trung tối đa và hiệu suất tối đa đồng thời, mỗi thiết kế đều có sự đánh đổi suy xét cho các trường hợp sử dụng khác nhau.
Các sàn giao dịch tập trung đạt được độ trễ thấp nhờ kiến trúc đơn giản, động cơ khớp lệnh xử lý lệnh trong vài micro giây, trạng thái tồn tại trong cơ sở dữ liệu tập trung. Không có giao thức đồng thuận gây ra chi phí, nhưng sự đơn giản này tạo ra điểm lỗi đơn, khi cơ sở hạ tầng chịu áp lực, sự cố dây chuyền lan truyền qua các hệ thống liên kết chặt chẽ.
Các giao thức phi tập trung phân phối trạng thái giữa các trình xác thực, loại bỏ điểm lỗi đơn. Các chuỗi thông lượng cao duy trì thuộc tính này trong thời gian gián đoạn (không mất vốn, chỉ tạm thời mất hoạt động). Nhưng việc đạt được đồng thuận giữa các trình xác thực phân tán gây ra chi phí tính toán, các trình xác thực phải thống nhất trước khi chuyển đổi trạng thái được xác nhận cuối cùng. Khi các trình xác thực chạy các phiên bản không tương thích hoặc đối mặt với lưu lượng áp đảo, quá trình đồng thuận có thể tạm thời dừng lại.
Việc thêm bản sao nâng cao khả năng chịu lỗi, nhưng làm tăng chi phí phối hợp. Trong các hệ thống chịu lỗi Byzantine, mỗi trình xác thực bổ sung đều làm tăng chi phí truyền thông. Kiến trúc thông lượng cao giảm thiểu chi phí này thông qua giao tiếp trình xác thực được tối ưu hóa, từ đó đạt hiệu suất vượt trội, nhưng dễ bị ảnh hưởng bởi một số mẫu tấn công nhất định. Kiến trúc chú trọng an toàn ưu tiên sự đa dạng trình xác thực và độ vững chắc của đồng thuận, giới hạn thông lượng lớp cơ sở, đồng thời tối đa hóa độ đàn hồi.
Các giải pháp Layer 2 cố gắng cung cấp cả hai thuộc tính này thông qua thiết kế phân tầng. Chúng thừa kế các thuộc tính bảo mật của Ethereum thông qua thanh toán L1, đồng thời cung cấp thông lượng cao thông qua tính toán ngoài chuỗi. Tuy nhiên, chúng lại tạo ra các điểm nghẽn mới ở lớp sequencer và RPC, cho thấy sự phức tạp kiến trúc vừa giải quyết một số vấn đề vừa tạo ra các mô hình lỗi mới.
Mở rộng vẫn là vấn đề cốt lõi
Các sự kiện này tiết lộ một mô hình nhất quán: các hệ thống cấu hình tài nguyên cho tải bình thường, sau đó thất bại thảm khốc dưới áp lực. Solana xử lý lưu lượng thông thường hiệu quả, nhưng sụp đổ khi khối lượng giao dịch tăng 10.000%. Phí Gas Ethereum duy trì ở mức hợp lý, cho đến khi việc áp dụng DeFi gây tắc nghẽn. Cơ sở hạ tầng Optimism hoạt động tốt, cho đến khi 250.000 địa chỉ cùng lúc nhận airdrop. API của Binance hoạt động bình thường trong giao dịch thông thường, nhưng bị giới hạn trong chuỗi thanh lý.
Sự kiện tháng 10 năm 2025 minh họa động lực này ở cấp độ sàn giao dịch. Trong vận hành bình thường, giới hạn tốc độ API và kết nối cơ sở dữ liệu của Binance là đủ, nhưng trong chuỗi thanh lý, khi mỗi nhà giao dịch cùng lúc cố gắng điều chỉnh vị thế, các giới hạn này trở thành điểm nghẽn. Hệ thống ký quỹ được thiết kế để bảo vệ sàn giao dịch bằng cách thanh lý bắt buộc, lại khuếch đại khủng hoảng bằng cách tạo ra các người bán bắt buộc vào thời điểm tồi tệ nhất.
Tự động mở rộng cung cấp bảo vệ không đủ trước sự gia tăng tải theo hàm bước. Việc khởi động các máy chủ bổ sung cần vài phút, trong vài phút đó, hệ thống ký quỹ đánh dấu giá trị vị thế dựa trên dữ liệu giá hỏng từ sổ lệnh mỏng manh, đến khi công suất mới hoạt động thì chuỗi phản ứng đã lan rộng.
Việc cấu hình dư thừa tài nguyên cho các sự kiện áp lực hiếm gặp sẽ tốn kém trong vận hành bình thường. Các nhà vận hành sàn giao dịch tối ưu hóa cho tải điển hình, chấp nhận sự cố thỉnh thoảng như một lựa chọn hợp lý về mặt kinh tế. Chi phí ngừng hoạt động được chuyển hóa cho người dùng, những người trải qua thanh lý, giao dịch bị kẹt hoặc không thể truy cập vốn trong các biến động thị trường quan trọng.
Cải thiện cơ sở hạ tầng

Hình 8: Phân bố mô hình sự cố cơ sở hạ tầng (2024-2025)
Phân tích bánh nguyên nhân gốc rễ cho thấy:
-
Tải quá mức cơ sở hạ tầng: 35% (phổ biến nhất)
-
Ùn tắc mạng: 20%
-
Thất bại đồng thuận: 18%
-
Thao túng oracle: 12%
-
Vấn đề trình xác thực: 10%
-
Lỗ hổng hợp đồng thông minh: 5%
Một số thay đổi kiến trúc có thể giảm tần suất và mức độ nghiêm trọng của sự cố, mặc dù mỗi loại đều liên quan đến sự đánh đổi:
Tách biệt hệ thống định giá và hệ thống thanh lý
Vấn đề tháng 10 một phần bắt nguồn từ việc ghép nối tính toán ký quỹ với giá thị trường giao ngay. Việc sử dụng tỷ lệ đổi thay vì giá giao ngay cho tài sản đóng gói có thể tránh được định giá sai wBETH. Hơn nữa, các hệ thống quản lý rủi ro then chốt không nên phụ thuộc vào dữ liệu thị trường có thể bị thao túng. Các hệ thống oracle độc lập với tổng hợp đa nguồn và tính toán TWAP cung cấp luồng dữ liệu giá vững chắc hơn.
Cơ sở hạ tầng cấu hình dư thừa và dự phòng
Sự gián đoạn AWS tháng 4 năm 2025 ảnh hưởng đến Binance, KuCoin và MEXC chứng minh rủi ro của sự phụ thuộc cơ sở hạ tầng tập trung. Việc vận hành các thành phần quan trọng trên nhiều nhà cung cấp đám mây khác nhau làm tăng độ phức tạp và chi phí vận hành, nhưng loại bỏ sự cố liên quan. Các mạng Layer 2 có thể duy trì nhiều nhà cung cấp RPC với chuyển đổi dự phòng tự động. Chi phí bổ sung có vẻ lãng phí trong vận hành bình thường, nhưng ngăn ngừa ngừng hoạt động kéo dài hàng giờ trong nhu cầu đỉnh điểm.
Tăng cường kiểm thử áp lực và lập kế hoạch năng lực
Mô hình hệ thống hoạt động tốt cho đến khi thất bại cho thấy việc kiểm thử dưới áp lực còn thiếu sót. Mô phỏng tải 100 lần bình thường nên là thực hành tiêu chuẩn, việc xác định điểm nghẽn trong phát triển rẻ hơn nhiều so với việc phát hiện chúng trong sự cố thực tế. Tuy nhiên, kiểm thử tải thực tế vẫn còn thách thức. Lưu lượng sản xuất thể hiện các mẫu mà kiểm thử tổng hợp không thể bắt trọn hoàn toàn, hành vi người dùng trong sự sụp đổ thực tế khác với trong kiểm thử.
Con đường phía trước
Cấu hình dư thừa cung cấp giải pháp đáng tin cậy nhất, nhưng mâu thuẫn với động lực kinh tế. Duy trì công suất dư thừa 10 lần cho các sự kiện hiếm gặp tốn tiền mỗi ngày để ngăn chặn một vấn đề xảy ra một lần mỗi năm. Cho đến khi chi phí của sự cố thảm khốc đủ lớn để biện minh cho việc cấu hình dư thừa, các hệ thống sẽ tiếp tục thất bại dưới áp lực.
Áp lực quy định có thể buộc thay đổi. Nếu quy định bắt buộc thời gian hoạt động 99,9% hoặc giới hạn thời gian ngừng hoạt động chấp nhận được, các sàn giao dịch sẽ cần cấu hình dư thừa. Nhưng quy định thường đến sau các thảm họa, chứ không ngăn ngừa chúng. Sự sụp đổ của Mt. Gox năm 2014 đã khiến Nhật Bản ban hành quy định chính thức về sàn giao dịch tiền mã hóa. Sự kiện chuỗi tháng 10 năm 2025 rất có thể sẽ gây ra phản ứng quy định tương tự. Việc các phản ứng này quy định kết quả (thời gian ngừng hoạt động tối đa chấp nhận được, trượt giá tối đa trong thanh lý) hay quy định cách thực hiện (nhà cung cấp oracle cụ thể, ngưỡng ngắt mạch) vẫn chưa chắc chắn.
Thử thách căn bản nằm ở chỗ, các hệ thống này vận hành liên tục trong thị trường toàn cầu, nhưng lại phụ thuộc vào cơ sở hạ tầng được thiết kế cho thời gian kinh doanh truyền thống. Khi áp lực xảy ra lúc 02:00, các đội ngũ vội vàng triển khai sửa chữa, trong khi người dùng đối mặt với tổn thất ngày càng tăng. Các thị trường truyền thống dừng giao dịch trong thời kỳ áp lực; thị trường mã hóa chỉ đơn giản là sụp đổ. Đây là đặc điểm hay là lỗi, phụ thuộc vào góc nhìn và lập trường.
Các hệ thống blockchain đã đạt được độ phức tạp kỹ thuật đáng kể trong thời gian ngắn. Việc duy trì đồng thuận phân tán giữa hàng ngàn nút đại diện cho thành tựu kỹ thuật thực sự. Nhưng để đạt được độ tin cậy dưới áp lực, cần vượt ra khỏi kiến trúc nguyên mẫu, hướng tới cơ sở hạ tầng cấp sản phẩm. Sự chuyển đổi này cần vốn và cần đặt độ vững chắc lên trên tốc độ phát triển chức năng.
Thử thách nằm ở việc, làm thế nào để đặt độ vững chắc lên trên tăng trưởng trong thời kỳ thị trường tăng giá, khi mọi người đều đang kiếm tiền và ngừng hoạt động dường như là vấn đề của người khác. Cho đến khi hệ thống bị kiểm tra áp lực trong chu kỳ tiếp theo, những điểm yếu mới sẽ xuất hiện. Ngành công nghiệp sẽ học được bài học từ tháng 10 năm 2025 hay lặp lại mô hình tương tự, vẫn là một câu hỏi bỏ ngỏ. Lịch sử cho thấy, chúng ta sẽ phát hiện ra lỗ hổng then chốt tiếp theo thông qua một thất bại hàng tỷ USD khác dưới áp lực.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News
![Axe Compute [NASDAQ: AGPU] hoàn tất tái cấu trúc doanh nghiệp (trước đây là POAI), sức mạnh xử lý GPU phi tập trung cấp doanh nghiệp Aethir chính thức gia nhập thị trường chính thống](https://upload.techflowpost.com//upload/images/20251212/2025121221124297058230.png)













