
EthStorage 창립자: 데이터 가용성이 롤업(Rollup)의 보안을 어떻게 보장하는가?
진행: Franci
게스트: EthStorage 창립자 Qi Zhou
서론
이것은 디센트럴라이즈드 롤업 인터뷰 시리즈의 마지막 회차입니다. 이번 에피소드에서는 '데이터 가용성(Data Availability, DA)과 디센트럴라이즈드 스토리지' 관점에서 롤업의 탈중앙화를 논의합니다. 우리는 EthStorage 창립자인 Qi Zhou를 초대하여, DA가 어떻게 이더리움 메인넷의 보안 속성을 재사용하는지, EIP-4844와 danksharding, 그리고 다양한 DA 모델 간의 보안 비교에 대해 이야기 나누었습니다. 주 박사는 또한 향후 이더리움 업그레이드 과정에서 EthStorage가 EIP-4844와 어떻게 통합될 것인지 소개해주었습니다.

게스트 소개
저는 여러분과 이더리움 DA 기술 전반 및 이를 기반으로 한 디센트럴라이즈드 스토리지에 대한 우리의 아이디어를 공유하게 되어 매우 기쁩니다. 저는 2018년부터 Web3 산업에 전임으로 참여해 왔습니다. 그 전에는 구글, 페이스북 등의 대기업에서 엔지니어로 근무했으며 조지아공대(Georgia Institute of Technology)에서 박사 학위를 취득했습니다. 2018년 이후로 저는 지속적으로 Web3 인프라 분야에 집중해 왔는데, 이는 이전 직장에서도 분산 시스템 및 분산 저장 기술을 다뤘기 때문이기도 하고, 블록체인 분야에서 여전히 개선할 여지가 많다고 판단했기 때문입니다. 초기에는 이더리움 샤딩 1.0으로 불렸던 실행 샤딩(execution sharding) 기술부터 시작하여, 현재의 샤딩 2.0이라 불리는 데이터 샤딩(data sharding), 그리고 후속된 데이터 가용성(DA) 기술까지, 저희는 Web3 인프라의 혁신과 발전을 위해 꾸준히 연구하고 있습니다.
저희는 이더리움 로드맵과 긴밀히 연계해 연구하며 커뮤니티 방식으로 참여하고 개선 작업을 진행하고 있습니다. 작년 말, 저희는 이더리움 재단으로부터 ‘데이터 가용성 샘플링’ 연구에 대한 지원을 받는 영예를 안았습니다. danksharding 관련 이론적 연구, 특히 데이터 효율적인 복구 방법 등에 기여하고 있으며, 동시에 이더리움 DA 기술을 기반으로 EthStorage라는 이더리움 데이터 계층을 개발 중입니다. 이 시스템을 통해 이더리움 스마트계약을 활용해 오프체인 데이터 저장을大规模로 검증할 수 있게 되며, 이는 이더리움 생태계에도 큰 의미를 갖습니다. 오늘 이 자리에서 EthStorage가 DA 기술을 활용해 데이터 저장 네트워크를 어떻게 더 잘 구축할 수 있는지 함께 나누고자 합니다.
인터뷰 본문
첫 번째 파트: DA 정의에 관한 논의
데이터 가용성(DA)이 롤업의 보안을 어떻게 보장하는가
제가 DA를 연구하면서 많은 사람들이 DA의 정의에 대해 혼란을 느끼는 것을 발견했습니다. 오늘 이 자리에서 이 문제를 논의할 수 있어 기쁩니다. 저는 이전에도 이더리움 재단 소속 멤버들과, 예를 들어 Dankrad Feist 등과 DA가 이더리움 L2 생태계에서 어떤 중요한 역할을 하는지에 대해 자주 논의한 바 있습니다.
앞서 언급했듯, 이더리움 롤업의 기본 동작 방식은 체인 상의 트랜잭션을 오프체인으로 이동시키고, 일련의 증명 방식(위조 증명 fraud proof 또는 유효성 증명 validity proof)을 통해 L1 스마트계약에 해당 실행 결과가 올바르다는 것을 증명하는 것입니다.
여기서 중요한 핵심은, 이더리움 자체 네트워크의 보안성을 재사용하면서도, 전체 컴퓨팅 능력을 크게 확장하려는 목표입니다. 앞서 말한 컴퓨팅 확장은 실질적으로 체인 상의 계산을 오프체인으로 옮기는 것이며, 동시에 어떻게 이더리움의 보안성을 유지할 수 있을지가 관건입니다.
예를 들어 Optimistic Rollup 환경에서 sequencer가 악의적인 행위를 할 경우 누군가 이를 도전(challenge)할 수 있어야 하는데, 여기서 중요한 점은 오프체인의 원본 거래 데이터가 어떻게 구성되어 있는지를 반드시 알 수 있어야 한다는 것입니다. 만약 오프체인의 원본 거래 데이터를 얻을 수 없다면, sequencer를 체인 상에서 도전할 수 있는 근거를 찾을 수 없게 됩니다. 따라서 DA가 보안을 보장하는 핵심은, 모든 오프체인 거래의 메타데이터가 체인 상에서 접근 가능해야 한다는 점에 있습니다.
블록 공간 확장
모든 거래 데이터는 체인에 올라가야 하며, 계산이 필요 없더라도 막대한 데이터가 발생합니다. DA가 해결하려는 핵심 문제는, 블록 공간을 효과적으로 확장할 수 있는 기술이라는 점입니다. 블록체인 구조에 익숙하신 분들은 아시겠지만, 각 블록은 다수의 거래 내용을 포함하고 있으며, 이러한 거래 블록 자체를 ‘블록 공간(block space)’이라고 부릅니다.
현재 이더리움의 각 블록 크기는 약 200~300KB 정도입니다. 그러나 이 수치는 향후 이더리움의 확장 요구를 충족하기에는 턱없이 부족합니다. 간단한 계산을 해보면, 200KB의 공간을 각 거래당 약 100바이트로 나누면 약 2,000건의 거래를 처리할 수 있고, 이를 이더리움의 블록 생성 시간인 12초로 나누면 TPS가 약 100 정도로 제한됩니다. 이는 이더리움 확장 계획에 비춰볼 때 매우 낮은 수치입니다.
따라서 이더리움 L2는 보안을 유지하면서도 대량의 블록 데이터를 block space에 효율적으로 저장하는 방법을 고민합니다. 그렇게 함으로써 위조 증명이나 유효성 증명이 모두 이더리움 블록 공간 내 데이터를 활용해 검증을 수행할 수 있고, 최종적으로 오프체인 거래의 실행 결과가 이더리움의 보안성으로 보장받을 수 있게 됩니다. 이것이 바로 DA와 이더리움 보안 사이의 핵심 관계입니다.
네트워크 대역폭 비용과 저장 비용 측면에서 본 DA
DA의 주요 비용은 두 가지로 나눌 수 있습니다. 하나는 네트워크 대역폭 비용이고, 다른 하나는 저장 비용입니다.
대역폭 비용 측면에서 보면, 현재 비트코인과 이더리움은 P2P 네트워크를 통해 블록을 브로드캐스트(gossip) 방식으로 모든 노드에 전달합니다. 이 방식의 장점은 모든 네트워크 노드가 결국 동일한 블록의 백업을 가지게 되므로 매우 안전하다는 점입니다.
하지만 단점도 존재합니다. 이 방식은 네트워크 대역폭과 지연(latency)에 큰 부담을 줍니다. 이더리움은 PoS 업그레이드 후 약 12초마다 블록이 생성되는데, 만약 블록 크기가 너무 커져서 12초를 초과하면 많은 블록이 생성되지 못하게 되고, 결국 네트워크 대역폭이 받아들일 수 없는 수준으로 저하될 수 있습니다. 따라서 DA는 블록체인에 대량의 데이터를 올릴 때 발생하는 대역폭 문제를 해결하는 기술이라고 볼 수 있습니다.
두 번째는 저장 비용 문제입니다. 이 부분에 대해서는 이더리움 재단 내에서도 많은 논의가 있었습니다. 핵심 설계 방향 중 하나는, DA로 업로드된 블록 데이터를 무기한 보존하지 않는다는 것입니다.
이로 인해 또 다른 문제가 제기됩니다. 이렇게 많은 데이터가 체인에 올라왔지만, 일주일 또는 두 주일 후에는 이더리움 프로토콜에 의해 폐기됩니다. 그렇다면 이러한 DA 데이터를 보다 효과적인 탈중앙화 방식으로 장기간 보관할 수 있는 방법이 있을까요?
이것이 바로 우리가 EthStorage를 설계한 초기 동기입니다. 첫째, 많은 롤업들이 데이터를 더 오랜 기간 보관할 필요가 있습니다. 둘째, 이러한 데이터를 활용하면 DA를 통해 더욱 풍부한 체인 상 애플리케이션을 만들 수 있습니다. 예를 들어 풀체인 NFT, DApp의 프론트엔드, 소셜 네트워크 내 사용자들의 게시물이나 댓글 같은 대량의 콘텐츠도 DA 네트워크를 통해 저렴한 비용으로 블록체인에 업로드하고, 이더리움 L1과 동등한 보안을 제공받을 수 있습니다.
저희가 이더리움 DA 기술을 연구하고, 여러 핵심 인원들과 논의한 결과, 이더리움에는 장기 데이터 보존을 위한 저장 계층이 필요하다는 결론에 도달했습니다. 이 저장 계층은 탈중앙화되어야 하며, 이더리움 프로토콜 자체를 수정하지 않고도 운영 가능한 모듈화된 형태여야 합니다.
두 번째 파트: 다양한 DA 방안에 대한 논의
EIP-4844와 danksharding의 관계, 그리고 왜 EIP-4844 배포가 필요한가
프로토타입 덱샤딩(proto-danksharding), 즉 EIP-4844는 이더리움의 차세대 중요한 업그레이드라고 할 수 있습니다. 왜 EIP-4844가 필요한가? 그 이유는, 이더리움 재단이 덱샤딩(danksharding) 업그레이드 로드맵을 예측할 당시, 이 작업에 3~5년 정도의 긴 시간이 소요될 것으로 판단했기 때문입니다. (이는 2020~2021년의 예상이었습니다.)
그러나 그 기간 동안 이미 많은 롤업이 이더리움 위에서 운영되기 시작할 것으로 예상되었습니다. 그런데 덱샤딩이 제공하는 데이터 인터페이스는 현재 롤업들이 사용하는 Calldata 인터페이스와 완전히 다르기 때문에, 기존 애플리케이션이 새로운 인터페이스로 신속하게 전환하기 어려울 수 있었고, 덱샤딩의 이점을 쉽게 누리지 못할 우려가 있었습니다.
지난 Devcon에서 Vitalik 역시, 이더리움이 L2 서비스를 더 잘 지원할 수 있도록 하여, 개발자들이 동일한 덱샤딩 인터페이스를 사용해 계약을 개발할 수 있기를 희망한다고 언급했습니다. 덱샤딩이 완료되면, 기존에 테스트 완료된 계약을 다시 업그레이드하지 않고도 새로운 기능을 바로 활용할 수 있게 되는 것입니다.
따라서 EIP-4844는 사실상 초간소화된 덱샤딩이며, 덱샤딩과 동일한 애플리케이션 인터페이스를 제공합니다. 예를 들어 Data Hash라는 새로운 opcode와 Blob(Binary Large Objects)이라는 새로운 데이터 객체를 도입합니다.
이러한 데이터 객체는 롤업이 미리 덱샤딩의 데이터 구조와 호환되도록 설계된 것입니다. 즉 덱샤딩도 동일한 Data Hash와 Blob 개념을 제공할 예정이기 때문에, EIP-4844를 통해 이 아이디어들을 사전에 이더리움 업그레이드에 구현함으로써, 롤업들이 미래의 덱샤딩 혜택을 미리 준비할 수 있도록 돕는 것입니다. 실제로 EIP-4844의 인터페이스, Pre-compile, 새 명령어 등을 살펴보면, 향후 덱샤딩이 애플리케이션 레이어와 어떻게 상호작용할지를 미리 엿볼 수 있습니다.
이처럼 이더리움은 애플리케이션의 관점에서, 추가적인 업그레이드 비용 없이도 확장 기술의 혜택을 누릴 수 있도록 사전에 업그레이드를 진행하고 있습니다.
하지만 EIP-4844는 여전히 블록 공간의 확장을 해결하지 못합니다. 진정한 블록 공간 확장은 오직 덱샤딩만이 가능합니다. 현재 이더리움 블록 크기는 약 200KB지만, 덱샤딩 이후에는 32MB로 증가할 예정이며, 이는 약 100배의 성능 향상입니다. 반면 EIP-4844는 아직 블록체인에 데이터를 올릴 때의 대역폭 문제를 해결하지 못합니다.
덱샤딩이 블록 공간 확장을 어떻게 해결하는가
EIP-4844 설계 하에서는 데이터의 브로드캐스트 과정이 기존의 calldata와 동일하게 P2P 네트워크를 통해 이루어집니다. 이 방식은 여전히 P2P 네트워크 대역폭의 물리적 병목 현상에 제약을 받습니다. 반면 덱샤딩은 P2P 브로드캐스트 방식을 변경하고, 데이터 샘플링 기술을 도입하여, 모든 블록 데이터를 다운로드하지 않더라도 해당 데이터가 네트워크에 존재하고 다운로드 가능하다는 것을 확인할 수 있도록 합니다.
어떤 의미에서 이는 ZK 방식과 유사합니다. 데이터 샘플링을 통해 네트워크 내에 덱샤딩이 제공하는 32MB/블록 크기의 데이터가 존재한다는 것을 알 수 있지만, 실제로 모든 32MB 데이터를 다운로드하고 로컬에 저장할 필요는 없습니다. 충분한 대역폭과 저장 공간을 가진 머신은 이를 수행할 수 있지만, 일반적인 검증자에게는 전체 32MB 데이터를 다운로드할 필요가 없습니다.
EIP-4844 테스트넷 개발 경험
최근 저희는 자체 EIP-4844 테스트넷을 구동하고, blob 데이터 업로드, 스마트계약 호출, 데이터 검증 등의 테스트를 완료했습니다. 따라서 EIP-4844가 공식 출시되는 즉시, 당사 스마트계약을 바로 배포할 수 있는 상태입니다.
또한 현재 이더리움 개발자들과의 협업을 통해 개발한 계약 및 도구들이, 향후 다양한 롤업 개발 및 학습에 기여할 수 있기를 바랍니다.
최근 저희는 EIP-4844 관련 도구 세트, 특히 data hash opcode를 지원하는 새로운 스마트계약 코드를 이더리움에 다수 제출했습니다. 현재 Solidity는 아직 이 opcode를 지원하지 않기 때문입니다. 이러한 모든 작업은 이더리움 재단 개발자들과 긴밀히 협력하며 진행 중입니다.
데이터 가용성 위원회(DAC)의 활용과 한계
현재 L2 사용자의 비용 중 90% 이상이 데이터 가용성 비용에 해당합니다. 이를 줄이기 위해 ZKSync는 ZKPorter를, Arbitrum은 Arbitrum Nova를 도입하며, 자체 DAC(Data Availability Committee)를 통해 데이터 계층을 제공하고 있습니다.
하지만 DAC는 추가적인 신뢰를 요구하며, 이는 이더리움 수준의 보안을 제공하지 못할 수 있습니다. 따라서 데이터 위원회 구성 시 일반적으로 Google Cloud, Amazon AWS 등 유명 클라우드 서비스 업체나 대형 기업을 선정하지만, 이는 탈중앙화되고 누구나 참여 가능한 원칙에 어긋난다는 비판을 받습니다. 현재 대부분의 DAC는 L2 프로젝트와 밀접한 소수 조직으로 구성되어 있습니다.
예를 들어 Arbitrum Nova는 제가 확인했을 때 약 6~7개의 노드로 구성되어 있으며, 이들은 구글 클라우드나 아마존 클라우드 위에서 실행되며 모든 실행 데이터를 보관합니다. 이를 통해 실행 비용을 이더리움의 약 1/1000 수준으로 낮출 수 있지만, 여전히 중심화된 구조이기 때문에 고가치 애플리케이션에서는 우려가 남습니다. 수천만 달러 또는 수억 달러 규모의 자금이 DAC의 데이터 가용성을 믿어야 한다는 점에서 리스크가 존재합니다.
반면 EthStorage는 DAC 개념을 전혀 사용하지 않습니다. 설계상 누구나 데이터 제공자로 참여할 수 있도록 하며, 암호학적 증명을 통해 데이터 저장 사실을 입증합니다. 이론상 DAC 모델은 7~8개의 노드를 운영한다고 하지만, 실제로는 하나의 물리적 데이터를 여러 주소로 복제해 보여줄 수도 있기 때문입니다.
그렇다면 데이터가 충분한 물리적 복제본을 가지고 있어 안전한지를 어떻게 증명할 수 있을까? 이것이 EthStorage의 핵심 혁신이며, 이더리움 ESP(Ecosystem Support Program)에 제안할 때 강조한 포인트입니다. EthStorage는 ZK 기반 암호 기술을 활용해, L2 데이터 제공 노드가 누구나 참여할 수 있고, 다수의 저장 복제본을 보유하고 있음을 증명함으로써 데이터 안정성을 더욱 강화합니다.
따라서 DAC는 일시적으로 데이터 업로드 비용을 낮추는 임시 방편일 뿐이라고 생각합니다. EthStorage는 암호 기술과 이더리움 L1 스마트계약 기반의 검증 방식을 결합해 더 나은 데이터 보존 솔루션을 제공할 수 있다고 믿습니다. 앞으로 EIP-4844 출시와 함께 이러한 혁신 내용과 실제 네트워크 운영 결과를 공유할 예정입니다.
EthStorage와 DAC의 차이점
EthStorage는 사실상 이더리움 스토리지 롤업(storage rollup)입니다. 기존 L2가 EVM을 실행하는 것이 아니라, 수십 TB에서 수백 TB, 심지어 PB 단위의 거대한 key-value 데이터베이스라고 상상해 보세요.
이러한 데이터베이스의 데이터가 이더리움과 동등한 보안을 가지려면 어떻게 해야 할까요? 첫 번째 단계는, 이 대규모 데이터를 모두 DA를 통해 이더리움 L1에 게시하여, 누구나 DA 계층에서 데이터를 접근할 수 있도록 하는 것입니다. 그러나 이더리움 DA는 몇 주 후 데이터를 폐기하기 때문에 영구적 접근은 보장되지 않습니다.
두 번째 단계는, 이러한 데이터를 업로드한 후 EthStorage L2 노드에 보존하는 것입니다. 이는 DAC와 다릅니다. EthStorage의 데이터 저장 노드는 허가가 필요 없으며, 누구나 참여할 수 있습니다. 그리고 저장 사실을 증명함으로써 보상을 받습니다. 이는 Filecoin, Arweave 등의 저장 증명(proof-of-storage) 설계에서 영감을 받았지만, 이더리움 DA 프레임워크와 스마트계약에 맞춰 특화된 저장 증명 네트워크 및 시스템을 구축한 점에서, 이더리움 생태계 및 디센터럴라이즈드 스토리지 분야에 독특한 기여를 하고 있다고 생각합니다.
저장 증명 메커니즘
Filecoin, Arweave를 포함한 모든 저장 증명 메커니즘은 우선 사용자 데이터의 메타데이터를 인코딩해야 합니다. 이 인코딩 과정은 데이터 제공자의 주소를 기반으로 수행되며, 각 제공자는 고유 주소를 가져야 하고, 주소와 메타데이터를 기반으로 'unique replica(고유 복제본)'을 생성하여 저장합니다. 예를 들어 'hello world'라는 데이터는 기존의 중심화된 DB나 분산 시스템에서는 동일한 형태로 여러 물리적 머신에 저장되지만, EthStorage에서는 각 저장 제공자의 주소에 따라 서로 다른 형태로 인코딩되어 저장됩니다.
이 방식의 장점은 암호학적으로 여러 주소(즉, 다양한 저장 제공자)가 데이터를 인코딩하고 저장했다는 것을 증명할 수 있다는 점입니다. Filecoin, Arweave도 유사한 원리를 따르지만, 이들은 정적 데이터에 국한됩니다. 반면 EthStorage는 이더리움 DA의 '핫 데이터(hot data)'를 대상으로 하며, 이더리움 스마트계약을 통해 해당 데이터가 얼마나 많은 물리적 복제본을 가지고 있는지를 검증할 수 있습니다. 즉, 각각 인코딩된 데이터가 네트워크에 저장되어 있고, 그것이 서로 다른 저장 제공자에 의해 생성되었음을 증명할 수 있습니다.
따라서 기존 디센터럴라이즈드 스토리지 개념을 최적화·개선하는 동시에, 이더리움 DA 방식에 맞춘 동적 데이터 수정, 스마트계약 상의 증명 효율화 및 가스 비용 최적화 등도 함께 추진하고 있으며, 이를 위해선 많은 선도적 기술과 연구가 필요합니다.
EthStorage가 무허가 저장 증명을 유지하는 방법
이더리움에는 아카이브 노드라는 종류의 노드가 있는데, 이는 이더리움의 모든 거래 기록과 월드 상태를 보관합니다. 그러나 향후 덱샤딩이 도입되면 연간 약 80TB의 데이터가 생성될 것으로 예상됩니다. 이더리움이 3~4년 동안 운영된다면 200~300TB 이상의 데이터가 누적되며 계속 증가할 것입니다. 이는 아카이브 노드 운영에 상당한 부담을 줍니다. 왜냐하면 현재 아카이브 노드 운영에는 데이터 보존을 위한 경제적 인센티브가 존재하지 않기 때문입니다.
EthStorage는 먼저 데이터 영구 보존을 위한 토큰omic 인센티브 설계 문제를 해결해야 합니다. 이 부분에서 우리는 Arweave의 할인된 현금 흐름(discounted cash flow) 모델을 참고하여 인센티브를 설계하였으며, 이를 스마트계약 내에서 효율적으로 실행할 수 있도록 했습니다.
둘째, 무허가 참여 방식입니다. 저희 인센티브 설계는 네트워크 내 10개, 50개, 혹은 100개의 노드가 데이터를 보관하도록 장려합니다. 따라서 어느 노드든 기존 노드 중 하나와 연결해 데이터를 동기화하면 바로 저장 제공자가 될 수 있습니다. 향후 더 많은 인센티브 최적화 설계도 추가될 예정입니다.
셋째, 저장 노드는 수백 TB, 장기적으로는 PB 단위의 데이터를 한 번에 보관해야 하므로 단일 노드의 비용이 매우 높습니다. 이를 해결하기 위해 'data sharding'을 도입했습니다. 일반 노드는 4TB(현재 설계 기준, 추후 8TB로 업그레이드 가능)의 저장 공간만으로도 네트워크 아카이브 데이터의 일부만 보관할 수 있습니다. 다만 인센티브 메커니즘을 통해 최종적으로 모든 조각이 모여 전체 데이터가 L2 네트워크 내에 완전히 보존되도록 합니다.
이처럼 아카이브 노드의 대용량 데이터 문제, 토큰omic 인센티브 문제, 탈중앙화 참여 문제 등 많은 과제가 존재하지만, 이 모든 것은 이더리움 스마트계약을 통해 L1에서 자동으로 구현할 수 있습니다. 저희 입장에서는 데이터 네트워크를 제공하는 역할만 수행하며, 충분한 저장 비용을 가진 사용자는 누구나 데이터를 다운로드하고 저장 증명을 생성한 후 이더리움 네트워크에 제출해 보상을 받을 수 있습니다. 현재 우리의 스마트계약은 거의 설계 완료되었으며, 이더리움 4844 Devnet에서 이미 디버깅을 시작했습니다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














