한 편의 논문이 스토리지 주식을 하락시켰다.

2026.03.26

한 편의 논문이 스토리지 주식을 하락시켰다.

AI 군비경쟁의 주요 전장이 ‘연산 능력 쌓기’에서 ‘극한의 효율성’으로 옮겨가고 있다.

2026.03.26 - 01:24:20

存储AI

Web3 심층 보도에 집중하고 흐름을 통찰

AI 군비경쟁의 주요 전장이 ‘연산 능력 쌓기’에서 ‘극한의 효율성’으로 옮겨가고 있다.

작성자: TechFlow

3월 25일, 미국 주식시장의 기술주 전반은 상승세를 보였고, 나스닥 100 지수도 상승했으나, 한 종류의 주식만이 반대 방향으로 급락했다.

샌디스크(SanDisk)는 3.50% 하락했고, 마이크론(Micron)은 3.4%, 세게이트(Seagate)는 2.59%, 웨스턴디지털(Western Digital)은 1.63% 각각 하락했다. 전체 저장장치 부문은 마치 파티 도중 갑작스럽게 전원이 차단된 것처럼 침체됐다.

그 원인은 한 편의 논문이었다. 혹은 더 정확히 말하자면, 구글 리서치(Google Research)가 한 논문을 공식적으로 홍보한 탓이었다.

이 논문은 도대체 무엇을 한 것인가?

이 사건을 이해하려면 먼저 외부에서는 거의 주목받지 않는 AI 인프라의 핵심 개념 하나를 알아야 한다: KV 캐시(KV Cache).

당신이 대규모 언어 모델(LLM)과 대화할 때, 모델은 매번 당신의 질문을 처음부터 다시 이해하지 않는다. 대신 전체 대화 맥락을 ‘키-값 쌍(Key-Value Pair)’이라는 형식으로 메모리에 저장하는데, 이를 KV 캐시라고 하며, 이는 모델의 단기 작업 기억이다.

문제는 KV 캐시의 크기가 맥락 윈도우 길이에 비례해 증가한다는 점이다. 맥락 윈도우가 백만 토큰 수준에 이르면, KV 캐시가 소비하는 GPU 메모리가 모델 자체 가중치보다 더 커질 수도 있다. 다수의 사용자를 동시에 처리해야 하는 추론 클러스터 입장에서는, 이는 실시간으로 비용을 태우는 진정한 인프라 병목 현상이다.

이 논문의 초판은 2025년 4월 arXiv에 최초 게재되었으며, ICLR 2026에서 정식 발표될 예정이다. 구글 리서치는 이를 TurboQuant이라 명명했는데, 이는 KV 캐시를 3비트로 압축하여 메모리 사용량을 최소 6배 감소시키는 무손실 양자화 알고리즘이다. 별도의 학습이나 파인튜닝 없이 즉시 사용 가능하다.

구체적인 기술 경로는 두 단계로 구성된다:

첫 번째 단계, PolarQuant. 이 기법은 벡터를 표시할 때 표준 데카르트 좌표계를 사용하지 않고, 벡터를 극좌표계—즉 ‘반지름(radius)’과 일련의 ‘각도(angle)’—로 변환함으로써 고차원 공간의 기하학적 복잡성을 근본적으로 단순화한다. 이로써 후속 양자화 과정에서 낮은 왜곡률로도 수행이 가능해진다.

두 번째 단계, QJL(Quantized Johnson-Lindenstrauss). PolarQuant이 주 압축을 완료한 후, TurboQuant은 잔여 오차를 보정하기 위해 단 1비트의 QJL 변환을 적용한다. 이는 내적(inner product) 추정의 정확성을 보장하며, Transformer의 어텐션 메커니즘 정상 작동에 필수적이다.

결과적으로, 질의응답, 코드 생성, 요약 등 다양한 작업을 포함한 LongBench 벤치마크에서 TurboQuant은 기존 최고 성능 기준인 KIVI와 동등하거나 더 나은 성능을 달성했다. ‘바늘찾기(Needle-in-a-Haystack)’ 검색 과제에서는 완벽한 재현율(recall rate)을 달성했고, NVIDIA H100에서 4비트 TurboQuant을 적용한 어텐션 연산 속도는 8배 향상되었다.

기존 양자화 방법에는 근본적인 문제점이 있다: 데이터를 한 덩어리 압축할 때마다, 해당 데이터를 해제하기 위한 ‘양자화 상수(quantization constants)’를 추가로 저장해야 하며, 이 메타데이터 오버헤드는 일반적으로 값 하나당 1~2비트에 달한다. 개별적으로는 미미해 보이지만, 백만 토큰 규모의 맥락에서는 이러한 비트들이 절망적인 속도로 누적된다. TurboQuant은 PolarQuant의 기하학적 회전과 QJL의 1비트 잔차 보정을 통해 이러한 추가 오버헤드를 완전히 제거한다.

왜 시장이 당황했는가?

직설적인 결론은 무시하기 어렵다: 백만 토큰 맥락을 처리하기 위해 8개의 H100 GPU가 필요한 모델이, 이론적으로는 단 2개로 충분해진다. 추론 서비스 제공업체는 동일한 하드웨어로 동시 처리 가능한 장기 맥락 요청 수를 6배 이상 늘릴 수 있다.

이는 저장장치 부문의 핵심 서사에 직격탄을 날린 것이다.

지난 2년간 세게이트, 웨스턴디지털, 마이크론이 AI 자본 열풍 속에서 신성시된 이유는 단 하나뿐이었다: 대규모 모델이 점점 더 많은 정보를 ‘기억’하게 되면서, 장기 맥락 윈도우에 대한 메모리 수요는 이론상 한계가 없으며, 따라서 저장장치 수요는 폭발적으로 증가할 것이라는 전제였다. 세게이트 주가는 2025년에 210% 이상 상승했고, 회사는 이미 2026년 생산 용량을 모두 판매 완료했다.

TurboQuant의 등장은 바로 이 전제를 직접적으로 도전하고 있다.

웨스턴 앤드 뱅크(Wells Fargo)의 기술 분석가 앤드루 로차(Andrew Rocha)는 가장 직설적으로 평가했다: “맥락 윈도우가 점점 커짐에 따라 KV 캐시 내 데이터 저장량은 폭발적으로 증가하고, 이에 따라 메모리 수요도 함께 치솟는다. TurboQuant은 바로 이 비용 곡선을 직접 공격하고 있다… 만약 이 기술이 광범위하게 채택된다면, 도대체 얼마나 큰 메모리 용량이 필요한지에 대한 근본적인 의문을 제기할 것이다.”

다만 로차는 중요한 전제 조건 하나를 덧붙였다: IF.

진정으로 논쟁할 가치가 있는 부분

시장의 반응이 과잉이었는가? 대답은 대부분 ‘그렇다’일 것이다.

첫째, ‘8배 가속’이라는 제목의 선정적 문제. 여러 분석가들은 이 8배 가속 수치가 새로운 기술과 기존의 32비트 비양자화 시스템 간 비교에서 나온 것이지, 현재 실제 운영 중인 이미 최적화된 시스템과의 비교는 아니라고 지적한다. 실질적인 성능 향상은 분명 존재하지만, 제목이 암시하는 것만큼 극적이라고 보기 어렵다.

둘째, 논문은 소형 모델만 테스트했다. TurboQuant의 모든 평가 실험은 파라미터 수가 최대 80억 정도인 모델을 대상으로 진행됐다. 저장장치 업체들이 진정으로 불안해하는 것은 700억 또는 심지어 4000억 파라미터 규모의 초대형 모델이며, 그런 규모에서의 KV 캐시는 천문학적인 수준이다. TurboQuant이 이런 규모의 모델에서 어떤 성능을 보일지는 여전히 미지수다.

셋째, 구글이 아직 공식 코드를 공개하지 않았다. 현재까지 TurboQuant은 vLLM, llama.cpp, Ollama 등 주요 추론 프레임워크 어느 곳에도 포함되지 않았다. 커뮤니티 개발자들이 논문 속 수학적 유도를 바탕으로 초기 구현을 직접 재현한 상태일 뿐인데, 한 초기 재현자에 따르면 QJL 오차 보정 모듈을 잘못 구현하면 출력 결과가 바로 깨진 문자열이 된다고 한다.

그러나 이는 시장의 우려가 근거 없는 망상이라는 뜻은 아니다.

이는 2025년 딥시크(DeepSeek) 사태 이후 남아 있는 집단적 근육 기억이 작동한 결과다. 당시 사건은 시장 전체에 잔혹한 교훈을 남겼다: 알고리즘 차원의 효율성 돌파는 단 하룻밤 만에 고가의 하드웨어 서사를 완전히 뒤집어버릴 수 있다. 그 이후, 최정상급 AI 연구소에서 발표되는 어떤 효율성 돌파도 하드웨어 부문에 대해 조건반사적 반응을 유발한다.

더욱이 이번 신호는 이름조차 생소한 대학 연구실이 아닌, 구글 리서치에서 나온 것이다. 구글은 논문을 실제 생산 수준의 도구로 전환할 수 있는 충분한 엔지니어링 역량을 갖추고 있으며, 동시에 세계 최대 규모의 AI 추론 소비자 중 하나이기도 하다. 일단 TurboQuant이 구글 내부에 도입되면, 웨이모(Waymo), 젬니(Gemini), 구글 검색(Google Search) 등의 서버 구매 전략은 조용히 바뀔 것이다.

역사가 반복되는 고전적 시나리오

여기서 진지하게 고민해볼 만한 고전적 논쟁이 하나 있다: 제빈스 역설(Jevons Paradox).

19세기 경제학자 제빈스는 증기기관의 효율성이 향상되자 영국의 석탄 소비량이 오히려 크게 증가했다는 사실을 발견했다. 효율성 향상은 사용 비용을 낮춰, 응용 규모를 더욱 확대시켰기 때문이다.

지지자들의 논리는 다음과 같다: 만약 구글이 모델을 16GB 그래픽 메모리에서 실행할 수 있게 만들면, 개발자들은 그 절감된 컴퓨팅 자원을 그냥 내버려두지 않는다. 대신 6배 더 복잡한 모델을 실행하거나, 더 큰 멀티모달 데이터를 처리하거나, 더 긴 맥락을 지원하는 방향으로 자원을 활용할 것이다. 결국 소프트웨어 효율성 향상이 해방시키는 것은, 그 이전까지는 비용 때문에 접근조차 불가능했던 수요 계층이다.

그러나 이 반박에는 전제 조건이 있다: 시장이 이 효율성 향상을 소화하고 다시 확장하는 데는 시간이 필요하다는 점이다. TurboQuant이 논문에서 실제 생산 도구로, 그리고 그 생산 도구에서 업계 표준으로 자리 잡기까지의 기간 동안, 하드웨어 수요의 확장 속도가 효율성 향상으로 인한 ‘공백’을 충분히 메울 수 있을까?

아무도 그 답을 모른다. 시장은 바로 이 불확실성에 대해 가격을 매기고 있는 것이다.

이 사건이 AI 산업에 주는 진정한 의미

저장장치 관련 주가의 등락보다 더 주목할 만한 것은, TurboQuant이 드러낸 더 깊은 추세다.

AI 군비경쟁의 주요 전장은 이제 ‘연산력 쌓기’에서 ‘극한의 효율성 추구’로 이동하고 있다.

TurboQuant이 대규모 모델에서도 성능 약속을 입증한다면, 근본적인 전환이 일어날 것이다: 장기 맥락 추론은 ‘최정상급 연구소만 감당할 수 있는 사치품’에서, 업계 표준으로 자동화될 것이다.

그리고 이 효율성 경쟁의 정점은 바로 구글이 가장 잘하는 분야이기도 하다. 수학적으로 거의 최적화된 압축 알고리즘의 바탕에는 샤논 정보이론(Shannon information theory)의 극한을 추구하는 이론이 있고, 이는 폭력적인 공학적 누적보다는 정교한 수학적 설계에 기반한다. TurboQuant의 이론적 왜곡률은 정보이론적 하한보다 약 2.7배 높은 상수 배수만을 초과한다.

이는 유사한 돌파가 앞으로 단 하나만 나타날 것 같지 않다는 뜻이다. 이는 이제 막 성숙기에 접어든 하나의 전체 연구 경로를 상징한다.

저장장치 산업 입장에서는, ‘이번 일로 수요가 영향을 받을까?’라는 질문보다 더 냉정한 질문이 있다: AI 추론 비용 곡선이 소프트웨어 층에서 계속해서 낮아진다면, 하드웨어 층의 경쟁 우위는 과연 얼마나 넓게 유지될 수 있을까?

현재의 답변은: 아직은 넓지만, 이런 신호를 무시할 정도로 넓지는 않다는 것이다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

즐겨찾기 추가

소셜 미디어 공유

작성자

深潮 TechFlow

深潮TechFlow