
a16z: 대규모 언어 모델(LLM) 배포 시 ‘망각’이 발생한다. ‘지속 학습(continual learning)’으로 이 악순환을 깰 수 있을까?
저자: Malika Aubakirova, Matt Bornstein
번역 및 정리: TechFlow
TechFlow 서론: 대규모 언어 모델(LLM)은 훈련이 끝나면 ‘얼어붙고’, 배포 후에는 컨텍스트 윈도우나 RAG(Retrieval-Augmented Generation) 같은 외부 패치에 의존해 작동합니다. 본질적으로 이는 크리스토퍼 놀란 감독의 영화 〈메멘토〉(Memento) 속 기억 상실 환자와 유사합니다—정보를 검색할 수는 있지만, 진정한 의미에서 새로운 것을 배울 수는 없습니다. a16z의 두 파트너가 ‘지속 학습’(continual learning)이라는 최전선 연구 분야를 체계적으로 정리했습니다. 이 글은 컨텍스트, 모듈, 가중치 업데이트라는 세 가지 경로를 통해, AI 역량의 한계를 재정의할 수 있는 이 기술 분야를 해부합니다.
크리스토퍼 놀란의 〈메멘토〉에서 주인공 레너드 셸비는 조각난 ‘현재’ 속에서 살아갑니다. 뇌손상으로 인해 순행성 기억 상실증을 앓게 된 그는 새로운 기억을 형성할 수 없습니다. 몇 분마다 그의 세계는 리셋되며, 영원한 ‘지금 이 순간’에 갇혀 있습니다. 방금 무슨 일이 있었는지도, 앞으로 어떤 일이 벌어질지도 알지 못합니다. 생존을 위해 그는 피부에 문신을 새기고 폴라로이드 사진을 찍는 등, 뇌가 수행하지 못하는 기억 기능을 외부 도구로 대체합니다.
대규모 언어 모델도 비슷한 영원한 ‘지금 이 순간’ 속에서 살아갑니다. 훈련이 종료되면 막대한 지식이 모델 파라미터에 ‘얼어붙고’, 모델은 새로운 기억을 형성하거나 경험에 따라 자신의 파라미터를 업데이트할 수 없습니다. 이 결함을 보완하기 위해 우리는 모델 주변에 다양한 ‘발판’을 설치합니다: 채팅 기록은 단기 메모지 역할을 하고, 검색 시스템은 외부 노트북이며, 시스템 프롬프트는 피부에 새긴 문신과 같습니다. 그러나 모델 자체는 이러한 새로운 정보를 결코 내재화하지 못합니다.
점점 더 많은 연구자들이 이런 접근법만으로는 부족하다고 주장하고 있습니다. 인스턴스 기반 학습(ICL)이 해결할 수 있는 문제는, 답(또는 답의 조각)이 이미 세상 어딘가에 존재한다는 전제하에 성립합니다. 하지만 완전히 새로운 수학적 증명 같은 ‘진정한 발견’이 필요한 문제, 보안 공격·방어와 같은 ‘대응형 시나리오’, 혹은 너무 은폐되어 언어로 표현조차 불가능한 지식의 경우, 충분한 근거가 있습니다—모델은 배포 이후에도 새 지식과 경험을 직접 파라미터에 기록할 수 있어야 합니다.
인스턴스 기반 학습은 일시적입니다. 진정한 학습은 ‘압축’을 요구합니다. 우리가 모델에게 지속적인 압축을 허용하기 전까지는, 아마도 계속해서 〈메멘토〉의 영원한 ‘지금 이 순간’ 속에 갇혀 있을 것입니다. 반대로 말하면, 외부 플러그인 도구에 의존하지 않고, 모델 스스로 자신의 기억 구조를 학습하도록 훈련시킬 수 있다면, 완전히 새로운 스케일링 차원을 열 수 있을 것입니다.
이 연구 분야는 지속 학습(continual learning)이라고 불립니다. 이 개념 자체는 새로운 것이 아닙니다(참고: McCloskey & Cohen, 1989년 논문). 그러나 우리는 이것이 현재 AI 분야에서 가장 중요한 연구 방향 중 하나라고 믿습니다. 지난 2~3년간 모델 역량의 폭발적 성장은, 모델이 ‘이미 알고 있는 것’과 ‘알 수 있는 것’ 사이의 격차를 점점 더 명확하게 드러냈습니다. 본 기사는 이 분야 최정상급 연구자들로부터 배운 통찰을 공유하여, 지속 학습의 다양한 접근 경로를 명확히 하고, 스타트업 생태계 내에서 이 주제를 확산시키는 데 기여하고자 합니다.
참고: 본 기사는 우수한 연구자, 박사 과정생, 창업가들과의 심층 인터뷰를 바탕으로 작성되었습니다. 이 분들은 지속 학습 분야에서 진행 중인 작업과 통찰을 아낌없이 공유해 주셨습니다. 이론적 기초부터 배포 후 학습의 공학적 현실까지, 그들의 통찰 덕분에 본 기사는 우리 혼자서 작성했을 때보다 훨씬 탄탄해졌습니다. 여러분의 소중한 시간과 아이디어에 진심으로 감사드립니다!
먼저 컨텍스트부터 살펴보겠습니다
파라미터 수준의 학습(즉, 모델 가중치 업데이트)을 옹호하기 전에, 먼저 하나의 사실을 인정해야 합니다: 인스턴스 기반 학습(ICL)은 실제로 효과가 있습니다. 그리고 이 방법이 앞으로도 계속해서 우위를 점할 것임을 강력히 입증하는 논거도 있습니다.
Transformer의 본질은 시퀀스 기반의 조건부 다음 토큰 예측기입니다. 적절한 시퀀스를 입력하면, 가중치를 건드리지 않고도 놀라울 정도로 풍부한 행동을 유도할 수 있습니다. 바로 이것이 컨텍스트 관리, 프롬프트 엔지니어링, 명령어 미세 조정, 소량 샘플 예시 등이 매우 강력한 이유입니다. 지능은 정적 파라미터 안에 담겨 있으며, 실제 발현되는 능력은 입력 창에 넣는 내용에 따라 급격히 변화합니다.
Cursor가 최근 발표한 자율 프로그래밍 에이전트 스케일링에 대한 심층 기사(‘Scaling Agents’)가 좋은 사례입니다: 모델 가중치는 고정되어 있지만, 시스템을 실제로 작동시키는 것은 컨텍스트의 정교한 배열—무엇을 입력할지, 언제 요약할지, 수시간에 걸친 자율 실행 중 일관된 상태를 어떻게 유지할지—입니다.
OpenClaw도 또 다른 좋은 사례입니다. OpenClaw이 인기를 끈 이유는 특별한 모델 권한 때문이 아닙니다(기반이 되는 모델은 누구나 사용 가능). 오히려 컨텍스트와 도구를 극도로 효율적으로 작업 상태로 전환한 데 있습니다: 사용자가 무엇을 하고 있는지 추적하고, 중간 산출물을 구조화하며, 언제 프롬프트를 다시 주입할지 결정하고, 이전 작업에 대한 지속적인 기억을 유지합니다. OpenClaw은 에이전트의 ‘외피 설계’(shell design)를 독립된 학문 분야 수준으로 격상시켰습니다.
처음 프롬프트 엔지니어링이 등장했을 때, 많은 연구자들이 ‘단지 프롬프트만으로’ 정식 인터페이스가 될 수 있다는 주장에 회의적이었습니다. 그것은 마치 해킹처럼 보였습니다. 그러나 이는 Transformer 아키텍처의 원생(native) 산물이며, 재훈련 없이도 적용 가능하고, 모델의 진화에 따라 자동으로 향상됩니다. 모델이 강해질수록 프롬프트도 강해집니다. ‘소박하지만 원생’인 인터페이스는 종종 승리합니다. 왜냐하면 그것이 하위 시스템과 직접 결합되어, 반대 방향으로 작동하지 않기 때문입니다. 지금까지 LLM의 발전 궤적은 바로 그러했습니다.
상태 공간 모델(SSM): 컨텍스트의 ‘스테로이드 버전’
주류 워크플로우가 원시 LLM 호출에서 에이전트 루프로 전환됨에 따라, 컨텍스트 기반 학습 모델에 대한 압박이 점점 커지고 있습니다. 과거에는 컨텍스트 윈도우가 완전히 채워지는 경우가 비교적 드물었습니다. 이는 일반적으로 LLM이 긴 일련의 개별 작업을 수행하도록 요청될 때 발생했는데, 애플리케이션 계층에서는 채팅 기록을 비교적 직접적으로 잘라내거나 압축할 수 있었습니다. 그러나 에이전트의 경우, 단 하나의 작업이 전체 사용 가능한 컨텍스트의 상당 부분을 차지할 수 있습니다. 에이전트 루프의 각 단계는 이전 반복에서 전달된 컨텍스트에 의존합니다. 그리고 종종 ‘연결이 끊기기’ 때문에 20~100단계 후에 실패합니다: 컨텍스트가 꽉 차고, 일관성이 약화되며, 수렴되지 않습니다.
따라서 주요 AI 실험실들은 이제 초장기 컨텍스트 윈도우 모델 개발을 위해 막대한 자원(즉, 대규모 훈련 실행)을 투입하고 있습니다. 이는 이미 효과가 입증된 방법(컨텍스트 학습) 위에 구축되며, 산업 전반의 ‘추론 시 계산 중심’ 전환 추세와도 맞물리는 자연스러운 경로입니다. 가장 흔한 아키텍처는 일반 어텐션 헤드 사이에 고정된 메모리 계층을 삽입하는 방식인데, 이를 상태 공간 모델(SSM)과 선형 어텐션 변형(linear attention variants)이라 부르며, 본문에서는 모두 SSM으로 통칭하겠습니다. SSM은 장기 컨텍스트 시나리오에서 근본적으로 더 우수한 스케일링 곡선을 제공합니다.

그림 설명: SSM과 전통적 어텐션 메커니즘의 스케일링 비교
목표는 에이전트가 연속적으로 일관된 실행을 수행할 수 있는 단계 수를 약 20단계에서 약 20,000단계로 몇 개의 수량급 향상시키는 것입니다. 동시에 기존 Transformer가 제공하는 광범위한 기술과 지식을 잃지 않아야 합니다. 성공한다면, 이는 장시간 실행되는 에이전트에게 중대한 돌파구가 될 것입니다. 이 방법을 일종의 지속 학습 형태로 볼 수도 있습니다: 가중치를 업데이트하지는 않지만, 거의 리셋이 필요 없는 외부 메모리 계층을 도입합니다.
따라서 이러한 비파라미터화 방법은 실재하며 강력합니다. 지속 학습을 평가할 때는 반드시 여기서부터 시작해야 합니다. 오늘날의 컨텍스트 시스템이 유용하지 않은지 여부가 문제가 아닙니다. 분명히 유용합니다. 문제는 우리가 이미 한계에 도달했는지, 아니면 새로운 방법이 우리를 더 멀리 데려갈 수 있는지에 있습니다.
컨텍스트가 놓치는 것: ‘서고 오류’(Archival Cabinet Fallacy)
“AGI와 사전 훈련이 일어나는 과정은 어느 의미에서 과잉 조정(overshoot)을 일으키고 있습니다… 인간은 AGI가 아닙니다. 그렇습니다, 인간은 확실히 기술 기반을 갖추고 있지만, 인간은 막대한 양의 지식을 결여하고 있습니다. 우리가 의존하는 것은 바로 지속 학습입니다. 제가 15살짜리 초고능력 소년을 만들었다고 칩시다. 그는 아무것도 모릅니다. 우수한 학생이며, 배우고 싶어합니다. 당신은 그에게 ‘프로그래머가 되라’, ‘의사가 되라’고 말할 수 있습니다. 배포 자체가 바로 어떤 형태의 학습과 시행착오 과정을 포함합니다. 이것은 제품을 완성된 상태로 그냥 내던지는 것이 아니라, 하나의 과정입니다.” — 일리야 수츠키버(Ilya Sutskever)
저장 공간이 무한한 시스템을 상상해 보십시오. 세상에서 가장 큰 서고로서, 모든 사실이 완벽하게 색인되어 즉시 검색 가능합니다. 그것은 무엇이든 찾아낼 수 있습니다. 그렇다면, 그것은 배웠습니까?
아니요. 결코 압축을 강제받은 적이 없습니다.
이것이 우리의 핵심 논거입니다. 이는 일리야 수츠키버가 이전에 제기한(YouTube 강연) 관점에서 비롯된 것입니다: LLM은 본질적으로 압축 알고리즘입니다. 훈련 과정에서 인터넷을 파라미터로 압축합니다. 이 압축은 손실이 따르며, 바로 이 손실이 모델을 강력하게 만듭니다. 압축은 모델로 하여금 구조를 찾고, 일반화하며, 여러 컨텍스트에서 이전 가능한 표현(representation)을 구축하도록 강제합니다. 훈련 샘플을 모두 암기하는 모델보다, 근본적인 규칙을 추출해내는 모델이 더 낫습니다. 손실 압축 자체가 바로 학습입니다.
역설적이게도, LLM을 훈련 기간 동안 강력하게 만든 메커니즘—원시 데이터를 간결하고 이전 가능한 표현으로 압축하는 것—恰恰는 우리가 배포 후에는 모델이 계속하도록 거부하는 바로 그 행위입니다. 우리는 배포 순간에 압축을 멈추고, 외부 메모리를 대신 사용합니다. 물론 대부분의 에이전트 외피(shell)는 특정 방식으로 컨텍스트를 압축하기도 합니다. 그러나 ‘쓴 교훈’(bitter lesson)이 우리에게 가르치는 바는, 바로 모델 자체가 이러한 압축을 직접적이고 대규모로 학습해야 한다는 점이 아닐까요?
유 선(Yu Sun)은 이 논쟁을 설명하기 위해 수학을 예로 들었습니다. 페르마의 마지막 정리(Fermat’s Last Theorem)를 떠올려 보십시오. 350년 이상 동안, 어떤 수학자도 그것을 증명하지 못했습니다. 그 이유는 올바른 문헌 자료가 부족해서가 아니라, 해법이 극도로 혁신적이었기 때문입니다. 기존 수학 지식과 최종 답변 사이의 개념적 거리는 너무 컸습니다. 앤드루 와일스(Andrew Wiles)는 1990년대에 이 정리를 마침내 해결했지만, 그는 7년간 거의 세상과 단절된 채 작업하며, 답변에 도달하기 위해 완전히 새로운 기술을 발명해야 했습니다. 그의 증명은 타원곡선과 모듈러 형식이라는 두 개의 서로 다른 수학 분야를 성공적으로 연결하는 데 의존했습니다. 켄 리벳(Ken Ribet)은 이 연결을 성사시키면 자동으로 페르마의 마지막 정리를 해결할 수 있다는 것을 이미 증명했지만, 와일스 이전에는 누구도 이 다리를 실제로 구축할 수 있는 이론적 도구를 갖추지 못했습니다. 그레고리 페렐만(Grigori Perelman)의 푸앵카레 추측(Poincaré Conjecture) 증명도 유사한 논증이 가능합니다.
핵심 질문은 다음과 같습니다: 이러한 사례들이 LLM이 어떤 것을 결여하고 있음을, 즉 선천적 지식을 갱신하고 진정한 창의적 사고를 수행할 수 있는 능력을 결여하고 있음을 입증하는 것입니까? 아니면 이 이야기가 오히려 반대되는 결론—즉, 모든 인간 지식은 단지 훈련 및 재구성을 위한 데이터일 뿐이며, 와일스와 페렐만은 단지 LLM이 더 큰 규모에서 할 수 있는 일을 보여준 것일 뿐—을 입증하는 것입니까?
이 질문은 경험적(empirical)이며, 아직 답이 확정되지 않았습니다. 그러나 우리는 분명히, 컨텍스트 학습이 오늘날 실패하지만 파라미터 수준의 학습이 유용할 수 있는 문제 유형이 많다는 것을 압니다. 예를 들어:

그림 설명: 컨텍스트 학습이 실패하고 파라미터 학습이 유리할 수 있는 문제 유형
더 중요한 것은, 컨텍스트 학습은 언어로 표현 가능한 것만 처리할 수 있지만, 가중치는 프롬프트로는 전달할 수 없는 개념을 인코딩할 수 있다는 점입니다. 어떤 패턴은 차원이 너무 높고, 너무 은폐되어 있고, 너무 깊이 구조화되어 있어서 컨텍스트에 담을 수 없습니다. 예를 들어, 의학 영상에서 양성 위조 영상과 종양을 구분하는 시각적 질감, 또는 화자의 고유한 리듬을 정의하는 음향의 미세한 변동 등은 정확한 어휘로 분해하기 어렵습니다. 언어는 이러한 것들을 단지 근사할 뿐입니다. 아무리 긴 프롬프트라도 이러한 정보를 전달할 수 없습니다. 이 종류의 지식은 오직 가중치 안에서만 살아남을 수 있습니다. 그것은 학습된 표현의 잠재 공간(latent space) 속에 존재하며, 텍스트가 아닙니다. 컨텍스트 윈도우가 아무리 커져도, 텍스트로 설명할 수 없는 지식은 항상 존재하며, 오직 파라미터만이 이를 담을 수 있습니다.
이것은 아마도 ‘로봇이 당신을 기억한다’는 명시적 기능(예: ChatGPT의 memory 기능)이 사용자에게 놀라움보다는 불편함을 주는 이유를 설명해 줄 수 있습니다. 사용자가 진정으로 원하는 것은 ‘기억’이 아니라 ‘능력’입니다. 당신의 행동 패턴을 이미 내재화한 모델은 새로운 상황에도 일반화할 수 있지만, 단지 당신의 과거 기록을 기억하는 모델은 그렇지 못합니다. “당신이 지난번 이 이메일에 답장을 보낼 때 쓴 내용입니다”(단순 복사)와 “당신의 사고방식을 충분히 이해하여, 당신이 무엇을 필요로 할지 예측할 수 있습니다” 사이의 차이는, 검색과 학습 사이의 차이입니다.
지속 학습 입문
지속 학습에는 여러 경로가 있습니다. 구분선은 ‘기억 기능이 있는가’가 아니라, 압축이 어디서 일어나는가?에 있습니다. 이 경로들은 하나의 스펙트럼을 이루며, 압축이 전혀 없는 상태(순수 검색, 가중치 고정)에서 완전한 내부 압축(가중치 수준 학습, 모델이 더 똑똑해짐)까지 이어집니다. 그 중간에 중요한 영역(모듈)도 존재합니다.

그림 설명: 지속 학습의 세 가지 경로—컨텍스트, 모듈, 가중치
컨텍스트
컨텍스트 쪽에서는 팀들이 더 지능적인 검색 파이프라인, 에이전트 외피, 프롬프트 배열을 구축합니다. 이는 가장 성숙한 범주입니다: 인프라가 검증되었고, 배포 경로도 명확합니다. 제약은 깊이, 즉 컨텍스트 길이에 있습니다.
주목할 만한 새로운 방향은, 컨텍스트 자체를 확장하기 위한 다중 에이전트 아키텍처입니다. 단일 모델이 128K 토큰 윈도우에 제한되어 있다면, 서로 협조하는 에이전트 집단—각 에이전트가 자신의 컨텍스트를 보유하고, 문제의 한 부분에 집중하며, 결과를 서로 공유—은 전체적으로 무한한 작업 기억을 근사할 수 있습니다. 각 에이전트는 자신의 윈도우 내에서 인스턴스 기반 학습을 수행하고, 시스템은 결과를 집계합니다. 카르파티(Karpathy)의 최근 오토리서치(autoresearch) 프로젝트와 Cursor의 웹 브라우저 구축 사례는 초기 사례입니다. 이는 순수한 비파라미터화 방법(가중치 변경 없음)이지만, 컨텍스트 시스템이 달성할 수 있는 한계를 크게 높입니다.
모듈
모듈 영역에서는 팀들이 교체 가능한 지식 모듈(압축된 KV 캐시, 어댑터 계층, 외부 메모리 저장소)을 구축하여, 일반 모델이 재훈련 없이도 특정 분야에 특화되도록 합니다. 8B 모델에 적절한 모듈을 추가하면, 특정 작업에서 109B 모델과 맞먹는 성능을 낼 수 있으며, 메모리 사용량은 그 일부에 불과합니다. 매력적인 점은 기존 Transformer 인프라와 호환된다는 데 있습니다.
가중치
가중치 업데이트 쪽에서는 연구자들이 진정한 파라미터 수준 학습을 추구합니다: 관련 파라미터 조각만 업데이트하는 희소 메모리 계층, 피드백으로부터 모델을 최적화하는 강화 학습 루프, 추론 시 컨텍스트를 가중치로 압축하는 테스트 타임 트레이닝(test-time training). 이는 가장 심층적인 방법이자 가장 배포하기 어려운 방법이지만, 모델이 완전히 새로운 정보나 기술을 내재화할 수 있게 해줍니다.
파라미터 업데이트의 구체적인 메커니즘은 다양합니다. 몇 가지 연구 방향을 소개합니다:

그림 설명: 가중치 수준 학습의 연구 방향 개요
가중치 수준 연구는 여러 병렬 경로를 포함합니다. 정규화 및 가중치 공간 방법은 역사가 가장 깁니다: EWC(Kirkpatrick et al., 2017)는 파라미터가 이전 작업에 얼마나 중요한지를 기준으로 파라미터 변화를 처벌합니다; 가중치 보간(weight interpolation, Kozal et al., 2024)은 파라미터 공간에서 새롭고 오래된 가중치 설정을 혼합하지만, 이 둘 모두 대규모에서는 상당히 취약합니다. 테스트 타임 트레이닝은 Sun et al.(2020)이 개척한 것으로, 이후 TTT 계층(TTT layer), TTT-E2E, TTT-Discover와 같은 아키텍처 원시(primitive)로 발전했습니다. 이 접근법은 생각이 완전히 다릅니다: 테스트 데이터에서 그래디언트 디센트를 수행하여, 필요한 순간에 새 정보를 파라미터에 압축합니다. 메타 학습은 ‘어떻게 학습할 것인가’를 아는 모델을 훈련시킬 수 있는지 묻습니다. MAML의 소량 샘플 친화적 파라미터 초기화(Finn et al., 2017)에서 베후르즈(Behrouz) 등이 제안한 계층적 학습(Nested Learning, 2025)까지, 후자는 모델을 계층적 최적화 문제로 구조화하여, 빠른 적응과 느린 업데이트 모듈을 서로 다른 시간 척도에서 운영하며, 생물학적 기억 강화에서 영감을 받았습니다.
지식 증류는 학생 모델이 고정된 교사 모델 체크포인트를 따라가도록 함으로써 이전 작업의 지식을 보존합니다. LoRD(Liu et al., 2025)는 모델과 리플레이 버퍼를 동시에 가공함으로써 증류를 지속적으로 실행 가능한 수준으로 효율화합니다. 자기 증류(self-distillation, SDFT, Shenfeld et al., 2026)는 출처를 뒤집어, 모델 자신이 전문 조건에서 생성한 출력을 훈련 신호로 사용함으로써, 순차적 미세 조정의 치명적 망각(catastrophic forgetting)을 우회합니다. 재귀적 자기 개선은 유사한 아이디어에서 작동합니다: STaR(Zelikman et al., 2022)은 자가 생성된 추론 체인에서 추론 능력을 유도합니다; AlphaEvolve(DeepMind, 2025)는 수십 년간 개선되지 못했던 알고리즘 최적화를 발견했습니다; 실버(Silver)와 서튼(Sutton)의 ‘경험 시대’(2025)는 에이전트 학습을 끊임없이 흐르는 지속적인 경험의 흐름으로 정의합니다.
이러한 연구 방향들이 점차 융합되고 있습니다. TTT-Discover는 이미 테스트 타임 트레이닝과 RL 기반 탐색을 융합했습니다. HOPE는 빠른 학습과 느린 학습 루프를 단일 아키텍처 내에 중첩시킵니다. SDFT는 증류를 자기 개선의 기본 연산으로 전환합니다. 열과 열 사이의 경계가 흐려지고 있습니다. 차세대 지속 학습 시스템은 여러 전략을 조합할 가능성이 높습니다: 정규화로 안정성을 확보하고, 메타 학습으로 속도를 높이며, 자기 개선으로 복리 효과를 누립니다. 점점 더 많은 스타트업들이 이 기술 스택의 다양한 계층에 베팅하고 있습니다.
지속 학습 스타트업 지도
비파라미터 쪽 스펙트럼은 가장 잘 알려져 있습니다. 외피 회사(letta, mem0, Subconscious)는 컨텍스트 윈도우에 무엇을 넣을지 관리하는 오케스트레이션 계층과 발판을 구축합니다. 외부 저장소 및 RAG 인프라(pinecone, xmemory 등)는 검색의 골격을 제공합니다. 데이터는 존재하지만, 도전은 올바른 시간에 올바른 데이터 조각을 모델 앞에 배치하는 데 있습니다. 컨텍스트 윈도우가 확장됨에 따라, 특히 외피 쪽에서 이 회사들의 설계 공간도 함께 커지고 있으며, 점점 더 복잡해지는 컨텍스트 전략을 관리하기 위해 새로운 스타트업들이 쏟아지고 있습니다.
파라미터 쪽은 더 초기 단계이며, 더 다양합니다. 이곳의 회사들은 ‘배포 후 압축’의 어떤 형태를 시도하고 있으며, 모델이 가중치 안에 새 정보를 내재화하도록 합니다. 경로는 대체로 모델이 배포 후 ‘어떻게’ 학습해야 할지에 대한 몇 가지 서로 다른 베팅으로 나뉩니다.
부분 압축: 재훈련 없이도 학습 가능. 일부 팀은 교체 가능한 지식 모듈(압축된 KV 캐시, 어댑터 계층, 외부 메모리 저장소)을 구축하여, 일반 모델이 핵심 가중치를 건드리지 않고도 특화될 수 있도록 합니다. 공통된 주장은, 검색이 아닌 의미 있는 압축을 얻을 수 있으며, 학습이 전체 파라미터 공간에 퍼지지 않고 고립되어 있기 때문에 안정성-가소성(stability-plasticity) 균형을 관리 가능한 수준으로 유지할 수 있다는 점입니다. 8B 모델에 적절한 모듈을 추가하면, 특정 작업에서 훨씬 더 큰 모델과 맞먹는 성능을 낼 수 있습니다. 장점은 조합 가능성입니다: 모듈은 기존 Transformer 아키텍처에 즉시 적용 가능하며, 독립적으로 교체하거나 업데이트할 수 있고, 실험 비용이 재훈련보다 훨씬 낮습니다.
강화 학습 및 피드백 루프: 신호에서 학습하기. 또 다른 팀들은, 배포 후 학습을 위한 가장 풍부한 신호가 이미 배포 루프 자체에 존재한다고 베팅합니다—사용자 정정, 작업 성공/실패, 실제 세계 결과에서 나오는 보상 신호 등입니다. 핵심 개념은 모델이 모든 상호작용을 단순한 추론 요청이 아니라, 잠재적인 훈련 신호로 간주해야 한다는 것입니다. 이는 인간이 일하면서 성장하는 방식과 매우 유사합니다: 일을 하고, 피드백을 받고, 어떤 방법이 효과적인지 내재화합니다. 공학적 도전은 희소하고, 잡음이 많으며, 때때로 대항적인 피드백을 안정적인 가중치 업데이트로 전환하면서도 치명적 망각을 피하는 데 있습니다. 그러나 배포 과정에서 진정으로 학습할 수 있는 모델은, 컨텍스트 시스템이 할 수 없는 방식으로 복리 가치를 창출할 것입니다.
데이터 중심: 올바른 신호에서 학습하기. 관련되지만 구분되는 또 다른 베팅은, 병목이 학습 알고리즘이 아니라 훈련 데이터 및 주변 시스템에 있다는 것입니다. 이러한 팀은 지속적인 업데이트를 구동하기 위해 올바른 데이터를 선별·생성·합성하는 데 집중합니다: 전제는 고품질이고 구조화된 학습 신호를 갖춘 모델은 훨씬 적은 그래디언트 스텝만으로도 의미 있게 개선될 수 있다는 점입니다. 이는 피드백 루프 회사들과 자연스럽게 연결되지만, 초점을 상류 문제—즉, 모델이 ‘무엇에서’ 배우고, ‘어느 정도까지’ 배워야 하는가—에 맞춥니다.
신규 아키텍처: 학습 능력을 바닥부터 설계하기. 가장 급진적인 베팅은 Transformer 아키텍처 자체가 병목이며, 지속 학습을 위해서는 근본적으로 다른 계산 원시(continuous time dynamics와 내장 메모리 메커니즘을 갖춘 아키텍처)가 필요하다는 것입니다. 이 주장은 구조적인데, 지속 학습 시스템을 원한다면, 학습 메커니즘을 바닥부터 아키텍처에 내장시켜야 한다는 점입니다.

그림 설명: 지속 학습 스타트업 지도
모든 주요 실험실들도 이 범주들에 적극적으로 진출하고 있습니다. 일부는 더 나은 컨텍스트 관리 및 사고 체인 추론을 탐색하고, 일부는 외부 메모리 모듈이나 ‘잠자는 시간(sleep-time)’ 계산 파이프라인을 실험하고, 또 몇몇 은둔 스타트업들은 신규 아키텍처를 추구하고 있습니다. 이 분야는 아직 초기 단계이며, 어느 한 방법도 승리하지 못했고, 다양한 용례를 고려할 때 단일 승자만 존재해야 할 이유도 없습니다.
왜 단순한 가중치 업데이트는 실패하는가
프로덕션 환경에서 모델 파라미터를 업데이트하려면, 현재 대규모에서 해결되지 않은 일련의 실패 양식이 촉발됩니다.

그림 설명: 단순 가중치 업데이트의 실패 양식
공학적 문제는 이미 충분히 문서화되어 있습니다. 치명적 망각(catastrophic forgetting)은 새 데이터에 충분히 민감해 학습할 수 있는 모델이 기존 표현을 파괴한다는 것을 의미합니다—안정성-가소성 딜레마입니다. 시간 해제(time decoupling)는 불변 규칙과 가변 상태가 동일한 가중치 집합에 압축되어 있어, 하나를 업데이트하면 다른 하나가 손상된다는 점을 의미합니다. 논리적 통합의 실패는 사실 업데이트가 해당 추론으로 전파되지 않기 때문입니다: 변경은 토큰 시퀀스 수준에 국한되며, 의미적 개념 수준이 아닙니다. ‘망각(unlearning)’은 여전히 불가능합니다: 미분 가능한 뺄셈 연산이 없기 때문에, 잘못된 정보나 유해한 지식을 정확히 제거할 수 있는 ‘수술적’ 방법이 없습니다.
두 번째 유형의 문제는 덜 주목받고 있습니다. 현재의 훈련과 배포의 분리는 단순한 공학적 편의가 아닙니다. 이는 보안 정렬, 감사 가능성, 거버넌스의 경계입니다. 이 경계를 열면 여러 문제가 동시에 발생합니다. 보안 정렬이 예측 불가능하게 약화될 수 있습니다: 양성 데이터에 대한 좁은 범위의 미세 조정조차 광범위한 부정렬 행동을 유발할 수 있습니다. 지속적인 업데이트는 데이터 투독(data poisoning) 공격 면을 창출합니다—느리고 지속적인 프롬프트 주입 버전이지만, 이번엔 가중치 안에 살아 있습니다. 감사 가능성(auditing)이 붕괴됩니다: 지속적으로 업데이트되는 모델은 움직이는 표적(moving target)이므로, 버전 관리, 회귀 테스트, 일회성 인증이 불가능합니다. 사용자 상호작용이 파라미터에 압축되면, 프라이버시 위험이 증가합니다: 민감한 정보가 표현에 ‘굽혀(baked in)’ 들어가며, 검색된 컨텍스트 내 정보보다 필터링하기 훨씬 어렵습니다.
이것들은 열린 문제일 뿐, 근본적인 불가능성은 아닙니다. 이 문제들을 해결하는 것도, 핵심 아키텍처 과제를 해결하는 것과 마찬가지로, 지속 학습 연구 의제의 일부입니다.
〈메멘토〉의 ‘기억 단편’에서 진정한 기억으로
레너드가 〈메멘토〉에서 겪는 비극은 그가 작동하지 못한다는 데 있지 않습니다—어떤 상황에서도 그는 기민하며, 심지어 뛰어납니다. 그의 비극은 그가 결코 복리 효과를 누릴 수 없다는 데 있습니다. 모든 경험은 외부에 머뭅니다—폴라로이드 사진, 문신, 남의 필체로 쓴 메모지. 그는 검색할 수는 있지만, 새 지식을 압축할 수는 없습니다.
레너드가 스스로 구성한 이 미로를 헤매다 보면, 진실과 믿음 사이의 경계가 흐려집니다. 그의 병은 단지 기억을 빼앗는 것뿐 아니라, 그로 하여금 끊임없이 의미를 재구성하게 만듭니다. 그는 자신이 쓰는 이야기 속에서 탐정이자 신뢰할 수 없는 화자이기도 합니다.
오늘날의 AI도 동일한 제약 아래 작동합니다. 우리는 매우 강력한 검색 시스템을 구축했습니다: 더 긴 컨텍스트 윈도우, 더 지능적인 외피, 조정된 다중 에이전트 집단—and 그것들은 실제로 작동합니다. 그러나 검색은 학습이 아닙니다. 어떤 사실이든 찾아낼 수 있는 시스템은 구조를 찾도록 강제되지 않습니다. 일반화하도록 강제되지 않습니다. 훈련을 그렇게 강력하게 만든 손실 압축—즉, 원시 데이터를 이전 가능한 표현으로 전환하는 메커니즘—恰恰는 우리가 배포 순간에 끄는 바로 그 것입니다.
앞으로의 길은 단일 돌파구가 아니라 계층적 시스템일 가능성이 높습니다. 인스턴스 기반 학습은 여전히 첫 번째 적응 방어선일 것입니다: 그것은 원생적이며, 검증되었고, 지속적으로 개선되고 있습니다. 모듈 메커니즘은 개인화와 분야 전문화의 중간 지대를 처리할 수 있습니다. 그러나 진정으로 어려운 문제—즉, 발견, 대응 적응, 언어로 표현할 수 없는 은폐된 지식—에 대해서는, 모델이 훈련 이후에도 경험을 가중치에 압축하도록 허용해야 할 수 있습니다. 이는 희소 아키텍처, 메타 학습 목표, 자기 개선 루프의 진전을 의미합니다. 또한 우리는 ‘모델’이라는 개념 자체를 재정의해야 할 수도 있습니다: 고정된 가중치 집합이 아니라, 자신의 기억, 업데이트 알고리즘, 그리고 자기 경험에서 추상화하는 능력을 포함한 진화하는 시스템으로 말입니다.
서고는 점점 커지고 있습니다. 그러나 아무리 커도 서고는 여전히 서고일 뿐입니다. 돌파구는 모델이 배포 후에도 훈련 시 강력하게 만든 바로 그 행위—압축, 추상화, 학습—을 수행하도록 허용하는 데 있습니다. 우리는 기억 상실 모델에서 약간의 경험의 빛을 갖춘 모델로 넘어가는 전환점에 서 있습니다. 그렇지 않으면, 우리는 스스로의 〈메멘토〉 속에 갇힐 것입니다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News











