Flower AI와 Vana가 데이터센터 없이도 고급 AI 모델을 구축하고 있다
인터넷을 통해 대규모 언어 모델(LLM)을 개발하는 새로운 크라우드소싱 방식이 올해 말 거대한 1000억 개의 파라미터를 가진 모델로 AI 업계에 충격을 줄 수 있다.
전 세계에 분산된 GPU와 사설 및 공공 데이터를 결합하여 새로운 유형의 대규모 언어 모델(LLM)을 훈련함으로써 인공지능 구축의 주류 방식이 뒤바뀔 수 있음을 보여주고 있다. 스타트업인 Flower AI와 Vana는 Collective-1이라는 이름의 새로운 모델을 공동 개발하기 위해 비정통적인 방법을 사용했다.
Flower는 수백 대의 인터넷 연결 컴퓨터에 훈련 과정을 분산시킬 수 있는 기술을 개발했다. 이 회사의 기술은 이미 일부 기업에서 중앙집중식 컴퓨팅 자원이나 데이터 없이도 AI 모델을 훈련하는 데 사용되고 있다. 한편 Vana는 X, Reddit, Telegram의 메시지를 포함한 데이터 소스를 제공했다.
현대 기준에서 Collective-1은 70억 개의 파라미터를 보유하고 있어 상대적으로 규모가 작다. 이러한 파라미터 조합이 모델의 능력을 부여하며, 오늘날 최첨단 모델인 ChatGPT, Claude, Gemini는 수백억 개의 파라미터를 가지고 있다. 케임브리지 대학교 컴퓨터 과학자이자 Flower AI 공동 설립자인 Nic Lane은 분산형 접근법이 Collective-1을 훨씬 초월할 수 있다고 밝혔다. Lane은 Flower AI가 일반 데이터를 사용해 300억 개의 파라미터를 가진 모델을 훈련 중이며, 올해 말에는 1000억 개의 파라미터를 가진 모델 훈련을 계획하고 있다고 덧붙였다. 이는 업계 선두 그룹과 맞먹는 규모다. Lane은 "이것이 사람들의 AI에 대한 인식을 진정으로 바꿀 수 있기 때문에 우리는 매우 열심히 노력하고 있다."고 말했다. 그는 이 스타트업이 이미지와 오디오를 훈련에 통합하여 멀티모달 모델을 만들고 있다고 전했다.
분산형 모델 구축은 또한 AI 산업의 권력 구조에도 영향을 미칠 수 있다. 현재 AI 기업들은 방대한 양의 훈련 데이터를 첨단 GPU로 구성된 데이터센터 내 강력한 컴퓨팅 파워와 결합하여 모델을 만든다. 이러한 데이터센터는 초고속 광섬유 케이블로 연결되어 있으며, 웹사이트와 책 등 공개적으로 접근 가능한(때로는 저작권이 있는) 자료를 긁어모아 만든 데이터셋에 크게 의존한다.
이러한 방식은 가장 부유한 기업들과 많은 고성능 칩을 보유한 국가들만이 가장 강력하고 가치 있는 모델을 개발할 수 있게 한다. 메타의 Llama나 DeepSeek의 R1 같은 오픈소스 모델조차도 대규모 데이터센터를 가진 기업들이 구축했다. 반면 분산형 접근법은 작은 기업이나 대학이 서로 다른 자원을 모아서 첨단 AI를 개발할 수 있도록 할 수 있다. 또는 전통적인 인프라가 부족한 국가들이 여러 데이터센터를 네트워크로 연결해 더 강력한 모델을 만들 수 있게 할 수도 있다.
Lane은 AI 업계가 점점 더 단일 데이터센터의 한계를 넘어서는 새로운 방법을 추구하게 될 것이라고 믿고 있다. 그는 "분산형 접근법은 데이터센터 모델보다 더욱 우아한 방식으로 컴퓨팅 능력을 확장할 수 있게 해준다."고 말했다.
보안 및 신기술 센터의 AI 거버넌스 전문가 헬렌 토너(Helen Toner)는 Flower AI의 방법이 "흥미롭고 AI 경쟁 및 거버넌스와 매우 관련이 있을 수 있다"고 평가했다. 토너는 "선두 기술 개발에서는 여전히 어려움을 겪을 수 있지만, 빠르게 따라가는 흥미로운 방법이 될 수 있다."고 말했다.
분할 정복
분산형 AI 훈련은 강력한 AI 시스템을 구축하기 위한 컴퓨팅 방식의 분할 방식을 재고해야 한다. LLM을 생성하려면 방대한 양의 텍스트를 모델에 입력하고, 모델은 프롬프트에 유용한 응답을 생성하기 위해 파라미터를 조정한다. 데이터센터 내부에서는 훈련 과정이 나뉘어 여러 GPU에서 병렬로 실행되며, 일정 간격으로 하나의 주요 모델로 통합된다.
새로운 접근법은 대규모 데이터센터 내부에서 수행되던 작업을 수 마일 떨어져 있고 비교적 느리거나 불안정한 인터넷 연결로 연결된 하드웨어에서 수행할 수 있게 한다.
일부 대기업들도 분산형 학습을 탐색하고 있다. 작년, 구글 연구진은 DIstributed PAth COmposition(DiPaCo)라는 새로운 컴퓨팅 분할 및 통합 방식을 제시하며 분산형 학습을 더욱 효율적으로 만들었다.
Collective-1과 기타 LLM을 구축하기 위해 Lane과 영국, 중국의 학계 협력자들은 분산형 훈련을 더욱 효율적으로 만드는 새로운 도구인 Photon을 개발했다. Lane은 Photon이 데이터 표현 및 공유, 훈련 통합 측면에서 구글의 방법보다 더 효율적이라고 밝혔다. 이 과정은 일반 훈련보다 느리지만 더 유연하여 훈련 속도를 높이기 위해 새 하드웨어를 추가할 수 있다.
Photon은 베이징우정대학과 저장대학 연구진과 협력하여 개발되었다. 해당 팀은 지난달 이 도구를 오픈소스 라이선스로 공개하여 누구나 이 방법을 사용할 수 있도록 했다.
Flower AI는 Collective-1 개발 과정에서 Vana와 협력했으며, Vana는 사용자가 AI 개발자와 개인 데이터를 공유할 수 있는 새로운 방법을 개발하고 있다. Vana의 소프트웨어는 사용자가 X, Reddit 등의 플랫폼에서 개인 데이터를 대규모 언어 모델 훈련용으로 기여할 수 있게 하며, 허용되는 최종 용도를 지정하거나 자신의 기여로부터 수익을 창출할 수도 있다.
Vana의 공동 설립자 안나 카즐라우스카스(Anna Kazlauskas)는 이 아이디어가 미개발 데이터를 AI 훈련에 활용 가능하게 하면서 동시에 사용자가 자신의 정보가 어떻게 AI에 사용되는지에 대해 더 많은 통제권을 갖도록 하는 것이라고 설명했다. 그녀는 "이러한 데이터는 일반적으로 공개적으로 이용 가능하지 않기 때문에 AI 모델에 포함되지 못했다."며 "이것은 사용자의 직접 기여 데이터가 기반 모델 훈련에 사용된 최초의 사례이며, 사용자는 자신이 만든 데이터 기반의 AI 모델에 대한 소유권을 갖게 된다."고 말했다.
런던대학교 대학원(UCL)의 컴퓨터 과학자 미르코 무솔레시(Mirco Musolesi)는 분산형 AI 훈련의 핵심 장점 중 하나가 새로운 유형의 데이터를 해제할 수 있다는 점이라고 말했다. 그는 "이를 선두 모델까지 확장하면 AI 업계가 의료 및 금융 분야처럼 데이터 집중화의 위험 없이도 분산되고 개인정보에 민감한 방대한 데이터를 훈련에 활용할 수 있게 될 것이다."라고 설명했다.
당신은 분산형 머신러닝에 대해 어떻게 생각하나요?
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












