Flower AI và Vana đang xây dựng các mô hình AI tiên tiến không cần trung tâm dữ liệu
Tuyển chọn TechFlowTuyển chọn TechFlow
Flower AI và Vana đang xây dựng các mô hình AI tiên tiến không cần trung tâm dữ liệu
Một phương pháp huấn luyện cộng tác mới nhằm phát triển các mô hình ngôn ngữ lớn (LLMs) thông qua internet có thể gây chấn động ngành AI vào cuối năm nay với một mô hình khổng lồ 100 tỷ tham số.
Một phương pháp đào tạo cộng tác mới thông qua Internet để phát triển các mô hình ngôn ngữ lớn (LLMs) có thể gây chấn động ngành AI vào cuối năm nay với một mô hình khổng lồ 100 tỷ tham số.
Các nhà nghiên cứu đã sử dụng GPU phân bố toàn cầu kết hợp dữ liệu công khai và riêng tư để huấn luyện một mô hình ngôn ngữ lớn (LLM) mới, cho thấy cách thức phổ biến hiện nay để xây dựng trí tuệ nhân tạo có thể bị đảo ngược. Hai công ty khởi nghiệp Flower AI và Vana đã cùng nhau tạo ra mô hình mới này theo cách phi truyền thống, có tên là Collective-1.
Flower phát triển công nghệ cho phép phân tán quá trình huấn luyện trên hàng trăm máy tính kết nối qua Internet. Công nghệ của công ty đã được một số doanh nghiệp sử dụng để huấn luyện mô hình AI mà không cần tập trung tài nguyên tính toán hay dữ liệu. Trong khi đó, Vana cung cấp nguồn dữ liệu bao gồm tin nhắn riêng tư từ X, Reddit và Telegram.
Theo tiêu chuẩn hiện đại, quy mô của Collective-1 tương đối nhỏ với 7 tỷ tham số – tổ hợp các tham số này mang lại khả năng cho mô hình – trong khi các mô hình tiên tiến nhất hiện nay như ChatGPT, Claude và Gemini có tới hàng trăm tỷ tham số. Nic Lane, nhà khoa học máy tính tại Đại học Cambridge và đồng sáng lập Flower AI, cho biết phương pháp phân tán hứa hẹn sẽ vượt xa quy mô của Collective-1. Lane bổ sung rằng Flower AI đang sử dụng dữ liệu thông thường để huấn luyện một mô hình 30 tỷ tham số và dự định huấn luyện thêm một mô hình khác với 100 tỷ tham số vào cuối năm nay – gần bằng quy mô của các mô hình dẫn đầu ngành. “Điều này có thể thực sự thay đổi cách mọi người nhìn nhận về AI, vì vậy chúng tôi đang rất nỗ lực”, Lane nói. Ông cũng cho biết công ty khởi nghiệp này đang tích hợp hình ảnh và âm thanh vào quá trình huấn luyện để tạo ra các mô hình đa phương thức.
Việc xây dựng mô hình phân tán cũng có thể làm thay đổi cán cân quyền lực đang định hình ngành AI. Hiện tại, các công ty AI xây dựng mô hình bằng cách kết hợp lượng lớn dữ liệu huấn luyện với năng lực tính toán mạnh mẽ tập trung tại các trung tâm dữ liệu, nơi được trang bị GPU tiên tiến và kết nối với nhau bằng cáp quang tốc độ cao. Họ còn phụ thuộc nhiều vào các bộ dữ liệu được tạo ra bằng cách thu thập các nội dung công khai (mặc dù đôi khi được bảo vệ bản quyền), bao gồm website và sách vở.
Điều này có nghĩa là chỉ những công ty giàu có nhất và các quốc gia sở hữu lượng lớn chip mạnh mới có thể phát triển các mô hình mạnh mẽ và có giá trị nhất. Ngay cả các mô hình mã nguồn mở như Llama của Meta và R1 của DeepSeek cũng được xây dựng bởi các công ty có trung tâm dữ liệu quy mô lớn. Phương pháp phân tán có thể giúp các công ty nhỏ hơn và các trường đại học xây dựng AI tiên tiến bằng cách tập hợp các nguồn lực khác nhau. Hoặc, nó có thể cho phép các quốc gia thiếu cơ sở hạ tầng truyền thống liên kết nhiều trung tâm dữ liệu để xây dựng các mô hình mạnh hơn.
Lane tin rằng ngành AI sẽ ngày càng tìm kiếm các phương pháp mới để vượt qua giới hạn của một trung tâm dữ liệu đơn lẻ trong quá trình huấn luyện. Ông nói: “Phương pháp phân tán cho phép bạn mở rộng năng lực tính toán theo cách tinh tế hơn so với mô hình trung tâm dữ liệu.”
Helen Toner, chuyên gia quản trị AI tại Trung tâm An ninh và Công nghệ Mới nổi, cho rằng phương pháp của Flower AI “thú vị và có thể rất liên quan” đến cạnh tranh và quản trị AI. “Nó có thể vẫn gặp khó khăn trong việc dẫn đầu công nghệ, nhưng có thể là một phương pháp theo sát nhanh thú vị,” Toner nói.
Chia để trị
Đào tạo AI phân tán liên quan đến việc tái cấu trúc cách chia sẻ tài nguyên tính toán dùng để xây dựng hệ thống AI mạnh mẽ. Việc tạo ra một LLM bao gồm việc đưa một lượng lớn văn bản vào mô hình, mô hình điều chỉnh các tham số của nó để tạo ra phản hồi hữu ích cho các gợi ý. Bên trong một trung tâm dữ liệu, quá trình huấn luyện được chia nhỏ để có thể chạy trên các GPU khác nhau, sau đó định kỳ được gộp lại thành một mô hình chính.
Phương pháp mới cho phép công việc thường được thực hiện bên trong các trung tâm dữ liệu lớn nay có thể được thực hiện trên phần cứng có thể cách xa nhau hàng dặm và kết nối qua Internet với tốc độ chậm hoặc không ổn định.
Một số công ty lớn cũng đang khám phá học tập phân tán. Năm ngoái, các nhà nghiên cứu của Google đã trình bày một sơ đồ chia nhỏ và hợp nhất tính toán mới gọi là DIstributed PAth COmposition (DiPaCo), giúp học tập phân tán hiệu quả hơn.
Để xây dựng Collective-1 và các LLM khác, Lane cùng các cộng sự học thuật tại Anh và Trung Quốc đã phát triển một công cụ mới có tên Photon, giúp việc huấn luyện phân tán hiệu quả hơn. Lane cho biết Photon hiệu quả hơn phương pháp của Google trong việc biểu diễn, chia sẻ và hợp nhất dữ liệu huấn luyện. Quá trình này chậm hơn huấn luyện thông thường nhưng linh hoạt hơn, cho phép thêm phần cứng mới để tăng tốc độ huấn luyện.
Photon được phát triển thông qua hợp tác với các nhà nghiên cứu từ Đại học Bưu điện Bắc Kinh và Đại học Chiết Giang. Nhóm đã phát hành công cụ này theo giấy phép mã nguồn mở vào tháng trước, cho phép bất kỳ ai cũng có thể sử dụng phương pháp này.
Flower AI hợp tác với Vana trong nỗ lực xây dựng Collective-1, công ty đang phát triển các phương pháp mới để người dùng chia sẻ dữ liệu cá nhân với các nhà phát triển AI. Phần mềm của Vana cho phép người dùng đóng góp dữ liệu riêng tư từ các nền tảng như X và Reddit để huấn luyện mô hình ngôn ngữ lớn, và thậm chí có thể chỉ định mục đích sử dụng cuối cùng hoặc kiếm lợi nhuận từ đóng góp của họ.
Anna Kazlauskas, đồng sáng lập Vana, cho biết mục tiêu là làm cho các loại dữ liệu chưa được khai thác có thể dùng để huấn luyện AI, đồng thời trao cho người dùng nhiều quyền kiểm soát hơn về cách thông tin của họ được sử dụng trong AI. “Những dữ liệu này thường không thể đưa vào mô hình AI vì chúng không công khai,” Kazlauskas nói, “đây là lần đầu tiên dữ liệu do người dùng trực tiếp đóng góp được dùng để huấn luyện mô hình nền tảng, và người dùng sở hữu AI được tạo ra từ dữ liệu của họ.”
Mirco Musolesi, nhà khoa học máy tính tại University College London, cho rằng một lợi ích quan trọng của đào tạo AI phân tán có thể là mở khóa các loại dữ liệu mới. “Việc mở rộng nó sang các mô hình hàng đầu sẽ cho phép ngành AI tận dụng lượng lớn dữ liệu phi tập trung và nhạy cảm về quyền riêng tư, ví dụ như trong lĩnh vực y tế và tài chính để huấn luyện, mà không phải đối mặt với rủi ro do tập trung hóa dữ liệu,” ông nói.
Bạn nghĩ gì về học máy phân tán?
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












