
Foresight Ventures: Phân tích và suy ngẫm về mạng lưới điện toán phi tập trung
Tuyển chọn TechFlowTuyển chọn TechFlow

Foresight Ventures: Phân tích và suy ngẫm về mạng lưới điện toán phi tập trung
Dưới xu hướng phát triển của các mô hình lớn AI, tài nguyên sức mạnh tính toán sẽ là chiến trường lớn trong thập kỷ tới, đồng thời cũng là thứ quan trọng nhất đối với xã hội loài người trong tương lai.
Tác giả: Yihan@Foresight Ventures
Tóm tắt
-
Hiện tại, việc kết hợp AI và Crypto chủ yếu tập trung vào hai hướng lớn: tính toán phân tán và ZKML; về ZKML có thể tham khảo bài viết trước đây của tôi. Bài viết này sẽ tập trung phân tích và suy ngẫm về mạng lưới tính toán phân tán phi tập trung.
-
Trong xu thế phát triển của các mô hình lớn AI, nguồn lực tính toán sẽ là chiến trường lớn tiếp theo trong thập kỷ tới, đồng thời cũng là thứ quan trọng nhất cho xã hội loài người trong tương lai, và không chỉ dừng lại ở cạnh tranh thương mại mà còn trở thành tài nguyên chiến lược trong cuộc cạnh tranh giữa các cường quốc. Trong tương lai, đầu tư vào cơ sở hạ tầng tính toán hiệu suất cao và dự trữ năng lực tính toán sẽ tăng theo cấp số nhân.
-
Mạng lưới tính toán phân tán phi tập trung có nhu cầu lớn nhất trong việc huấn luyện mô hình AI lớn, nhưng cũng đối mặt với những thách thức và nút thắt kỹ thuật lớn nhất. Bao gồm các vấn đề phức tạp như đồng bộ dữ liệu và tối ưu hóa mạng. Ngoài ra, quyền riêng tư và bảo mật dữ liệu cũng là những yếu tố hạn chế quan trọng. Mặc dù hiện đã có một số công nghệ hỗ trợ giải pháp ban đầu, nhưng trong các nhiệm vụ huấn luyện phân tán quy mô lớn, do chi phí tính toán và truyền thông khổng lồ nên các công nghệ này vẫn chưa thể áp dụng được.
-
Mạng lưới tính toán phân tán phi tập trung có tiềm năng triển khai thực tế tốt hơn trong suy luận mô hình, và không gian tăng trưởng trong tương lai cũng rất lớn. Tuy nhiên, nó cũng đối diện với các thách thức như độ trễ truyền thông, quyền riêng tư dữ liệu, an toàn mô hình. So với huấn luyện mô hình, độ phức tạp tính toán và mức độ trao đổi dữ liệu khi suy luận thấp hơn, phù hợp hơn để thực hiện trong môi trường phân tán.
-
Thông qua hai ví dụ khởi nghiệp Together và Gensyn.ai, bài viết minh họa định hướng nghiên cứu tổng thể và các ý tưởng cụ thể của mạng lưới tính toán phân tán phi tập trung từ hai góc độ: tối ưu hóa kỹ thuật và thiết kế lớp kích thích.
Tính toán phân tán — Huấn luyện mô hình lớn
Khi thảo luận về ứng dụng của năng lực tính toán phân tán trong huấn luyện, chúng ta thường tập trung vào huấn luyện mô hình ngôn ngữ lớn, lý do chính là vì việc huấn luyện mô hình nhỏ không đòi hỏi nhiều năng lực tính toán, và để thực hiện phân tán thì phải giải quyết hàng loạt vấn đề kỹ thuật như bảo mật dữ liệu, điều này không đáng so với lợi ích, nên tốt hơn hết là giải quyết theo cách tập trung. Trong khi đó, mô hình ngôn ngữ lớn đòi hỏi lượng tính toán khổng lồ, hiện đang ở giai đoạn bùng nổ ban đầu, từ năm 2012 đến 2018, nhu cầu tính toán cho AI tăng gấp đôi khoảng mỗi 4 tháng, hiện tại nhu cầu về năng lực tính toán càng trở nên tập trung, có thể dự đoán rằng trong 5–8 năm tới vẫn sẽ duy trì mức tăng trưởng mạnh mẽ.
Bên cạnh cơ hội to lớn, chúng ta cũng cần nhìn rõ các vấn đề. Ai cũng biết thị trường rộng lớn, nhưng rốt cuộc thách thức cụ thể nằm ở đâu? Ai có thể xác định đúng các vấn đề này thay vì tham gia mù quáng mới là chìa khóa để đánh giá một dự án xuất sắc trong lĩnh vực này.

(Khung NVIDIA NeMo Megatron)
1. Quy trình huấn luyện tổng thể
Lấy ví dụ huấn luyện một mô hình lớn với 175 tỷ tham số. Do quy mô mô hình rất lớn, cần tiến hành huấn luyện song song trên nhiều thiết bị GPU. Giả sử có một trung tâm dữ liệu tập trung, với 100 GPU, mỗi thiết bị có bộ nhớ 32 GB.
-
Chuẩn bị dữ liệu: Trước tiên cần có một tập dữ liệu khổng lồ, bao gồm thông tin Internet, tin tức, sách v.v. Trước khi huấn luyện cần xử lý dữ liệu này, bao gồm làm sạch văn bản, mã hóa (tokenization), xây dựng bảng từ v.v.
-
Phân chia dữ liệu: Dữ liệu sau xử lý sẽ được chia thành nhiều batch để xử lý song song trên nhiều GPU. Giả sử chọn kích thước batch là 512, nghĩa là mỗi batch chứa 512 chuỗi văn bản. Sau đó, toàn bộ tập dữ liệu được chia thành nhiều batch, tạo thành một hàng đợi batch.
-
Truyền dữ liệu giữa các thiết bị: Khi bắt đầu mỗi bước huấn luyện, CPU lấy một batch từ hàng đợi, sau đó gửi dữ liệu batch này qua bus PCIe đến GPU. Giả sử độ dài trung bình của mỗi chuỗi văn bản là 1024 token, thì kích thước dữ liệu mỗi batch khoảng 512 * 1024 * 4 B = 2 MB (giả sử mỗi token dùng 4 byte biểu diễn số thực độ chính xác đơn). Quá trình truyền dữ liệu này thường chỉ mất vài mili giây.
-
Đào tạo song song: Mỗi thiết bị GPU nhận được dữ liệu sẽ bắt đầu tính toán lan truyền thuận (forward pass) và lan truyền ngược (backward pass), tính gradient cho từng tham số. Vì mô hình rất lớn, bộ nhớ của một GPU đơn lẻ không thể lưu trữ tất cả tham số, do đó chúng ta sử dụng kỹ thuật song song mô hình để phân phối tham số mô hình lên nhiều GPU.
-
Tổng hợp gradient và cập nhật tham số: Sau khi hoàn thành tính toán lan truyền ngược, mỗi GPU đều có gradient của một phần tham số. Sau đó, các gradient này cần được tổng hợp trên tất cả các thiết bị GPU để tính gradient toàn cục. Việc này yêu cầu truyền dữ liệu qua mạng, giả sử dùng mạng 25 Gbps, thì truyền 700 GB dữ liệu (giả sử mỗi tham số dùng số thực độ chính xác đơn, 175 tỷ tham số khoảng 700 GB) mất khoảng 224 giây. Sau đó, mỗi GPU cập nhật tham số mà nó lưu trữ dựa trên gradient toàn cục.
-
Đồng bộ: Sau khi cập nhật tham số, tất cả các thiết bị GPU cần đồng bộ để đảm bảo chúng đều sử dụng tham số mô hình nhất quán cho bước huấn luyện tiếp theo. Việc này cũng cần truyền dữ liệu qua mạng.
-
Lặp lại các bước huấn luyện: Lặp lại các bước trên cho đến khi hoàn thành huấn luyện tất cả các batch hoặc đạt số epoch định trước.
Quá trình này liên quan đến lượng lớn truyền dữ liệu và đồng bộ, có thể trở thành nút thắt ảnh hưởng đến hiệu quả huấn luyện. Do đó, việc tối ưu băng thông và độ trễ mạng, cùng với sử dụng các chiến lược song song và đồng bộ hiệu quả, rất quan trọng đối với huấn luyện mô hình quy mô lớn.
2. Nút thắt chi phí truyền thông:
Cần lưu ý rằng, nút thắt truyền thông cũng là lý do khiến hiện tại mạng tính toán phân tán không thể thực hiện huấn luyện mô hình ngôn ngữ lớn.
Các nút cần thường xuyên trao đổi thông tin để phối hợp công việc, dẫn đến chi phí truyền thông. Với mô hình ngôn ngữ lớn, vấn đề này đặc biệt nghiêm trọng do số lượng tham số khổng lồ. Chi phí truyền thông bao gồm các khía cạnh sau:
-
Truyền dữ liệu: Trong quá trình huấn luyện, các nút cần thường xuyên trao đổi thông tin tham số mô hình và gradient. Điều này yêu cầu truyền khối lượng dữ liệu lớn qua mạng, tiêu tốn nhiều băng thông. Nếu điều kiện mạng kém hoặc khoảng cách giữa các nút tính toán lớn, độ trễ truyền dữ liệu sẽ rất cao, làm tăng thêm chi phí truyền thông.
-
Vấn đề đồng bộ: Các nút cần phối hợp để đảm bảo huấn luyện diễn ra đúng. Điều này yêu cầu thực hiện thường xuyên các thao tác đồng bộ giữa các nút, chẳng hạn như cập nhật tham số mô hình, tính gradient toàn cục v.v. Những thao tác đồng bộ này cần truyền dữ liệu lớn qua mạng và phải chờ tất cả các nút hoàn thành thao tác, gây ra chi phí truyền thông và thời gian chờ đợi lớn.
-
Tích lũy và cập nhật gradient: Trong quá trình huấn luyện, các nút cần tính gradient riêng và gửi đến các nút khác để tích lũy và cập nhật. Việc này yêu cầu truyền dữ liệu gradient lớn qua mạng và phải chờ tất cả các nút hoàn thành tính toán và truyền gradient, đây cũng là nguyên nhân gây ra chi phí truyền thông lớn.
-
Tính nhất quán dữ liệu: Cần đảm bảo tham số mô hình tại các nút luôn nhất quán. Điều này yêu cầu thực hiện thường xuyên các thao tác kiểm tra và đồng bộ dữ liệu giữa các nút, dẫn đến chi phí truyền thông lớn.
Mặc dù có một số phương pháp giảm chi phí truyền thông như nén tham số và gradient, chiến lược song song hiệu quả v.v., nhưng những phương pháp này có thể gây thêm gánh nặng tính toán hoặc ảnh hưởng tiêu cực đến hiệu quả huấn luyện mô hình. Hơn nữa, những phương pháp này cũng không thể giải quyết hoàn toàn vấn đề chi phí truyền thông, đặc biệt trong điều kiện mạng kém hoặc khoảng cách lớn giữa các nút tính toán.
Lấy một ví dụ:
Mạng tính toán phân tán phi tập trung
Mô hình GPT-3 có 175 tỷ tham số, nếu dùng số thực độ chính xác đơn (mỗi tham số 4 byte) để biểu diễn các tham số này, thì cần khoảng 700 GB bộ nhớ để lưu trữ. Trong huấn luyện phân tán, các tham số này cần được truyền và cập nhật thường xuyên giữa các nút tính toán.
Giả sử có 100 nút tính toán, mỗi nút tại mỗi bước cần cập nhật tất cả các tham số, thì mỗi bước cần truyền khoảng 70 TB (700 GB × 100) dữ liệu. Nếu giả định mỗi bước mất 1 giây (giả định rất lạc quan), thì mỗi giây cần truyền 70 TB dữ liệu. Nhu cầu băng thông này đã vượt xa hầu hết các mạng hiện tại, và là vấn đề khả thi.
Trong thực tế, do độ trễ truyền thông và tắc nghẽn mạng, thời gian truyền dữ liệu có thể lâu hơn 1 giây rất nhiều. Điều này có nghĩa là các nút tính toán có thể dành phần lớn thời gian chờ truyền dữ liệu thay vì thực hiện tính toán thực sự. Điều này sẽ làm giảm nghiêm trọng hiệu quả huấn luyện, và sự giảm hiệu quả này không phải là chuyện chờ đợi một chút là giải quyết được, mà là ranh giới giữa khả thi và không khả thi, khiến toàn bộ quá trình huấn luyện trở nên bất khả thi.
Trung tâm dữ liệu tập trung
Ngay cả trong môi trường trung tâm dữ liệu tập trung, huấn luyện mô hình lớn vẫn cần tối ưu hóa truyền thông nghiêm trọng.
Trong môi trường trung tâm dữ liệu tập trung, các thiết bị tính toán hiệu suất cao hoạt động như một cụm, kết nối qua mạng tốc độ cao để chia sẻ nhiệm vụ tính toán. Tuy nhiên, ngay cả trong môi trường mạng tốc độ cao này, chi phí truyền thông vẫn là một nút thắt khi huấn luyện các mô hình có số lượng tham số rất lớn, bởi vì tham số và gradient của mô hình cần được truyền và cập nhật thường xuyên giữa các thiết bị tính toán.
Như đã đề cập ban đầu, giả sử có 100 nút tính toán, mỗi máy chủ có băng thông mạng 25 Gbps. Nếu mỗi máy chủ tại mỗi bước huấn luyện cần cập nhật tất cả các tham số, thì mỗi bước huấn luyện cần truyền khoảng 700 GB dữ liệu, mất khoảng 224 giây. Nhờ lợi thế của trung tâm dữ liệu tập trung, các nhà phát triển có thể tối ưu hóa bố trí mạng bên trong trung tâm dữ liệu và sử dụng các công nghệ như song song mô hình để giảm đáng kể thời gian này.
Ngược lại, nếu thực hiện huấn luyện tương tự trong môi trường phân tán, giả sử vẫn là 100 nút tính toán, phân bố khắp nơi trên thế giới, mỗi nút có băng thông mạng trung bình chỉ 1 Gbps. Trong trường hợp này, việc truyền 700 GB dữ liệu tương tự cần khoảng 5600 giây, lâu hơn nhiều so với trong trung tâm dữ liệu tập trung. Hơn nữa, do độ trễ và tắc nghẽn mạng, thời gian thực tế cần có thể còn lâu hơn.
So sánh với tình trạng trong mạng tính toán phân tán, việc tối ưu chi phí truyền thông trong môi trường trung tâm dữ liệu tập trung tương đối dễ dàng hơn. Bởi vì trong trung tâm dữ liệu tập trung, các thiết bị tính toán thường kết nối vào cùng một mạng tốc độ cao, băng thông và độ trễ mạng tương đối tốt. Trong khi đó, trong mạng tính toán phân tán, các nút tính toán có thể phân bố khắp nơi trên thế giới, điều kiện mạng có thể tương đối kém, khiến vấn đề chi phí truyền thông trở nên nghiêm trọng hơn.
OpenAI khi huấn luyện GPT-3 đã sử dụng một khuôn khổ song song mô hình tên là Megatron để giải quyết vấn đề chi phí truyền thông. Megatron chia nhỏ tham số mô hình và xử lý song song trên nhiều GPU, mỗi thiết bị chỉ chịu trách nhiệm lưu trữ và cập nhật một phần tham số, từ đó giảm lượng tham số mà mỗi thiết bị cần xử lý, hạ thấp chi phí truyền thông. Đồng thời, trong quá trình huấn luyện cũng sử dụng mạng nội bộ tốc độ cao và tối ưu cấu trúc mạng để giảm chiều dài đường truyền.

(Dữ liệu dùng để huấn luyện mô hình LLM)
3. Tại sao mạng tính toán phân tán không thể thực hiện các tối ưu hóa này
Về mặt lý thuyết có thể làm, nhưng so với trung tâm dữ liệu tập trung, hiệu quả của các tối ưu hóa này bị hạn chế rất nhiều.
1. Tối ưu hóa bố trí mạng: Trong trung tâm dữ liệu tập trung có thể trực tiếp kiểm soát phần cứng và bố trí mạng, do đó có thể thiết kế và tối ưu hóa bố trí mạng theo nhu cầu. Tuy nhiên, trong môi trường phân tán, các nút tính toán phân bố ở các vị trí địa lý khác nhau, thậm chí một cái ở Trung Quốc, một cái ở Mỹ, không thể kiểm soát trực tiếp kết nối mạng giữa chúng. Mặc dù có thể tối ưu hóa đường truyền dữ liệu bằng phần mềm, nhưng không hiệu quả bằng việc tối ưu hóa mạng phần cứng trực tiếp. Đồng thời, do sự khác biệt về vị trí địa lý, độ trễ mạng và băng thông cũng thay đổi rất lớn, từ đó tiếp tục hạn chế hiệu quả của việc tối ưu hóa bố trí mạng.
2. Song song mô hình: Song song mô hình là một kỹ thuật chia tham số mô hình ra nhiều nút tính toán, tăng tốc độ huấn luyện bằng xử lý song song. Tuy nhiên, phương pháp này thường yêu cầu truyền dữ liệu thường xuyên giữa các nút, do đó đòi hỏi rất cao về băng thông và độ trễ mạng. Trong trung tâm dữ liệu tập trung, do băng thông mạng cao và độ trễ thấp, song song mô hình có thể rất hiệu quả. Tuy nhiên, trong môi trường phân tán, do điều kiện mạng kém, song song mô hình bị hạn chế lớn.
4. Thách thức về an toàn và quyền riêng tư dữ liệu
Gần như mọi khâu liên quan đến xử lý và truyền tải dữ liệu đều có thể ảnh hưởng đến an toàn và quyền riêng tư dữ liệu:
1. Phân phối dữ liệu: Dữ liệu huấn luyện cần được phân phối đến các nút tham gia tính toán. Trong khâu này, dữ liệu có thể bị sử dụng trái phép hoặc rò rỉ tại các nút phân tán.
2. Đào tạo mô hình: Trong quá trình huấn luyện, mỗi nút sẽ sử dụng dữ liệu được phân bổ để tính toán, sau đó đưa ra cập nhật tham số mô hình hoặc gradient. Trong quá trình này, nếu quá trình tính toán của nút bị đánh cắp hoặc kết quả bị phân tích độc hại, dữ liệu cũng có thể bị rò rỉ.
3. Tổng hợp tham số và gradient: Đầu ra từ các nút cần được tổng hợp để cập nhật mô hình toàn cục, quá trình truyền thông này cũng có thể tiết lộ thông tin về dữ liệu huấn luyện.
Có những giải pháp nào cho vấn đề quyền riêng tư dữ liệu?
-
Tính toán đa bên an toàn (SMC): SMC đã được áp dụng thành công trong một số nhiệm vụ tính toán quy mô nhỏ, đặc thù. Tuy nhiên, trong các nhiệm vụ huấn luyện phân tán quy mô lớn, do chi phí tính toán và truyền thông lớn, hiện chưa được áp dụng rộng rãi.
-
Riêng tư vi sai (DP): Được áp dụng trong một số nhiệm vụ thu thập và phân tích dữ liệu, như thống kê người dùng Chrome. Tuy nhiên, trong các nhiệm vụ học sâu quy mô lớn, DP có thể ảnh hưởng đến độ chính xác của mô hình. Đồng thời, việc thiết kế cơ chế tạo và thêm nhiễu phù hợp cũng là một thách thức.
-
Học liên kết (FL): Được áp dụng trong một số nhiệm vụ huấn luyện mô hình trên thiết bị biên, ví dụ như dự đoán từ cho bàn phím Android. Tuy nhiên, trong các nhiệm vụ huấn luyện phân tán quy mô lớn hơn, FL đối diện với các vấn đề như chi phí truyền thông lớn, phối hợp phức tạp.
-
Mã hóa đồng dạng (Homomorphic Encryption): Đã được áp dụng thành công trong một số nhiệm vụ có độ phức tạp tính toán nhỏ. Tuy nhiên, trong các nhiệm vụ huấn luyện phân tán quy mô lớn, do chi phí tính toán lớn, hiện chưa được áp dụng rộng rãi.
Tóm lại
Mỗi phương pháp trên đều có phạm vi ứng dụng và hạn chế riêng, không có phương pháp nào có thể hoàn toàn giải quyết vấn đề quyền riêng tư dữ liệu trong huấn luyện mô hình lớn trên mạng tính toán phân tán.
ZK được kỳ vọng cao liệu có thể giải quyết vấn đề quyền riêng tư dữ liệu khi huấn luyện mô hình lớn?
Về lý thuyết, ZKP có thể được dùng để đảm bảo quyền riêng tư dữ liệu trong tính toán phân tán, giúp một nút chứng minh rằng nó đã thực hiện tính toán theo quy định mà không cần tiết lộ dữ liệu đầu vào và đầu ra thực tế.
Tuy nhiên, việc áp dụng ZKP vào kịch bản huấn luyện mô hình lớn trên mạng tính toán phân tán quy mô lớn đối diện với các nút thắt sau:
-
Chi phí tính toán và truyền thông tăng cao: Việc xây dựng và xác minh bằng chứng kiến thức không cần thiết tốn rất nhiều tài nguyên tính toán. Ngoài ra, chi phí truyền thông của ZKP cũng rất lớn, vì cần truyền chính bản thân bằng chứng. Trong trường hợp huấn luyện mô hình lớn, những chi phí này có thể trở nên đặc biệt đáng kể. Ví dụ, nếu mỗi tính toán batch nhỏ đều cần tạo một bằng chứng, thì điều này sẽ làm tăng đáng kể tổng thời gian và chi phí huấn luyện.
-
Độ phức tạp của giao thức ZK: Thiết kế và triển khai một giao thức ZKP phù hợp cho huấn luyện mô hình lớn sẽ rất phức tạp. Giao thức này cần xử lý được dữ liệu quy mô lớn và các phép tính phức tạp, đồng thời cần xử lý được các lỗi ngoại lệ có thể xảy ra.
-
Tương thích phần cứng và phần mềm: Việc sử dụng ZKP cần hỗ trợ phần cứng và phần mềm đặc biệt, điều này có thể không khả dụng trên tất cả các thiết bị tính toán phân tán.
Tóm lại
Để áp dụng ZKP vào huấn luyện mô hình lớn trên mạng tính toán phân tán quy mô lớn, vẫn cần nghiên cứu và phát triển trong nhiều năm, đồng thời cũng cần cộng đồng học thuật dành thêm nhiều công sức và nguồn lực cho hướng này.
Tính toán phân tán — Suy luận mô hình
Một kịch bản lớn khác của năng lực tính toán phân tán là suy luận mô hình. Theo đánh giá của chúng tôi về con đường phát triển mô hình lớn, nhu cầu huấn luyện mô hình sẽ dần chậm lại sau một đỉnh cao khi các mô hình lớn trưởng thành, nhưng nhu cầu suy luận mô hình sẽ tăng theo cấp số nhân tương ứng khi mô hình lớn và AIGC trưởng thành.
Nhiệm vụ suy luận so với nhiệm vụ huấn luyện thường có độ phức tạp tính toán thấp hơn, mức độ trao đổi dữ liệu yếu hơn, phù hợp hơn để thực hiện trong môi trường phân tán.

(Sức mạnh suy luận LLM với NVIDIA Triton)
1. Thách thức
Độ trễ truyền thông:
Trong môi trường phân tán, việc truyền thông giữa các nút là điều cần thiết. Trong mạng tính toán phân tán phi tập trung, các nút có thể trải rộng toàn cầu, do đó độ trễ mạng sẽ là một vấn đề, đặc biệt đối với các nhiệm vụ suy luận cần phản hồi thời gian thực.
Triển khai và cập nhật mô hình:
Mô hình cần được triển khai lên các nút. Nếu mô hình được cập nhật, thì mỗi nút đều cần cập nhật mô hình của mình, điều này tiêu tốn nhiều băng thông mạng và thời gian.
Quyền riêng tư dữ liệu:
Mặc dù nhiệm vụ suy luận thường chỉ cần dữ liệu đầu vào và mô hình, không cần trả lại lượng lớn dữ liệu trung gian và tham số, nhưng dữ liệu đầu vào vẫn có thể chứa thông tin nhạy cảm, ví dụ như thông tin cá nhân người dùng.
An toàn mô hình:
Trong mạng phi tập trung, mô hình cần được triển khai lên các nút không đáng tin cậy, điều này có thể dẫn đến rò rỉ mô hình, gây ra vấn đề sở hữu trí tuệ và lạm dụng mô hình. Điều này cũng có thể gây ra các vấn đề an ninh và quyền riêng tư, nếu một mô hình được dùng để xử lý dữ liệu nhạy cảm, nút có thể suy luận thông tin nhạy cảm bằng cách phân tích hành vi mô hình.
Kiểm soát chất lượng:
Mỗi nút trong mạng tính toán phân tán phi tập trung có thể có năng lực tính toán và tài nguyên khác nhau, điều này có thể khiến hiệu suất và chất lượng nhiệm vụ suy luận khó được đảm bảo.
2. Khả thi
Độ phức tạp tính toán:
Trong giai đoạn huấn luyện, mô hình cần lặp đi lặp lại nhiều lần, trong quá trình huấn luyện cần tính toán lan truyền thuận và lan truyền ngược cho từng tầng, bao gồm tính toán hàm kích hoạt, hàm tổn thất, gradient và cập nhật trọng số. Do đó, độ phức tạp tính toán của huấn luyện mô hình cao.
Trong giai đoạn suy luận, chỉ cần một lần tính toán lan truyền thuận để đưa ra kết quả dự đoán. Ví dụ, trong GPT-3, cần chuyển văn bản đầu vào thành vector, sau đó thực hiện lan truyền thuận qua các tầng của mô hình (thường là các tầng Transformer), cuối cùng nhận được phân bố xác suất đầu ra và dựa vào phân bố này để sinh từ tiếp theo. Trong GANs, mô hình cần sinh một bức ảnh dựa trên vector nhiễu đầu vào. Các thao tác này chỉ liên quan đến lan truyền thuận của mô hình, không cần tính gradient hay cập nhật tham số, độ phức tạp tính toán thấp.
Tính tương tác dữ liệu:
Trong giai đoạn suy luận, mô hình thường xử lý từng đầu vào đơn lẻ, chứ không phải dữ liệu batch lớn như trong huấn luyện. Kết quả suy luận mỗi lần cũng chỉ phụ thuộc vào đầu vào hiện tại, không phụ thuộc vào các đầu vào hoặc đầu ra khác, do đó không cần trao đổi dữ liệu lớn, áp lực truyền thông cũng nhẹ hơn.
Lấy mô hình sinh ảnh làm ví dụ, giả sử chúng ta dùng GANs để sinh ảnh, chúng ta chỉ cần đưa một vector nhiễu vào mô hình, sau đó mô hình sẽ sinh ra một bức ảnh tương ứng. Trong quá trình này, mỗi đầu vào chỉ sinh ra một đầu ra, các đầu ra không phụ thuộc lẫn nhau, do đó không cần trao đổi dữ liệu.
Lấy GPT-3 làm ví dụ, mỗi lần sinh từ tiếp theo chỉ cần văn bản đầu vào hiện tại và trạng thái mô hình, không cần tương tác với các đầu vào hoặc đầu ra khác, do đó yêu cầu về tính tương tác dữ liệu cũng yếu.
Tóm lại
Cho dù là mô hình ngôn ngữ lớn hay mô hình sinh ảnh, nhiệm vụ suy luận đều có độ phức tạp tính toán và tính tương tác dữ liệu tương đối thấp, phù hợp hơn để thực hiện trong mạng tính toán phân tán phi tập trung, đây cũng là hướng mà hiện nay chúng ta thấy nhiều dự án đang dồn sức.
Dự án
Mạng tính toán phân tán phi tập trung có ngưỡng kỹ thuật và độ rộng kỹ thuật rất cao, đồng thời cũng cần sự hỗ trợ của tài nguyên phần cứng, do đó hiện nay chúng ta chưa thấy nhiều nỗ lực thử nghiệm. Lấy Together và Gensyn.ai làm ví dụ:
1. Together

(RedPajama từ Together)
Together là một công ty chuyên về mở nguồn mô hình lớn, cam kết với giải pháp năng lực AI phi tập trung, mong muốn bất kỳ ai ở bất kỳ đâu đều có thể tiếp cận và sử dụng AI. Together vừa huy động thành công vòng hạt giống 20 triệu USD do Lux Capital dẫn dắt.
Together do Chris, Percy, Ce đồng sáng lập, xuất phát điểm là do huấn luyện mô hình lớn cần cụm GPU cao cấp và chi phí đắt đỏ, đồng thời các nguồn lực này và khả năng huấn luyện mô hình cũng tập trung ở một số ít công ty lớn.
Theo quan điểm của tôi, một kế hoạch khởi nghiệp hợp lý về năng lực tính toán phân tán nên là:
Bước 1. Mở nguồn mô hình
Để thực hiện suy luận mô hình trong mạng tính toán phân tán phi tập trung, điều kiện tiên quyết là các nút phải có thể tiếp cận mô hình với chi phí thấp, nghĩa là mô hình sử dụng mạng tính toán phân tán cần phải mở nguồn (nếu mô hình cần sử dụng dưới giấy phép nhất định, sẽ làm tăng độ phức tạp và chi phí triển khai). Ví dụ, chatgpt là mô hình không mở nguồn, không phù hợp để thực hiện trên mạng tính toán phân tán phi tập trung.
Do đó, có thể suy luận rằng rào cản ngầm của một công ty cung cấp mạng tính toán phân tán là cần có khả năng phát triển và duy trì mô hình lớn mạnh mẽ. Tự nghiên cứu và mở nguồn một mô hình nền tảng mạnh có thể phần nào thoát khỏi sự phụ thuộc vào việc mở nguồn mô hình bên thứ ba, giải quyết vấn đề cơ bản nhất của mạng tính toán phân tán. Đồng thời cũng thuận lợi hơn trong việc chứng minh mạng tính toán có thể thực hiện hiệu quả việc huấn luyện và suy luận mô hình lớn.
Và Together cũng đang làm điều này. RedPajama gần đây được công bố dựa trên LLaMA, do Together, Ontocord.ai, ETH DS 3 Lab, Stanford CRFM và Hazy Research cùng khởi xướng, mục tiêu là phát triển một loạt mô hình ngôn ngữ lớn hoàn toàn mở nguồn.
Bước 2. Triển khai năng lực tính toán phân tán trong suy luận mô hình
Như đã đề cập ở hai phần trên, so với huấn luyện mô hình, suy luận mô hình có độ phức tạp tính toán và tính tương tác dữ liệu thấp hơn, phù hợp hơn để thực hiện trong môi trường phân tán phi tập trung.
Trên cơ sở mô hình mở nguồn, nhóm nghiên cứu của Together đã thực hiện một loạt cập nhật cho mô hình RedPajama-INCITE-3B, ví dụ như sử dụng LoRA để tinh chỉnh với chi phí thấp, giúp mô hình chạy mượt hơn trên CPU (đặc biệt là MacBook Pro dùng chip M2 Pro). Đồng thời, mặc dù quy mô mô hình nhỏ, nhưng khả năng của nó vượt trội hơn các mô hình cùng quy mô khác, và đã được ứng dụng thực tế trong các lĩnh vực như pháp lý, xã hội v.v.
Bước 3. Triển khai năng lực tính toán phân tán trong huấn luyện mô hình

(Sơ đồ mạng tính toán trong bài báo "Overcoming Communication Bottlenecks for Decentralized Training")
Trong trung và dài hạn, mặc dù đối mặt với thách thức lớn và nút thắt kỹ thuật, đáp ứng nhu cầu tính toán cho huấn luyện mô hình lớn AI chắc chắn là hấp dẫn nhất. Together ngay từ khi thành lập đã bắt đầu định hướng nghiên cứu cách khắc phục nút thắt truyền thông trong huấn luyện phi tập trung. Họ cũng đã công bố bài báo liên quan tại NeurIPS 2022: Overcoming Communication Bottlenecks for Decentralized Training. Chúng ta có thể khái quát các hướng chính sau:
Tối ưu hóa lập lịch
Khi huấn luyện trong môi trường phi tập trung, do các kết nối giữa các nút có độ trễ và băng thông khác nhau, nên việc phân bổ các nhiệm vụ cần truyền thông nặng cho các thiết bị có kết nối nhanh là rất quan trọng. Together xây dựng mô hình để mô tả chi phí của chiến lược lập lịch cụ thể, từ đó tối ưu hóa chiến lược lập lịch tốt hơn nhằm giảm thiểu chi phí truyền thông và tối đa hóa thông lượng huấn luyện. Nhóm Together cũng phát hiện ra rằng, ngay cả khi mạng chậm hơn 100 lần, thông lượng huấn luyện end-to-end cũng chỉ chậm hơn 1,7 đến 2,3 lần. Do đó, việc thu hẹp khoảng cách giữa mạng phân tán và cụm tập trung thông qua tối ưu hóa lập lịch là hoàn toàn khả thi.
Tối ưu hóa nén truyền thông
Together đề xuất nén truyền thông cho kích hoạt tiến và gradient ngược, đưa ra thuật toán AQ-SGD, cung cấp đảm bảo nghiêm ngặt về hội tụ cho SGD ngẫu nhiên. AQ-SGD có thể tinh chỉnh mô hình nền lớn trên mạng chậm (ví dụ 500 Mbps), so với hiệu suất huấn luyện end-to-end trên mạng tính toán tập trung (ví dụ 10 Gbps) không nén, chỉ chậm hơn 31%. Ngoài ra, AQ-SGD còn có thể kết hợp với các công nghệ nén gradient tiên tiến nhất (ví dụ QuantizedAdam) để đạt được cải thiện tốc độ end-to-end 10%.
Tóm tắt dự án
Đội ngũ Together rất toàn diện, các thành viên đều có nền tảng học thuật rất mạnh, được hỗ trợ bởi các chuyên gia ngành từ phát triển mô hình lớn, điện toán đám mây đến tối ưu hóa phần cứng. Đồng thời, Together thực sự thể hiện tầm nhìn dài hạn kiên nhẫn trong định hướng phát triển, từ nghiên cứu phát triển mô hình lớn mở nguồn, thử nghiệm năng lực tính toán nhàn rỗi (ví dụ Mac) trong mạng tính toán phân tán cho suy luận mô hình, đến định hướng năng lực tính toán phân tán trong huấn luyện mô hình lớn. Có cảm giác tích tiểu thành đại :)
Tuy nhiên, hiện tại chưa thấy Together có nhiều thành quả nghiên cứu về lớp kích thích, tôi cho rằng điều này quan trọng ngang với nghiên cứu kỹ thuật, là yếu tố then chốt đảm bảo sự phát triển của mạng tính toán phân tán phi tập trung.
2. Gensyn.ai

(Gensyn.ai)
Từ con đường kỹ thuật của Together, chúng ta có thể hiểu sơ bộ quá trình triển khai mạng tính toán phi tập trung trong huấn luyện và suy luận mô hình cũng như các trọng tâm nghiên cứu tương ứng.
Một điểm trọng tâm khác không thể bỏ qua là thiết kế lớp kích thích/mô hình đồng thuận của mạng tính toán, ví dụ một mạng tốt cần có:
1. Đảm bảo lợi nhuận đủ hấp dẫn;
2. Đảm bảo mỗi thợ đào nhận được lợi nhuận xứng đáng, bao gồm chống gian lận và đa lao đa đắc;
3. Đảm bảo nhiệm vụ được phân bổ và sắp xếp hợp lý giữa các nút, tránh tình trạng nhiều nút nhàn rỗi hoặc một số nút quá tải;
4. Thuật toán kích thích đơn giản, hiệu quả, không gây thêm gánh nặng hệ thống và độ trễ quá mức;
Hãy xem Gensyn.ai làm như thế nào:
-
Trở thành nút
Trước tiên, các solver trong mạng tính toán cạnh tranh quyền xử lý nhiệm vụ do người dùng gửi bằng cách đấu giá (bid), đồng thời tùy theo quy mô nhiệm vụ và rủi ro bị phát hiện gian lận, solver cần đặt cọc một khoản tiền nhất định.
-
Xác minh
Solver khi cập nhật tham số đồng thời tạo nhiều điểm kiểm tra (checkpoints) (đảm bảo tính minh bạch và truy xuất nguồn gốc công việc), đồng thời định kỳ tạo các bằng chứng mã hóa mật mã học về nhiệm vụ (proofs về tiến độ công việc);
Khi solver hoàn thành công việc và tạo ra một phần kết quả tính toán, giao thức sẽ chọn một verifier, verifier cũng cần đặt cọc một khoản tiền (đảm bảo verifier thực hiện xác minh trung thực), và dựa trên các proofs nêu trên để quyết định cần xác minh phần nào của kết quả tính toán.
-
Nếu solver và verifier bất đồng
Thông qua cấu trúc dữ liệu dựa trên cây Merkle, xác định chính xác vị trí có sự khác biệt trong kết quả tính toán. Toàn bộ thao tác xác minh sẽ được ghi vào
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














