
Hướng dẫn thực hành Kuzco (môn đồ của a16z) 2: Từ tác chiến đơn lẻ đến triển khai tập trung
Tuyển chọn TechFlowTuyển chọn TechFlow

Hướng dẫn thực hành Kuzco (môn đồ của a16z) 2: Từ tác chiến đơn lẻ đến triển khai tập trung
Hiện tại còn nửa tháng chuẩn bị trước khi Epoch Two bắt đầu.
Tác giả: J1N, Techub News
Giới thiệu: Từ Epoch One sang Epoch Two
Kuzco là một mạng lưới khai thác chuyên cung cấp năng lực tính toán cho các mô hình ngôn ngữ lớn (LLM). Dự án này đã được chọn vào chương trình tăng tốc khởi nghiệp tiền mã hóa CSX (Crypto Startup Accelerator) do a16z tổ chức tại New York vào ngày 9 tháng 9, và sẽ nhận được khoản đầu tư tối thiểu 500.000 USD từ a16z cùng với sự hỗ trợ và hướng dẫn từ đội ngũ vận hành của họ. Hiện tại, chương trình tăng tốc đã kết thúc.
Vào ngày 16 tháng 11, Kuzco thông báo rằng giai đoạn khuyến khích đầu tiên (Epoch One) sẽ chính thức kết thúc vào ngày 18 tháng 11 năm 2024, mọi hoạt động sẽ tạm dừng, dữ liệu snapshot sẽ được lưu trữ vĩnh viễn, và bảng xếp hạng điểm số cuối cùng sẽ được công bố trên bảng xếp hạng mới.
Theo tiết lộ chính thức, Epoch One được ra mắt từ ngày 6 tháng 3 năm 2024, đạt đỉnh với hơn 8.000 thiết bị, chạy mô hình ngôn ngữ lớn Llama-3 phiên bản 8B do Meta phát hành trên mạng lưới, thực hiện tổng cộng hơn 1 nghìn tỷ tokens suy luận.
Dự án cũng thông báo rằng trong vài tuần tới sẽ công bố thông tin huy động vốn và lộ trình phát triển, đồng thời giai đoạn hai (Epoch Two) sẽ bắt đầu vào ngày 9 tháng 12. Epoch Two sẽ mang đến một số tính năng mới như: hiệu suất xử lý và độ tin cậy cao hơn đối với phần cứng NVIDIA; khuyến khích người dùng kết nối các thiết bị tính toán hàng đầu như A100 và H100; hỗ trợ thêm nhiều mô hình tạo ảnh và mô hình ngôn ngữ đa phương thức (VLM).
Hiện tại còn khoảng nửa tháng chuẩn bị trước khi Epoch Two khởi động. Bài viết này sẽ tập trung phân tích:
-
Chia sẻ trải nghiệm và thành quả khai thác cá nhân, từ mô hình đơn lẻ đến cụm máy (cluster).
-
Trình bày toàn bộ quá trình nghiên cứu, thực tiễn để huy động vốn và xây dựng máy cấu hình cao.
-
Thảo luận về sự phù hợp giữa cấu hình phần cứng và yêu cầu dự án, đồng thời giải đáp những thắc mắc phổ biến của nhà đầu tư.
Tổng kết Epoch One: Chiến đấu đơn lẻ
Cấu hình
Danh sách thiết bị của tôi bao gồm các card đồ họa RTX 2060, 2070S, 3080, 4060, 4060Ti, cùng 4 card 4070S và 2 thiết bị Apple M2, M3. Những thiết bị này được phân bổ trên nhiều máy chủ, laptop và một máy đào chuyên dụng.
Chi phí
Cần lưu ý rằng các card đồ họa này ban đầu được mua hàng năm theo nhu cầu chơi game chứ không phải dành riêng cho việc đào. Do đó, chi phí mua thiết bị không được tính vào, chỉ tính riêng chi phí điện thực tế. Tôi lấy ví dụ từ bài viết đầu tiên "Hướng dẫn thực tế Kuzco - môn đồ của a16z: Làm thế nào để khai thác năng lực tính toán AI hiệu quả?", với máy đào được lắp ráp như sau:
Cấu hình máy đào:
-
Bo mạch chủ: z490 (sau này thay bằng bo công nghiệp)
-
CPU: I9 thế hệ 10
-
Card đồ họa: 2060, 2070s, 3080, 4060ti, 4070s

Máy đào tự lắp
Hình bên dưới thể hiện lượng điện tiêu thụ của máy đào trong tháng 10 và tháng 11, tổng cộng 564 kWh, nhận được khoảng 600 triệu điểm (KZO Point). Tổng tất cả các máy đạt khoảng 1,1 tỷ điểm. Chi phí điện cụ thể cần tính theo giá điện tại từng khu vực, đây chỉ là tham khảo.


Bên phải hình, tổng cộng nhận được 1 tỷ điểm
Chuẩn bị Epoch Two: Triển khai cụm máy
Dựa trên chia sẻ trong bài viết đầu tiên và kinh nghiệm thực tế phong phú về lắp ráp, điều chỉnh và triển khai môi trường thiết bị, tôi đã thành công trong việc giành được một khoản hỗ trợ tài chính nhất định, toàn bộ được đầu tư để lắp ráp máy đào hiệu suất cao nhằm nâng cao quy mô năng lực tính toán và hiệu quả vận hành.

Từ lắp máy đơn lẻ sang triển khai cụm
Lý do lựa chọn và cấu hình máy cao cấp
Kết hợp kinh nghiệm thực tiễn trong Epoch One, tôi đã tối ưu hóa toàn diện bo mạch chủ, CPU, card đồ họa, nguồn điện, nền tảng và cấu hình mạng, lựa chọn tổ hợp phần cứng phù hợp hơn, không chỉ nâng cao độ ổn định, an toàn và hiệu quả vận hành tổng thể mà còn chú trọng hơn đến tính thanh khoản trên thị trường thứ cấp. Chiến lược này giúp giảm đáng kể chi phí đầu tư thực tế, cung cấp lựa chọn hiệu quả về chi phí cho những người tham gia tiếp theo.

Bo mạch chủ
Tôi chọn bo mạch công nghiệp thay vì bo B85 thông thường, chủ yếu dựa trên đánh giá tổng hợp về hiệu suất, độ ổn định và giá trị hiệu quả.
Về hiệu suất: Chạy mô hình Llama-3 của Kuzco cần khởi động nhiều tiến trình Docker, việc chạy song song các tiến trình này chiếm dụng rất nhiều tài nguyên CPU, đòi hỏi CPU có hiệu suất cao. Trong khi đó, CPU tương thích với B85 không thể đáp ứng yêu cầu này.
Ngoài ra, bo mạch công nghiệp vượt trội rõ rệt về khả năng vận hành ổn định lâu dài, chịu nhiệt tốt và chế độ bảo hành từ nhà sản xuất, đồng thời có tính thanh khoản cao hơn trên thị trường thứ cấp, do đó rõ ràng là lựa chọn tối ưu.
Card đồ họa
Tôi chọn 4070S làm card chính, dựa trên các lý do sau:
Ưu thế về hiệu suất tính toán AI: So với card series 30, hiệu suất cải thiện của series 40 trong tính toán AI lớn hơn nhiều so với cải thiện trong chơi game. Nguyên nhân chính là vì sức mạnh tính toán AI chủ yếu phụ thuộc vào số lượng nhân CUDA trên card đồ họa, trong khi số nhân CUDA của series 40 cao hơn đáng kể so với series 30.
Ưu thế về hiệu suất năng lượng: Tôi đã kiểm tra chi tiết nhiều GPU và tính toán mức tiêu thụ điện trung bình mỗi token:
-
4060Ti (160W): 0,125 Tokens/W
-
3080 (330W): 0,22 Tokens/W
-
4090 (450W): 0,26 Tokens/W
-
4070S (220W): 0,38 Tokens/W
Kết quả thử nghiệm cho thấy 4070S có sự cân bằng tốt nhất giữa hiệu suất và tiêu thụ điện, tỷ lệ hiệu suất năng lượng cao hơn giúp trực tiếp giảm chi phí điện, trở thành lựa chọn hiệu quả chi phí nhất.
Giá cả và tính thanh khoản trên thị trường thứ cấp: Là card tầm trung cao cấp, 4070S có tính thanh khoản và giữ giá tốt trên thị trường thứ cấp, giúp giảm thêm chi phí sở hữu thiết bị, đồng thời mang lại sự linh hoạt cho việc nâng cấp phần cứng sau này.
CPU
Như đã đề cập, khi chạy Llama-3 của Kuzco cần khởi động nhiều Docker, chiếm dụng tài nguyên CPU rất lớn, đặc biệt khi chạy nhiều card, tỷ lệ sử dụng CPU có thể lên tới 80%-90%. Vì vậy, khả năng xử lý đa nhân, đa luồng cực kỳ quan trọng. Một CPU hiệu suất cao, đa luồng, ổn định không chỉ hỗ trợ hiệu quả việc chạy đa nhiệm mà còn đảm bảo sự ổn định và hiệu quả trong suốt quá trình khai thác.


CPU i5 thế hệ 13 khi chạy đầy tải card đồ họa có thể đạt mức sử dụng trên 70%
Môi trường mạng

Router mềm là hộp vuông trong hình
Môi trường mạng cũng cực kỳ quan trọng trong khai thác. Ngay cả khi có card đồ họa hiệu suất cao, nếu mạng chưa được tối ưu thì năng lực tính toán vẫn bị ảnh hưởng nghiêm trọng. Theo thử nghiệm thực tế của tôi, tốc độ mạng không đủ có thể khiến năng lực tính toán giảm xuống còn 30%, trong khi nút mạng chất lượng thấp có thể khiến không thể kết nối vào mạng Kuzco — cả hai vấn đề này đều không thể chấp nhận được trong khai thác. Để giải quyết, tôi sử dụng giải pháp router mềm, cách này không chỉ dễ cấu hình mà còn có thể vận hành hiệu quả gần như không cần can thiệp thủ công sau khi thiết lập, về mặt lý thuyết còn hỗ trợ kết nối vô hạn thiết bị. Về chi tiết thao tác, đề nghị bạn đọc tự tìm hiểu tài liệu liên quan theo nhu cầu.
Nguồn điện

Nguồn "quả bom hạt nhân"长城 2000w cổ điển
Khi chọn nguồn điện cần đặc biệt lưu ý vấn đề công suất đỉnh. Đó là lý do dù 7 card 4070S có công suất định mức chỉ 1540W, tôi vẫn chọn dùng hai nguồn 2000W, tổng công suất lên tới 4000W. Đây không phải là lãng phí tài nguyên mà vì cân nhắc đến sự ổn định và an toàn khi vận hành thiết bị.
Card đồ họa khi vận hành sẽ xuất hiện công suất đỉnh — tức là trong một khoảnh khắc nhất định, công suất thực tế có thể đạt 1,5 lần hoặc hơn công suất định mức, sau đó mới trở lại mức bình thường. Nếu nguồn điện không đủ công suất để xử lý đỉnh này, có thể kích hoạt cơ chế ngắt điện bắt buộc của nguồn, thậm chí gây hỏng card đồ họa. Đây là mối đe dọa chết người đối với máy đào.

Biểu hiện công suất khi chạy 4070s
Lấy 4070S làm ví dụ, mặc dù công suất định mức là 220W nhưng công suất đỉnh có thể vượt quá 400W. Tổng công suất đỉnh của 7 card có thể đạt trên 3000W, do đó việc trang bị hai nguồn 2000W là để đảm bảo vận hành ổn định. Với người dùng dùng nhiều card 4090 càng cần lưu ý: một card 4090 có công suất định mức 450W, công suất đỉnh có thể lên tới 770W. Trong trường hợp nhiều card, chỉ hai nguồn có thể không đủ, lúc này thường cần ba nguồn để đảm bảo hệ thống ổn định.

Biểu hiện công suất khi chạy 4090
Bổ sung
Về các vấn đề như thiết lập BIOS, tương thích phần cứng và quản lý từ xa, tôi sẽ không đi sâu. Trên mạng hiện có rất nhiều hướng dẫn miễn phí, chỉ cần làm theo là có thể giải quyết phần lớn vấn đề. Đề nghị bạn đọc tra cứu và xử lý theo nhu cầu phần cứng và mục đích cụ thể, đơn giản và hiệu quả.
Rủi ro và lợi nhuận
Trả lời câu hỏi được quan tâm nhất: Mỗi ngày đào được bao nhiêu tiền? Thành thật mà nói, câu hỏi này không có câu trả lời rõ ràng, vì rủi ro và lợi nhuận luôn tồn tại song song. Tôi có thể chia sẻ một quan điểm rõ ràng: Dù trong giới tiền mã hóa hay ngành truyền thống, bất kỳ dự án nào nếu có thể tính toán chính xác lợi nhuận hàng ngày, thì khi bạn tham gia có lẽ đã không còn kiếm được nhiều tiền nữa. Trừ khi bạn sở hữu một số nguồn lực độc quyền, ví dụ như chi phí điện cực thấp hoặc thiết bị đào rất rẻ, thì mới có lợi thế về lợi nhuận. Tuy nhiên, những nguồn lực như vậy không phải ai cũng có.
Tôi chọn thiết bị có tính thanh khoản tốt chính là để giảm rủi ro đầu tư và áp lực chi phí. Lấy ví dụ khai thác Kuzco, chi phí chủ yếu nằm ở khấu hao thiết bị và tiền điện, do đó khoản lỗ lớn nhất của bạn cũng chỉ giới hạn ở những chi phí cố định này. Nếu không tham gia dưới điều kiện chi phí thấp, mọi quyết định đầu tư đều mất ý nghĩa. Cần nhấn mạnh rằng đặc tính khai thác "đầu mỏ" quyết định rằng không có kỳ vọng lợi nhuận rõ ràng, nhưng chính điều đó cũng là tiềm năng của việc khai thác đầu mỏ.
Xét về cảm tính, lĩnh vực này có tiềm năng thị trường khổng lồ: một mặt, Kuzco nhận được sự hỗ trợ đầu tư từ a16z; mặt khác, nhu cầu về mô hình ngôn ngữ lớn (LLM) đang mở rộng nhanh chóng. Hãy nghĩ xem, gần như không ai không dùng LLM cả? Các nền tảng như ChatGPT của OpenAI, Llama của Meta, hay XAI của Musk, liên tục huy động vốn với số tiền khổng lồ, minh chứng rõ ràng cho tiềm năng tăng trưởng của ngành.
Đối với người bình thường, tham gia trực tiếp vào ngành AI không dễ dàng. Một mặt, ngưỡng kỹ thuật AI rất cao; mặt khác, huấn luyện mô hình AI đòi hỏi lượng tài nguyên và kinh phí khổng lồ, đại đa số người khó có thể gánh nổi chi phí này. Trong khi đó, thông qua Kuzco tham gia mạng lưới năng lực tính toán AI, người bình thường có thể dễ dàng tham gia lĩnh vực tăng trưởng cao này với chi phí kiểm soát được, đóng góp một phần năng lực tính toán cho AI đồng thời thu lợi nhuận.
Hơn nữa, giá Bitcoin hiện đang tiến gần mức 100.000 USD, tăng từ 16.000 USD năm 2022 lên mức cao hiện nay, tiềm ẩn rủi ro điều chỉnh lớn. Nếu chọn mua trực tiếp token của các dự án AI, cũng sẽ đối mặt với rủi ro biến động cao tương tự. So sánh, tham gia mạng lưới năng lực tính toán AI là lựa chọn稳健 hơn: chi phí rõ ràng và kiểm soát được, đồng thời có thể tiếp cận quỹ đạo tăng trưởng nhanh của ngành AI với rủi ro tương đối thấp. Đây là một trong những cách khả thi nhất hiện nay để người bình thường tham gia vào lĩnh vực AI.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














