TechFlow tin tức, ngày 21 tháng 1, theo báo cáo của Jinshi Data, đúng vào dịp kỷ niệm một năm ra mắt DeepSeek-R1, mô hình mới "MODEL1" đã được tiết lộ. DeepSeek đã cập nhật mã nguồn FlashMLA trên GitHub, trong 114 tệp tin có tổng cộng 28 lần đề cập đến MODEL1, xuất hiện như một mô hình riêng biệt so với V32. Biết rằng V32 là DeepSeek-V3.2, MODEL1 rất có thể là một kiến trúc mới. Những khác biệt cụ thể trong mã nguồn thể hiện ở bố cục bộ đệm KV, xử lý tính thưa và giải mã FP8, đồng thời có nhiều điểm khác biệt về tối ưu hóa bộ nhớ. (Quantum Bit)
Chuyên sâu báo cáo Web3
Tôi muốn đăng bài
Yêu cầu phỏng vấn
Theo dõi chúng tôi
Cảnh báo rủi ro: mọi nội dung trên website này không cấu thành tư vấn đầu tư và chúng tôi không cung cấp bất kỳ dịch vụ tín hiệu hay dẫn dắt giao dịch nào. Theo thông báo của PBoC và 10 bộ ngành về việc tăng cường phòng ngừa rủi ro đầu cơ tiền mã hóa, xin hãy nâng cao ý thức rủi ro. Liên hệ: support@techflowpost.com Mã ICP: 琼ICP备2022009338号




