Xuất hiện thông tin rò rỉ về mô hình mới MODEL1 của DeepSeek, mã nguồn ám chỉ kiến trúc mới
7x24h Tin nhanh
Xuất hiện thông tin rò rỉ về mô hình mới MODEL1 của DeepSeek, mã nguồn ám chỉ kiến trúc mới
Theo dữ liệu từ Jinshi, nhân dịp kỷ niệm một năm ra mắt DeepSeek-R1, mô hình mới "MODEL1" đã được tiết lộ. DeepSeek đã cập nhật mã FlashMLA trên GitHub, trong đó MODEL1 được đề cập 28 lần xuyên suốt 114 tệp, xuất hiện như một mô hình riêng biệt so với V32. Được biết V32 là DeepSeek-V3.2, do đó MODEL1 rất có thể là một kiến trúc mới. Những khác biệt cụ thể trong mã liên quan đến bố trí bộ nhớ đệm KV, xử lý tính thưa và giải mã FP8, cho thấy nhiều điểm khác biệt trong tối ưu hóa bộ nhớ. (QuantumBit)
TechFlow tin tức, ngày 21 tháng 1, theo báo cáo của Jinshi Data, đúng vào dịp kỷ niệm một năm ra mắt DeepSeek-R1, mô hình mới "MODEL1" đã được tiết lộ. DeepSeek đã cập nhật mã nguồn FlashMLA trên GitHub, trong 114 tệp tin có tổng cộng 28 lần đề cập đến MODEL1, xuất hiện như một mô hình riêng biệt so với V32. Biết rằng V32 là DeepSeek-V3.2, MODEL1 rất có thể là một kiến trúc mới. Những khác biệt cụ thể trong mã nguồn thể hiện ở bố cục bộ đệm KV, xử lý tính thưa và giải mã FP8, đồng thời có nhiều điểm khác biệt về tối ưu hóa bộ nhớ. (Quantum Bit)




