TechFlow消息,1月21日,据金十数据报道,在DeepSeek-R1发布一周年之际,新模型“MODEL1”被曝光。DeepSeek在GitHub上更新了FlashMLA代码,在横跨114个文件中28处提到了MODEL1,并且与V32作为不同模型出现。已知V32即为DeepSeek-V3.2,因此MODEL1很可能是采用全新架构的模型。代码中的具体差异体现在KV缓存布局、稀疏性处理以及FP8解码等方面,在内存优化上存在多处不同。(量子位)
お気に入りに追加
SNSで共有
TechFlow消息,1月21日,据金十数据报道,在DeepSeek-R1发布一周年之际,新模型“MODEL1”被曝光。DeepSeek在GitHub上更新了FlashMLA代码,在横跨114个文件中28处提到了MODEL1,并且与V32作为不同模型出现。已知V32即为DeepSeek-V3.2,因此MODEL1很可能是采用全新架构的模型。代码中的具体差异体现在KV缓存布局、稀疏性处理以及FP8解码等方面,在内存优化上存在多处不同。(量子位)
金十データの報道によると、DeepSeek-R1が発表されてから1周年を迎えるにあたり、新たなモデル「MODEL1」が明らかになった。DeepSeekはGitHub上でFlashMLAコードを更新し、114ファイルにわたり、MODEL1という記述が28か所で登場しており、V32とは異なるモデルとして示されている。V32はDeepSeek-V3.2であることが分かっており、MODEL1はおそらく新しいアーキテクチャであると考えられる。コード上の具体的な相違点は、KVキャッシュのレイアウト、スパース性処理、およびFP8デコーディングに見られ、メモリ最適化の面でも複数の違いがある。(量子位)