深潮 TechFlow 消息,1 月 21 日,據金十數據報道,DeepSeek-R1發佈一週年之際,新模型“MODEL1”曝光。DeepSeek在GitHub更新FlashMLA代碼,橫跨114個文件中有28處提到MODEL1,與V32作為不同的模型出現。已知V32是DeepSeek-V3.2,MODEL1很可能是新的架構。代碼中的具體差異體現在KV緩存佈局、稀疏性處理和FP8解碼方面,在內存優化上有多處不同。(量子位)
添加收藏
分享社交媒體
深潮 TechFlow 消息,1 月 21 日,據金十數據報道,DeepSeek-R1發佈一週年之際,新模型“MODEL1”曝光。DeepSeek在GitHub更新FlashMLA代碼,橫跨114個文件中有28處提到MODEL1,與V32作為不同的模型出現。已知V32是DeepSeek-V3.2,MODEL1很可能是新的架構。代碼中的具體差異體現在KV緩存佈局、稀疏性處理和FP8解碼方面,在內存優化上有多處不同。(量子位)
據金十數據報道,DeepSeek-R1發佈一週年之際,新模型“MODEL1”曝光。DeepSeek在GitHub更新FlashMLA代碼,橫跨114個文件中有28處提到MODEL1,與V32作為不同的模型出現。已知V32是DeepSeek-V3.2,MODEL1很可能是新的架構。代碼中的具體差異體現在KV緩存佈局、稀疏性處理和FP8解碼方面,在內存優化上有多處不同。(量子位)