TechFlow, 21 janvier — Selon une information relayée par Jinshi Data, à l'occasion du premier anniversaire de la sortie de DeepSeek-R1, un nouveau modèle nommé « MODEL1 » a été dévoilé. DeepSeek a mis à jour le code FlashMLA sur GitHub, où MODEL1 est mentionné 28 fois dans 114 fichiers, apparaissant comme un modèle distinct de V32. Sachant que V32 correspond à DeepSeek-V3.2, MODEL1 serait très probablement une nouvelle architecture. Les différences spécifiques dans le code concernent notamment la disposition du cache KV, le traitement de la sparsité et le décodage en FP8, présentant plusieurs variations au niveau de l'optimisation mémoire. (Quantum Bit)
Dédié à des analyses Web3 approfondies
Je veux contribuer
Demande de reportage
Avertissement : tout le contenu de ce site ne constitue pas un conseil en investissement et aucun service de signal ou d’incitation au trading n’est fourni. Conformément à l’avis des dix ministères, dont la Banque populaire de Chine, sur la prévention des risques liés au trading de cryptomonnaies, veuillez rester vigilants face aux risques. Contact : support@techflowpost.com ICP n° 琼ICP备2022009338号




