@HCPTangHYV4来了?DeepSeek源码库更新:MODEL1新架构出现 中发帖

DeepSeek FlashMLA源码在四天前进行了大幅更新,加入了关于MODEL1、Engram、SM100等的大量支持。源码显示,MODEL1并非对现役V3系列的修补,在全面支持英伟达Hopper(SM90)与下一代架构(SM100)的同时,通过统一回归512标准维度、首创“值向量位置感知”以及引入疑似Engram和DSA机制,实现了显存效率与推理精度的双重跨越。 

[image]
如果将模型处理海量信息比作一位图书馆管理员的工作
[image]