sunhong9ai梁文峰又发论文了,这次解决记忆问题 中发帖

DeepSeek走的这条路子非常清晰:极致的稀疏化。MoE 是计算的稀疏化(每次只激活一部分专家)。Engram 是存储的稀疏化(只检索相关的记忆片段)。把这两个结合起来很可能就是 DeepSeek V4 的雏形。这种架构一旦跑通我们可能会看到模型在参数量暴涨的同时推理成本却能控制在极低的水平。未来的大模型,可能是一个“小而精”的推理核心,外挂着一个可随时更新的“大而全”的Engram记忆库。