@x1a0y4oDeepSeek V4 非专业解读 中发帖

从DeepSeek V4 个人技术前瞻继续讨论: 
终于经过望眼欲穿的等待,DeepSeek-V4千呼万唤始出来,发布以后,回看此前的前瞻,还是有些出入,最期待的也最需要修正的部分是对Engram的预期。从V4技术报告来看,也许笔者的预期过于乐观,在这一代中暂时没有条件落地应用。不过条件记忆、知识检索解耦、模型内部稀疏访问等问题仍然值得长期跟踪,也许在DeepSeek V4.5出现也未可知。
回到正题,本次V4的主线围绕百万Context,并降低了训练和推理的综合成本,实实在在的体现了报告标题Towards Highly Efficient Million-Token Context Intelligence。具体参数不再赘述,报告的开篇图片就提到了在 1M context 下,V4-Pro 相比 V3.2 只需要 27% 的单Token推理FLOPs和10%的KV cache;V4-F...