@umbrella 在看了DS的Engram，和大众想的记忆系统偏差很大中发帖原工作镇楼，我讲讲我自己的理解

@umbrella 在看了DS的Engram，和大众想的记忆系统偏差很大中发帖

原工作镇楼，我讲讲我自己的理解。 

这个工作的初步想法是作者观察到大模型的transformer层的很多算力被浪费在固定知识的匹配上[1]，浪费了这个结构推理的潜力。（参阅文章的引言） 

因此作者在模型的结构中新增一个模块，在attension块(可以理解为transformer层最精髓核心的计算块)前加入一个engram块，这个engram块的计算其实说起来很简单，就是对于当前处理的token，找到这个token前的token序列，用这个序列来查一个表[2]，查出的结果融合回当前计算结果供后续模块参考。（如果这段看不懂可以先看后面的例子再回来看） 
 [image] 
举一个简单的例子，假设模型正在输出“中国|首都|…”（…为正在处理的即将生成的下一个token，|表示token的分隔）。 
换做以前的模型结构，模型要计算出下一个token是“北京”，需要attension去注意...