@umbrella 在 看了DS的Engram,和大众想的记忆系统偏差很大 中发帖
原工作镇楼,我讲讲我自己的理解。
这个工作的初步想法是作者观察到大模型的transformer层的很多算力被浪费在固定知识的匹配上[1],浪费了这个结构推理的潜力。(参阅文章的引言)
因此作者在模型的结构中新增一个模块,在attension块(可以理解为transformer层最精髓核心的计算块)前加入一个engram块,这个engram块的计算其实说起来很简单,就是对于当前处理的token,找到这个token前的token序列,用这个序列来查一个表[2],查出的结果融合回当前计算结果供后续模块参考。(如果这段看不懂可以先看后面的例子再回来看)
[image]
举一个简单的例子,假设模型正在输出“中国|首都|…”(…为正在处理的即将生成的下一个token,|表示token的分隔)。
换做以前的模型结构,模型要计算出下一个token是“北京”,需要attension去注意...