geekmemz 在 谷歌对大语言模型新的记忆方式的研究 中发帖
叠甲:本人不是什么专业人士,只是一个业余对大模型感兴趣的高中生,如有错误欢迎指出。这是第一次在论坛发帖,不知道大家喜欢看什么。大家觉得我的文字哪里可以改进一下呢?
transformer虽然让模型可以处理长序列,但是在面对过长的序列时,注意力会被稀释,模型会被大量先前无关信息的干扰。除了性能的问题,经济的问题也不可忽视,注意力的计算复杂度不仅是n^2级的,传统的transformer上下文也依赖kv cache,序列越长所需的显存越多。
注意到坊间传闻gemini将把上下文扩展到10m,我就去查了一下相关信息,有关titan和atlas。
titan是一个谷歌解决此问题的思路之一,他没有脱离transformer架构,而是引入了一个神经长期记忆模块。这个模块不是一个静态的数据库,而是一个深层神经网络。
简单来说,他会在运行时更新记忆模块的权重,来进行记忆,可以大幅减少显存使用。和人...