tdwhere关于Agent Memory的反思(三) 中发帖

长文手敲。最近太忙了,在地铁上用我灵活的双指打下大半的文字,各位佬友,欢迎一块讨论~ 
重新整理了一下,对于AI记忆本质的理解,不知道对不对,希望能够比较干净的说明清楚。
谈论AI记忆的时候,我们需要搞清楚的是,到底什么是记忆? 从现有模型的基本原理来看,现有LLM的底层能力其实来自对token序列条件分布的建模。其记忆涵盖的内涵其实包括三个方面,第一个是模型权重中的参数记忆(对此我们不过多的进行讨论),其次是,当前上下文里的工作记忆、外部系统里的长期/结构化记忆。故而,我们可以将之比拟为一个注意力有限的,或者说脑容量有限的人。一旦内容挤满、甚至超出了脑容量,模型就会开始注意力涣散,胡言乱语。
从这个视角出发,就会发现现有的解决思路大体面对的就是两个问题。
第一个,模型内生记忆能力的问题。我有没有办法提升模型的脑容量?也就是扩大模型一次推理中可承载和有效使用的信息量。上下文长度、长程...