tdwhere 在关于Agent Memory的反思（三）中发帖长文手敲

tdwhere 在关于Agent Memory的反思（三）中发帖
长文手敲。最近太忙了，在地铁上用我灵活的双指打下大半的文字，各位佬友，欢迎一块讨论～ 
重新整理了一下，对于AI记忆本质的理解，不知道对不对，希望能够比较干净的说明清楚。 
谈论AI记忆的时候，我们需要搞清楚的是，到底什么是记忆？ 从现有模型的基本原理来看，现有LLM的底层能力其实来自对token序列条件分布的建模。其记忆涵盖的内涵其实包括三个方面，第一个是模型权重中的参数记忆（对此我们不过多的进行讨论），其次是，当前上下文里的工作记忆、外部系统里的长期/结构化记忆。故而，我们可以将之比拟为一个注意力有限的，或者说脑容量有限的人。一旦内容挤满、甚至超出了脑容量，模型就会开始注意力涣散，胡言乱语。 
从这个视角出发，就会发现现有的解决思路大体面对的就是两个问题。 
第一个，模型内生记忆能力的问题。我有没有办法提升模型的脑容量？也就是扩大模型一次推理中可承载和有效使用的信息量。上下文长度、长程...