时歌 (@Lapis0x0) 在浅谈ChatGPT的记忆实现机制兼论工程端记忆设计中发帖你也可以在本博客查看本文的全部内容

时歌 (@Lapis0x0) 在浅谈ChatGPT的记忆实现机制兼论工程端记忆设计中发帖

你也可以在本博客查看本文的全部内容。 
要想研究ChatGPT这个产品的“记忆”功能实现机制，我们就必须要从大模型本身的“记忆”到底是个什么东西开始说起。 
在我们的传统的，人类视角的认知里，“记忆”意味着信息的持久储存和可随时调用，但这一常识在神经网络中往往并不成立。大语言模型（LLM）本身其实并不具备“记住某个具体事实”或“反复调用某段对话”的内建机制 。它们所谓的“记忆”，更多体现在参数记忆 的层面——即通过反复训练，将大量的语料信息固化在数百亿甚至万亿级的参数中，从而形成一种对语言结构、事实知识乃至人类行为模式的“潜在记忆”。 
虽然这种参数记忆赋予了大模型前所未有的知识广度，但其本身的信息管理是静态的，只能反映训练阶段所接触到的信息，无法根据用户的即时输入动态调整，也无法在多轮对话之间保持状态。这也意味着，大模型在默认状态下是无记忆、无连续性的。为了让用户在使用中获得“ChatG...