时歌 (@Lapis0x0)浅谈ChatGPT的记忆实现机制 兼论工程端记忆设计 中发帖

你也可以在本博客查看本文的全部内容。 
要想研究ChatGPT这个产品的“记忆”功能实现机制,我们就必须要从大模型本身的“记忆”到底是个什么东西开始说起。
在我们的传统的,人类视角的认知里,“记忆”意味着信息的持久储存和可随时调用,但这一常识在神经网络中往往并不成立。大语言模型(LLM)本身其实并不具备“记住某个具体事实”或“反复调用某段对话”的内建机制 。它们所谓的“记忆”,更多体现在参数记忆 的层面——即通过反复训练,将大量的语料信息固化在数百亿甚至万亿级的参数中,从而形成一种对语言结构、事实知识乃至人类行为模式的“潜在记忆”。
虽然这种参数记忆赋予了大模型前所未有的知识广度,但其本身的信息管理是静态的,只能反映训练阶段所接触到的信息,无法根据用户的即时输入动态调整,也无法在多轮对话之间保持状态。这也意味着,大模型在默认状态下是无记忆、无连续性的。为了让用户在使用中获得“ChatG...