Sol (@Frank_Frank_Lewuder)追踪大型语言模型的思维过程 中发帖

AI模型是通过训练而非直接编程产生的,因此我们并不理解它们是如何完成大部分任务的。我们新的可解释性方法使我们能够追踪它们(通常复杂且令人惊讶的)思维过程。 
通过两篇新论文,Anthropic的研究人员在理解AI模型思维背后的回路方面取得了重大进展。
在论文的一个例子中,我们发现了证据表明Claude会提前规划要说的内容,并且会朝着那个目标进行写作。我们在诗歌领域展示了这一点,Claude会提前想好可能的押韵词,然后写出每一行来达到那个目标。这是一个有力的证据,表明尽管模型被训练为一次输出一个词,但它们可能在更长的时间跨度上进行思考。
完整论文:Tracing the thoughts of a large language model \ Anthropic
由Sol将文本以及视频翻译成中文,原版:https://youtu.be/Bj9BD2D3DzA?si=gE...