@chao3 在 我读 Anthropic 研究《Tracing the thoughts of a large language model》 中发帖
当前大模型的的原理决定了它们只能一个单词一个单词地输出,那么这篇论文研究了,大模型在输出时会不会考虑后面的输出?还是仅仅计算当前最可能出现的单词?
结论是,当前大模型可以在表达前思考。例如,研究人员用不同语言提出的同一个问题, Claude 都激活了类似的通路,随后才开始输出对应语言的结果。
Claude 可以很早就规划自己的输出结果,甚至在输出第一个单词前,就已经规划好了输出内容。在诗歌押韵测试中,当研究人员在模型内部禁用了某个 claude 之前用过的押韵词汇,claude 的输出和之前完全不同。通过探索内部机制,研究人员发现它是先想出别的押韵的词,然后根据这个词补全句子。而不是随意输出单词,指导最后再思考一个押韵的词。
在研究大模型是怎么计算数学的过程中,大家发现 Claude 完成数学计算的方式非常奇怪,比如简单的 36 + 59,它没有使用现代的进位制加法计算,也没有采用把...