@chao3 在我读 Anthropic 研究《Tracing the thoughts of a large language model》中发帖当前大模型的的原理决定了它们只能一个单词一个单词地输出，那么这篇论文研究了，大模型在输出时会不会考虑后面的输出？还是仅仅计算当前最可能出现的单词？结论是，当前大模型可以在表达前思考

@chao3 在我读 Anthropic 研究《Tracing the thoughts of a large language model》中发帖

当前大模型的的原理决定了它们只能一个单词一个单词地输出，那么这篇论文研究了，大模型在输出时会不会考虑后面的输出？还是仅仅计算当前最可能出现的单词？ 
结论是，当前大模型可以在表达前思考。例如，研究人员用不同语言提出的同一个问题， Claude 都激活了类似的通路，随后才开始输出对应语言的结果。 
Claude 可以很早就规划自己的输出结果，甚至在输出第一个单词前，就已经规划好了输出内容。在诗歌押韵测试中，当研究人员在模型内部禁用了某个 claude 之前用过的押韵词汇，claude 的输出和之前完全不同。通过探索内部机制，研究人员发现它是先想出别的押韵的词，然后根据这个词补全句子。而不是随意输出单词，指导最后再思考一个押韵的词。 
在研究大模型是怎么计算数学的过程中，大家发现 Claude 完成数学计算的方式非常奇怪，比如简单的 36 + 59，它没有使用现代的进位制加法计算，也没有采用把...