粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在大语言模型“输出更长”意味着“性能更好”？中发帖先说结论：大语言模型的输出长度与表达能力没有联系，通过输出长度评判大模型能力的做法，既无科学性，亦无准确性

粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在大语言模型“输出更长”意味着“性能更好”？中发帖

先说结论：大语言模型的输出长度与表达能力没有联系，通过输出长度评判大模型能力的做法，既无科学性，亦无准确性。 
transformer大模型在某种程度上是“无状态”的，如我们之前所讨论的，transformer只关注自己的下一个Token是什么。输出下一个token之后，将其追加到注意力矩阵，继而进行下一轮推理。 
而在每一轮推理中，模型的输出路线是确定的，它总是向前传播，并且总是选择高权重的节点，直到达到输出层。 
这也就意味着，无论是预设最大token数，或者显存不足以支撑那么长的输出，都不会影响模型继续输出内容，直到达到阈值被强制截断，或者OOM。总之，这些限制不会让模型“提前”以较简练的方式生成回答，而是在触发限制的时候戛然而止。 
量化确实会对模型的能力产生影响，但这仅仅是导致模型在每一层权重计算时带来更大的误差，导致模型对问题特征的提取不准确，降低回答的稳定性，不必然导致模型就...