粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在 大语言模型“输出更长”意味着“性能更好”? 中发帖
先说结论:大语言模型的输出长度与表达能力没有联系,通过输出长度评判大模型能力的做法,既无科学性,亦无准确性。
transformer大模型在某种程度上是“无状态”的,如我们之前所讨论的,transformer只关注自己的下一个Token是什么。输出下一个token之后,将其追加到注意力矩阵,继而进行下一轮推理。
而在每一轮推理中,模型的输出路线是确定的,它总是向前传播,并且总是选择高权重的节点,直到达到输出层。
这也就意味着,无论是预设最大token数,或者显存不足以支撑那么长的输出,都不会影响模型继续输出内容,直到达到阈值被强制截断,或者OOM。总之,这些限制不会让模型“提前”以较简练的方式生成回答,而是在触发限制的时候戛然而止。
量化确实会对模型的能力产生影响,但这仅仅是导致模型在每一层权重计算时带来更大的误差,导致模型对问题特征的提取不准确,降低回答的稳定性,不必然导致模型就...