@stevessr 在 LLMs 容易在多轮对话中迷失方向中发帖[!summary]+ 大型语言模型（LLM）是一种对话式界面

@stevessr 在 LLMs 容易在多轮对话中迷失方向中发帖

[!summary]+ 
大型语言模型（LLM）是一种对话式界面。因此，LLM 不仅能够在用户能够完整描述当前任务时提供帮助，还能通过多轮对话交流，帮助用户定义、探索和完善自身需求。尽管对 LLM 对话日志的分析证实，用户指令中经常出现描述不足的情况，但 LLM 的评估主要集中在单轮、指令完全明确的场景下。本文通过大规模仿真实验，比较了 LLM 在单轮和多轮场景下的性能。实验结果表明，我们测试的所有顶级开放权重和封闭权重 LLM 在多轮对话中的性能均显著低于单轮对话，在六项生成任务中平均下降了 39%。对超过 20 万次模拟对话的分析表明，性能下降可分解为两个部分：适配性的轻微损失和可靠性的显著降低。我们发现，LLM（语言学习者）在对话初期常常做出假设，并过早地试图得出最终解决方案，而他们又过度依赖这些解决方案。简而言之，我们发现，当 LLM 在对话中走错方向时，他们就会迷失方向，并...