@stevessrLLMs 容易在多轮对话中迷失方向 中发帖

[!summary]+ 
大型语言模型(LLM)是一种对话式界面。因此,LLM 不仅能够在用户能够完整描述当前任务时提供帮助,还能通过多轮对话交流,帮助用户定义、探索和完善自身需求。尽管对 LLM 对话日志的分析证实,用户指令中经常出现描述不足的情况,但 LLM 的评估主要集中在单轮、指令完全明确的场景下。本文通过大规模仿真实验,比较了 LLM 在单轮和多轮场景下的性能。实验结果表明,我们测试的所有顶级开放权重和封闭权重 LLM 在多轮对话中的性能均显著低于单轮对话,在六项生成任务中平均下降了 39%。对超过 20 万次模拟对话的分析表明,性能下降可分解为两个部分:适配性的轻微损失和可靠性的显著降低。我们发现,LLM(语言学习者)在对话初期常常做出假设,并过早地试图得出最终解决方案,而他们又过度依赖这些解决方案。简而言之,我们发现,当 LLM 在对话中走错方向时,他们就会迷失方向,并...