xy3 在 unsloth+QWEN-3-4B+Base复现Learning Dynamics of LLM Finetuning的观测现象 中发帖
论文情况概括
摘要 (Abstract):
论文研究了大型语言模型 (LLM) 在不同类型微调过程中的学习动力学,即特定训练样本的学习如何影响模型对其他样本的预测。作者通过分析影响在不同潜在响应之间逐步累积的分解,提出了一个统一的框架来解释指令微调和偏好微调中流行算法的许多有趣观察。特别地,论文对微调后特定类型幻觉(例如,模型使用问题B的回答中的短语或事实来回答问题A,或者模型在生成响应时不断重复相似的简单短语)为何会增强提出了一个假设性解释。该框架还被扩展用于解释离策略直接偏好优化 (off-policy DPO) 中先前观察到的现象——“挤压效应”(squeezing effect),即DPO运行时间过长会导致期望输出的可能性降低。此框架还为在策略DPO (on-policy DPO) 和其他变体的优势来源提供了见解。该分析不仅为理解LLM微调提供了新的视角,还启发了一种简单有效...