lidashuaiqi (@thmu) 在 如何正确加载LoRA微调与DPO训练后的模型:qwen2-7B+adapter1+adapter2还是qwen2-7B+adapter2? 中发帖
请教各位大佬一个微调的问题:
qwen2-7B进行lora微调得到 checkpoint adapter 文件,记作adapter1
现在基于 qwen2-7B+adapter1 进行DPO训练,可以得到adapter2
我的问题如下
我要测试DPO训练后的模型。我应该如何加载 ?是 qwen2-7B+adapter1+adapter2 还是qwen2-7B+adapter2
我现在进行DPO训练,出现问题全靠AI+猜,大佬们是否可以推荐一些关于微调LLM的基础知识的论文或者视频讲解,比如基座模型+adapter如何进行微调,如何进行验证的帖子或者论文?
我参考的资料
DPO Trainer
【【通义千问2.0】微调之理论篇(pre-train/sft/dpo)-哔哩哔哩】 https://b23.tv/VOJXivu
【小白也能听懂的 transformer模型...