@zhangshuhui 在 小模型的SFT微调 中发帖
背景:目前我基于Qwen2.5-0.5B预训练模型经过SFT微调后形成自己行业内的小模型,跑在终端上。
问题:大佬们有没有做过小模型的微调,有几个核心问题先探讨下:
微调后的模型,回答的内容过拟合如何解决
如何构造业务的高质量数据集