@mymoon 在 27B vs 32B 做 QLoRA + DPO 微调选型问题:云训练一般怎么选? 中发帖
想请教下做中大模型微调的一些选型问题。
我现在在做一个训练流程,主要是:
QLoRA 做 SFT
再接 DPO 做偏好对齐
CPT 可能会补一点领域语料
base model 目前在纠结 27B vs 32B(比如 Qwen / Yi 这一类),也欢迎有更好的同级模型推荐。
我主要想问几个实战问题:
27B 和 32B 在实际效果上差别大吗?比如生成质量、推理能力、稳定性这些,会不会已经是明显两个档次?
在 QLoRA + DPO 这种训练方式下,这两个规模在云端训练(A100 / H100 这类)成本和效率差多少?
如果是长期迭代训练(多轮 SFT + DPO loop,不是一次性训练),一般更推荐用 27B 还是直接上 32B 做主力模型?
另外想顺便问下,大佬一般做这种训练更推荐用哪个云平台?
比如 RunPod / Lambda / AWS / Azure / 阿里...