@mymoon 在 27B vs 32B 做 QLoRA + DPO 微调选型问题：云训练一般怎么选？中发帖想请教下做中大模型微调的一些选型问题

@mymoon 在 27B vs 32B 做 QLoRA + DPO 微调选型问题：云训练一般怎么选？中发帖

想请教下做中大模型微调的一些选型问题。 
我现在在做一个训练流程，主要是： 

QLoRA 做 SFT
再接 DPO 做偏好对齐
CPT 可能会补一点领域语料

base model 目前在纠结 27B vs 32B（比如 Qwen / Yi 这一类），也欢迎有更好的同级模型推荐。 
我主要想问几个实战问题： 

27B 和 32B 在实际效果上差别大吗？比如生成质量、推理能力、稳定性这些，会不会已经是明显两个档次？
在 QLoRA + DPO 这种训练方式下，这两个规模在云端训练（A100 / H100 这类）成本和效率差多少？
如果是长期迭代训练（多轮 SFT + DPO loop，不是一次性训练），一般更推荐用 27B 还是直接上 32B 做主力模型？
另外想顺便问下，大佬一般做这种训练更推荐用哪个云平台？ 
比如 RunPod / Lambda / AWS / Azure / 阿里...