@achangeisgonnacomeunsloth 调优deepseek 8b distill, eval_loss比train_loss高很多 中发帖

train_loss 0.8, eval_loss差不多8.0 
请问如何调整?
另外,最终应该选择使用train_loss最少的还是eval_loss最小的 check point?
谢谢!