Euler Blind (@Euler)为什么deepseek 开放的r1模型中包含 7b 了还有一个 8b ,两者区别很大么? 中发帖

从模型规模上来看,7b、8b两个尺寸的模型差距没有太明显,为什么蒸馏之后,两个模型都放出来的,是因为两个模型效果差距很大么?