半杯无糖 (@passerby) 在 [慢讯]deepseek-ai/DeepSeek-R1-Distill-Qwen-7B的基础模型是 Qwen2.5-Math-7B 中发帖
之前意发现硅基流动的deepseek-ai/DeepSeek-R1-Distill-Qwen-14B数学能力加了些提示词后意外的不错,想不明白为啥比他大哥强,最后意外的发现他的基础模型是 Qwen2.5-Math-7B
[image]