半杯无糖 (@passerby)[慢讯]deepseek-ai/DeepSeek-R1-Distill-Qwen-7B的基础模型是 Qwen2.5-Math-7B 中发帖

之前意发现硅基流动的deepseek-ai/DeepSeek-R1-Distill-Qwen-14B数学能力加了些提示词后意外的不错,想不明白为啥比他大哥强,最后意外的发现他的基础模型是 Qwen2.5-Math-7B 
[image]