半杯无糖 (@passerby) 在 [慢讯]deepseek-ai/DeepSeek-R1-Distill-Qwen-7B的基础模型是 Qwen2.5-Math-7B 中发帖之前意发现硅基流动的deepseek-ai/DeepSeek-R1-Distill-Qwen-14B数学能力加了些提示词后意外的不错，想不明白为啥比他大哥强，最后意外的发现他的基础模型是 Qwen2.5-Math-7B [image]

半杯无糖 (@passerby) 在 [慢讯]deepseek-ai/DeepSeek-R1-Distill-Qwen-7B的基础模型是 Qwen2.5-Math-7B 中发帖

之前意发现硅基流动的deepseek-ai/DeepSeek-R1-Distill-Qwen-14B数学能力加了些提示词后意外的不错，想不明白为啥比他大哥强，最后意外的发现他的基础模型是 Qwen2.5-Math-7B 
 [image]