竹屋 (@wawu) 在 deepseekr1浪潮的一点思考 中发帖
最近deep seek r1 沸沸扬扬 ,很多营销号和up 博主等也闻风而来 ,俺看了一圈觉得没意思 ,自己去看了眼,也试了试, 总算弄明白了一些来龙去脉,给大家分享分享一下浅薄的思考。
1.开源和配置
(建议自己看,不要看我瞎总结和翻译,很可能有错的,这个网址指路的功能更大。)
地址如此,里面其实也有很简单的介绍,概括来说就是r1来源于v3,r1 zero是不加拘束的训练成果,效果不咋地,r1筛了一遍素材,效果不赖
然后基于r1,蒸馏出来了一堆数据,扔进去现在开源的模型里,弄出来了一堆参数的其他小模型
值得关注:32b测评来说比o1mini牛逼!
总结来说,它们发现,不加拘束训练出来的玩意还真不赖,训练出来个牛逼的模型后,跑点数据出来做小模型更有效
至于怎么配置,也有指路了,32b配置大概是
NVIDIA A100 80GB(单卡满足 FP16 需求)
CPU:AM...