@huanlin 在 [DeepSeek]推荐cpu跑、搞拉踩、卖课、瞎推荐、骗局....关于DeepSeek的营销号泛滥，我已经懒得喷了中发帖本贴由本人发布的笔记图片整理成引入最近deepseek r1也是很火啊什么吊打o1踩爆nv大家都知道了随着r1原模型开源出来的还有一大堆用llama和qwen蒸馏的小模型这是一件很好的事情，但是！很多牛鬼蛇神趁机瞎鸡巴乱吹把这些蒸馏的小模型吹得和原模型似的首先这些模型都是很小的，最大的模型也才原模型的1/10 其次模型分为了llama底膜和qwen底膜乱象下面这堆都是我从群友口中得知/自己刷到的逆天案例不懂乱说 [image] 某 up 主瞎说，说 llama 是能力最强的不是哥们，你真的测过吗？ llama 中文烂成什么样子你自己都没见过吗？（除了70b没有对照之外我自己测下来llama的逻辑都不如qwen）我都怀疑up自己没跑过，你家8g显存能跑32b q4量化的模型？用cpu跑的？ tip: 我知道某些推理框架可以 cp...

@huanlin 在 [DeepSeek]推荐cpu跑、搞拉踩、卖课、瞎推荐、骗局....关于DeepSeek的营销号泛滥，我已经懒得喷了中发帖

本贴由本人发布的笔记图片整理成 

引入
最近deepseek r1也是很火啊 
什么吊打o1踩爆nv大家都知道了 
随着r1原模型开源出来的还有一大堆用llama和qwen蒸馏的小模型 
这是一件很好的事情，但是！很多牛鬼蛇神趁机瞎鸡巴乱吹 
把这些蒸馏的小模型吹得和原模型似的 
首先 这些模型都是很小的，最大的模型也才原模型的1/10 
其次 模型分为了llama底膜和qwen底膜 
乱象
下面这堆都是我从群友口中得知/自己刷到的逆天案例 
不懂乱说
 [image] 
某 up 主瞎说，说 llama 是能力最强的 
不是哥们，你真的测过吗？ 
llama 中文烂成什么样子你自己都没见过吗？（除了70b没有对照之外我自己测下来llama的逻辑都不如qwen） 
我都怀疑up自己没跑过，你家8g显存能跑32b q4量化的模型？用cpu跑的？ 

tip: 我知道某些推理框架可以 cp...