cxu 在 7B 模型的不完整不严谨横评, R1 7､8B 两兄弟, 对决 7B 对话模型和 7B 非蒸馏长思考模型, 结果竟然…… 中发帖说 R1 蒸馏 7B, 8B 效果差, 不是说跟什么 32B, 70B 比就放在 7B 档位比较, 就跟7B对话模型比, 跟7B原生思维链模型比参赛选手: 硅基流动的免费模型｡ 9B 的就不参加了, 免得说成底大一级压死人｡除了 R1 的 8B 蒸馏, 其余选手都是 7B｡ Marco-o1 可能有些人不熟悉, 这个是从 Qwen2-7B SFT 来的思维链模型, 和从 R1 蒸馏不是一个路数, 具体可以去看硅基模型介绍｡参赛地点: 某个内置了硅基多模型同时对话功能的网页, 不重要｡ ▶ 避免引流嫌疑的折叠区, 万一有想复现的可以点开考题: 大语言模型, 语言能力是立身之本｡考理解和创作｡考题的选用的参考文本, 是一篇非常好的文章《你们赢了，但我却没有输》评分标准: 阅读理解: 每答对一题+1分｡格式如果遵循用户要求+1分｡ (本来想格式也是每题一...

cxu 在 7B 模型的不完整不严谨横评, R1 7､8B 两兄弟, 对决 7B 对话模型和 7B 非蒸馏长思考模型, 结果竟然…… 中发帖

说 R1 蒸馏 7B, 8B 效果差, 不是说跟什么 32B,  70B 比 
就放在 7B 档位比较, 就跟7B对话模型比, 跟7B原生思维链模型比 
参赛选手: 硅基流动的免费模型｡ 
9B 的就不参加了, 免得说成底大一级压死人｡ 除了 R1 的 8B 蒸馏, 其余选手都是 7B｡ 
Marco-o1 可能有些人不熟悉, 这个是从 Qwen2-7B SFT 来的思维链模型, 和从 R1 蒸馏不是一个路数, 具体可以去看硅基模型介绍｡ 
参赛地点: 某个内置了硅基多模型同时对话功能的网页, 不重要｡ 
▶ 
避免引流嫌疑的折叠区, 万一有想复现的可以点开
考题: 大语言模型, 语言能力是立身之本｡ 考理解和创作｡ 考题的选用的参考文本, 是一篇非常好的文章 《你们赢了，但我却没有输 》 
评分标准: 
阅读理解: 
每答对一题+1分｡ 格式如果遵循用户要求+1分｡  (本来想格式也是每题一...