MyGo!!!!! (@sorrow233) 在 小模型除了刷榜和大模型比的资格都没有 中发帖
小模型可以通过强化训练来刷榜,但除了骗自己有什么用呢?小模型有的大模型一定有,大模型有的小模型一定没有
GPT 4.5:章节正确、内容正确。建议阅读章节正确(简洁正确,并且直接给出原因)
[image]
GPT 4o:2 个章节错误、内容模糊。建议阅读章节错误(看着回答挺好,实际完全乱答)
[image]
o3 mini:章节内容正确,但推荐的章节偏技术
[image]
DeepSeek R1:幻觉奇高,每一次回答给出的回答完全不一样,并且关键章节 1、2 多次没提到,以及有些时候可以准确给出章节和内容,有些时候有完全对不上,完全不可信。
[image]
Grok 3:章节正确、内容正确、建议阅读正确
[image]
gemini 2.5p:章节内容正确,而且他意识到自己对标题有点模型,让用户自己找类似标题。建议阅读完全正确
[image]
正确答案应...