zzc (@yinlian2000)见微知著,以一道游戏题目测评deepseek-r1与御三家模型,顺便科普些模型调整知识 中发帖

上题目: 
我有两件互相独立的装备,分别可以增加我百分之9和百分之13的暴击几率,那么,我现在攻击两次,两次攻击至少有一次暴击的概率是多少
对比对象

gemini2.0 flash thing experiment
claude 3.5 sonnet/opus
gpt-4o
deepseek-r1

gemini:
[image]
[image]
通过
deepseek-r1
思考6秒,首先明确了这是一个二项分布问题,这里其他模型都没指出,不知道是不是提示词原因,还是说思维链就是更完整
[image]
[image]
[image]
在排版布局上也更具优势,清晰大方,难道是因为我是中文提问所以有专门优化?
通过
claude (sonnet和opus)

第一次中文提问,答案错误
第二次怀疑语料问题,调用英文,答案仍然错误
第三次补充说明,答案正确。两个模...