zzc (@yinlian2000) 在见微知著，以一道游戏题目测评deepseek-r1与御三家模型，顺便科普些模型调整知识中发帖上题目：我有两件互相独立的装备，分别可以增加我百分之9和百分之13的暴击几率，那么，我现在攻击两次，两次攻击至少有一次暴击的概率是多少对比对象 gemini2.0 flash thing experimentclaude 3.5 sonnet/opusgpt-4odeepseek-r1gemini: [image] [image] 通过 deepseek-r1 思考6秒，首先明确了这是一个二项分布问题，这里其他模型都没指出，不知道是不是提示词原因，还是说思维链就是更完整 [image] [image] [image] 在排版布局上也更具优势，清晰大方，难道是因为我是中文提问所以有专门优化？通过 claude (sonnet和opus）第一次中文提问，答案错误第二次怀疑语料问题，调用英文，答案仍然错误第三次补充说明，答案正确

zzc (@yinlian2000) 在见微知著，以一道游戏题目测评deepseek-r1与御三家模型，顺便科普些模型调整知识中发帖

上题目： 
我有两件互相独立的装备，分别可以增加我百分之9和百分之13的暴击几率，那么，我现在攻击两次，两次攻击至少有一次暴击的概率是多少 
对比对象 

gemini2.0 flash thing experiment
claude 3.5 sonnet/opus
gpt-4o
deepseek-r1

gemini: 
 [image] 
[image] 
通过 
deepseek-r1 
思考6秒，首先明确了这是一个二项分布问题，这里其他模型都没指出，不知道是不是提示词原因，还是说思维链就是更完整 
 [image] 
[image] 
[image] 
在排版布局上也更具优势，清晰大方，难道是因为我是中文提问所以有专门优化？ 
通过 
claude (sonnet和opus） 

第一次中文提问，答案错误
第二次怀疑语料问题，调用英文，答案仍然错误
第三次补充说明，答案正确。两个模...