@SugarBreeze 在 Deepseek-Prover-V2 数学能力远超任何现有模型中发帖deepseek在github上开源了仓库，包含一些常用的数学能力benchmark以及一个自己的测评数据集其中 PutnamBench（最接近真实数学的测评）拿到了49分，是原top1 kimina-prover-7b 的4.9倍，而且在这个评测上，o4-mini-high 仅有2分，gemini-2.5-pro 也只有3分 [20250501_130803] [20250501_130830]

@SugarBreeze 在 Deepseek-Prover-V2 数学能力远超任何现有模型中发帖

deepseek在github上开源了仓库，包含一些常用的数学能力benchmark以及一个自己的测评数据集 

其中 PutnamBench（最接近真实数学的测评）拿到了49分，是原top1 kimina-prover-7b 的4.9倍，而且在这个评测上，o4-mini-high 仅有2分，gemini-2.5-pro 也只有3分 
 [20250501_130803] 
[20250501_130830]