@SugarBreeze 在 Deepseek-Prover-V2 数学能力远超任何现有模型 中发帖
deepseek在github上开源了仓库,包含一些常用的数学能力benchmark以及一个自己的测评数据集
其中 PutnamBench(最接近真实数学的测评)拿到了49分,是原top1 kimina-prover-7b 的4.9倍,而且在这个评测上,o4-mini-high 仅有2分,gemini-2.5-pro 也只有3分
[20250501_130803]
[20250501_130830]