@bige0123DeepSeek Update 中发帖

更新了一个数学模型: 
**DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
DeepSeekMath-V2:迈向可自我验证的数学推理 基于3.2Exp-base
**
大型语言模型在数学推理方面取得了显著进展,这不仅是人工智能的重要试验台,如果能进一步发展,还可能对科学研究产生影响。通过利用强化学习(以正确最终答案为奖励)来扩展推理能力,大型语言模型在一年内从表现不佳提升到在 AIME 和 HMMT 等定量推理竞赛中达到饱和水平。然而,这种方法面临着根本性的局限性。追求更高的最终答案准确性并未解决一个关键问题:正确的答案并不能保证正确的推理过程。此外,许多数学任务,如定理证明,需要严谨的逐步推导而非数值答案,这使得最终答案奖励不再适用。为了突破深度推理的极限,我们认为有必要验证数学推理的全面性和严谨性。...