@qihua 在 DS的新论文中发帖DeepSeek新论文来了！在清华研究者共同发布的研究中，他们发现了奖励模型推理时Scaling的全新方法

@qihua 在 DS的新论文中发帖

DeepSeek新论文来了！在清华研究者共同发布的研究中，他们发现了奖励模型推理时Scaling的全新方法。 
论文地址：[2504.02495] Inference-Time Scaling for Generalist Reward Modeling