Schrödinger (@synbio) 在 刚刚发布的Nvidia Nemotron 70B - 击败了Llama 3.1 405B,GPT4o和Claude 3.5 Sonnet! 中发帖
Nvidia Nemotron 70B - 击败了Llama 3.1 405B,GPT4o和Claude 3.5 Sonnet!
评估(Nemotron 70B vs Claude 3.5 vs GPT4o)
竞技场 - 85.0 vs 79.2 vs 79.3
AlpacaEval 2 LC - 57.6 对比 52.4 对比 57.5
MT 板凳 - 8.98 vs 8.81 vs 8.74
秘诀?
带有 Llama-3.1-Nemotron-70B-Reward 和 HelpSteer2-Preference 提示的 RLHF (REINFORCE)
他们在 Hugging Face 上发布了 Instruct 模型、奖励模型和数据集!
[image]