@JackBlue复旦大学联合qwen团队发布WorldPM模型 中发帖

WorldPM 🌍
[License]
[arXiv]
[GitHub]
[Hugging Face]
[ModelScope]
English | 中文
📚 简介
📄 WorldPM(世界偏好建模)证明了偏好建模遵循与语言建模类似的扩展规律。通过对1500万条偏好数据进行大规模训练,我们发现偏好模型能够学习统一的偏好表示。
[main-loss]
🔍 主要发现
🤔 深入理解:偏好建模中的扩展性
🎯 模型使用
基础模型和微调变体
WorldPM在通过大规模训练进行统一偏好表示学习方面取得了突破。虽然我们的实验表明其在各种偏好场景中都具有强大的泛化能力,但我们建议针对具体任务进行微调以获得最佳性能。
基础模型

🌟 WorldPM-72B

微调版本
每个模型都在不同规模的人类偏好数据集上进行微调:




模型
数据集
训练规模




WorldPM-72B-Hel...