@JackBlue 在 复旦大学联合qwen团队发布WorldPM模型 中发帖
WorldPM 🌍
[License]
[arXiv]
[GitHub]
[Hugging Face]
[ModelScope]
English | 中文
📚 简介
📄 WorldPM(世界偏好建模)证明了偏好建模遵循与语言建模类似的扩展规律。通过对1500万条偏好数据进行大规模训练,我们发现偏好模型能够学习统一的偏好表示。
[main-loss]
▶ 🔍 主要发现
▶ 🤔 深入理解:偏好建模中的扩展性
🎯 模型使用
基础模型和微调变体
WorldPM在通过大规模训练进行统一偏好表示学习方面取得了突破。虽然我们的实验表明其在各种偏好场景中都具有强大的泛化能力,但我们建议针对具体任务进行微调以获得最佳性能。
基础模型
🌟 WorldPM-72B
微调版本
每个模型都在不同规模的人类偏好数据集上进行微调:
模型
数据集
训练规模
WorldPM-72B-Hel...