LINUX DO Channel

@JackBlue 在复旦大学联合qwen团队发布WorldPM模型中发帖
WorldPM 🌍
[License] 
[arXiv] 
[GitHub] 
[Hugging Face] 
[ModelScope] 
English | 中文 
📚 简介
📄 WorldPM（世界偏好建模）证明了偏好建模遵循与语言建模类似的扩展规律。通过对1500万条偏好数据进行大规模训练，我们发现偏好模型能够学习统一的偏好表示。 
 [main-loss] 
▶ 🔍 主要发现
▶ 🤔 深入理解：偏好建模中的扩展性
🎯 模型使用
基础模型和微调变体
WorldPM在通过大规模训练进行统一偏好表示学习方面取得了突破。虽然我们的实验表明其在各种偏好场景中都具有强大的泛化能力，但我们建议针对具体任务进行微调以获得最佳性能。 
基础模型

🌟 WorldPM-72B

微调版本
每个模型都在不同规模的人类偏好数据集上进行微调： 




模型
数据集
训练规模




WorldPM-72B-Hel...