我没有id (@louishino0524) 在 有哪些冷门的Reward Hacking? 中发帖
这个术语可以简单理解为 ai认为人类偏好 但实际上并不的
常见的有 过度礼貌 废话变长
因为奖励模型函数不可避免的
有哪些冷门的?
这个术语可以简单理解为 ai认为人类偏好 但实际上并不的
常见的有 过度礼貌 废话变长
因为奖励模型函数不可避免的
有哪些冷门的?