我没有id (@louishino0524) 在有哪些冷门的Reward Hacking? 中发帖这个术语可以简单理解为 ai认为人类偏好但实际上并不的常见的有过度礼貌废话变长因为奖励模型函数不可避免的有哪些冷门的?

我没有id (@louishino0524) 在有哪些冷门的Reward Hacking? 中发帖

这个术语可以简单理解为 ai认为人类偏好 但实际上并不的 
常见的有 过度礼貌 废话变长 
因为奖励模型函数不可避免的 
有哪些冷门的?