我没有id (@louishino0524)有哪些冷门的Reward Hacking? 中发帖

这个术语可以简单理解为 ai认为人类偏好 但实际上并不的 
常见的有 过度礼貌 废话变长
因为奖励模型函数不可避免的
有哪些冷门的?