语录均沾 (@yulu008) 在 可以通过 SFT 和DPO 来去掉模型的道德限制吗 中发帖
我看了一段时间大模型,发现很少人讨论如何去掉大模型的部分道德限制,要么是全部去除的,要么是不公开的,但是比如大模型,这种都是去掉了道德限制的,想研究下是怎么去掉的?是通过 SFT+DPO 的方式么?还是使用类似 GitHub - Sumandora/remove-refusals-with-transformers: Implements harmful/harmless refusal removal using pure HF Transformers 这种项目?有佬有相关的资料可以学习吗,工作需要,非非法用途。