LINUX DO Channel

语录均沾 (@yulu008) 在可以通过 SFT 和DPO 来去掉模型的道德限制吗中发帖

我看了一段时间大模型，发现很少人讨论如何去掉大模型的部分道德限制，要么是全部去除的，要么是不公开的，但是比如大模型，这种都是去掉了道德限制的，想研究下是怎么去掉的？是通过 SFT+DPO 的方式么？还是使用类似 GitHub - Sumandora/remove-refusals-with-transformers: Implements harmful/harmless refusal removal using pure HF Transformers 这种项目？有佬有相关的资料可以学习吗，工作需要，非非法用途。