时歌 (@Lapis0x0)齐之未齐:浅谈gpt-oss-20b-base与对齐税 中发帖

之前OpenAI真的很少见了Open了一回,向开源社区发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b;我们这里先抛开模型性能怎么样不谈,因为确实不怎么样()。他们并没有开放未对齐的base版本模型,导致如果社区想进行更广 更纯粹的微调的话会相对比较困难。 
所以 Meta的研究院 Jack Morris 决定自己动手填补这一空白。他的核心目标是「逆转」OpenAI gpt-oss-20b 模型的对齐过程,使其从一个遵循指令、安全对话的推理模变回基础模型(Base Model,即预训练后未对齐的原始状态)。
一、对Morris训练/微调方法的分析
他的核心假设是:预训练模型存储了几乎所有知识,对齐(通过SFT、RLHF、DPO等方法实现)对模型权重的改变是低秩的。也就是说,预训练赋予模型广博的知识和生成能力,这是一个遍布整个模型权重的高维、复杂过程。而对齐更像是在...