时歌 (@Lapis0x0) 在齐之未齐：浅谈gpt-oss-20b-base与对齐税中发帖之前OpenAI真的很少见了Open了一回，向开源社区发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b；我们这里先抛开模型性能怎么样不谈，因为确实不怎么样（）

时歌 (@Lapis0x0) 在齐之未齐：浅谈gpt-oss-20b-base与对齐税中发帖

之前OpenAI真的很少见了Open了一回，向开源社区发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b；我们这里先抛开模型性能怎么样不谈，因为确实不怎么样（）。他们并没有开放未对齐的base版本模型，导致如果社区想进行更广 更纯粹的微调的话会相对比较困难。 
所以 Meta的研究院 Jack Morris 决定自己动手填补这一空白。他的核心目标是「逆转」OpenAI gpt-oss-20b 模型的对齐过程，使其从一个遵循指令、安全对话的推理模变回基础模型（Base Model，即预训练后未对齐的原始状态）。 
一、对Morris训练/微调方法的分析
他的核心假设是：预训练模型存储了几乎所有知识，对齐（通过SFT、RLHF、DPO等方法实现）对模型权重的改变是低秩的。也就是说，预训练赋予模型广博的知识和生成能力，这是一个遍布整个模型权重的高维、复杂过程。而对齐更像是在...