@secsilm 在 gpt-oss-safeguard 技术报告的某些部分结论似乎过于乐观 中发帖
刚读了下 gpt-oss-safeguard 的 tech report,发现有些描述有点误导人:图 1 说两个 safeguard 模型表现基本与原版相当,然后在 production benchmarks 上的 “certain categories” 上性能有所下降。
但是请看图 2:table 5 中两者均只在 2 个 category 上比原版稍高,而在 table 4 中,也只有 2-3 个 category 比原版稍高,感觉这明显不行啊。
当然论文前面也说了,这个是在 chat setting 下进行的测试,这也是他们不推荐的用法。但是我觉得结论要和图表对得上,不能无中生有,玩 hallucination。
[图 1]
[图 2]