@secsilm 在 gpt-oss-safeguard 技术报告的某些部分结论似乎过于乐观中发帖刚读了下 gpt-oss-safeguard 的 tech report，发现有些描述有点误导人：图 1 说两个 safeguard 模型表现基本与原版相当，然后在 production benchmarks 上的 “certain categories” 上性能有所下降

@secsilm 在 gpt-oss-safeguard 技术报告的某些部分结论似乎过于乐观中发帖

刚读了下 gpt-oss-safeguard 的 tech report，发现有些描述有点误导人：图 1 说两个 safeguard 模型表现基本与原版相当，然后在 production benchmarks 上的 “certain categories” 上性能有所下降。 
但是请看图 2：table 5 中两者均只在 2 个 category 上比原版稍高，而在 table 4 中，也只有 2-3 个 category 比原版稍高，感觉这明显不行啊。 
当然论文前面也说了，这个是在 chat setting 下进行的测试，这也是他们不推荐的用法。但是我觉得结论要和图表对得上，不能无中生有，玩 hallucination。 
 [图 1] 
 [图 2]