CNM 在 Kimi K2 真的是最好的写作/角色扮演模型中发帖众所周知，我们通常使用类似 SimpleQA 等测试集去评估模型的世界知识/长尾知识

CNM 在 Kimi K2 真的是最好的写作/角色扮演模型中发帖

众所周知，我们通常使用类似 SimpleQA 等测试集去评估模型的世界知识/长尾知识。然而，这类测试集污染情况极其严重，且即使没有任何污染也通常不能反馈模型真实能力，它被一个黑盒给掩盖，后训练也有巨大的影响。模型究竟是真的学到了，能够融会贯通，在任何情况下随取随用，还是只在测试时的脚手架下，在某些特殊格式的格式下，才能正确回答 :tieba_015: 
为了更好的检测真实能力，我的想法是，让模型以某种背景去写故事，再去通过一个更好的模型从中提取所含有的事实和逻辑点，进而进行评估。 
参考提示词格式如下： 

请你扮演史蒂夫·乔布斯，用你那种直白、充满激情且不容置疑的口吻，回顾你职业生涯中，那三个真正定义了你、也定义了苹果公司的关键时刻。请不要只谈产品发布，而是深入到那些艰难的决策、激烈的争论或是让你产生顿悟的瞬间。


Qwen，经典跑分神 
[image]
Kimi 
[image]
o...