CNMKimi K2 真的是最好的写作/角色扮演模型 中发帖

众所周知,我们通常使用类似 SimpleQA 等测试集去评估模型的世界知识/长尾知识。然而,这类测试集污染情况极其严重,且即使没有任何污染也通常不能反馈模型真实能力,它被一个黑盒给掩盖,后训练也有巨大的影响。模型究竟是真的学到了,能够融会贯通,在任何情况下随取随用,还是只在测试时的脚手架下,在某些特殊格式的格式下,才能正确回答 :tieba_015: 
为了更好的检测真实能力,我的想法是,让模型以某种背景去写故事,再去通过一个更好的模型从中提取所含有的事实和逻辑点,进而进行评估。
参考提示词格式如下:

请你扮演史蒂夫·乔布斯,用你那种直白、充满激情且不容置疑的口吻,回顾你职业生涯中,那三个真正定义了你、也定义了苹果公司的关键时刻。请不要只谈产品发布,而是深入到那些艰难的决策、激烈的争论或是让你产生顿悟的瞬间。


Qwen,经典跑分神
[image]
Kimi
[image]
o...