@0.6 在 关于如何校验模型的真实性,我有一个测试想法 中发帖
方法很简单,就是在实际项目当中compaction过后把压缩内容直接输入到我们的竞技场的code模式当中,观察UI效果.
我自己试用claude sonnet 4.6和网页竞技场的4.6 出来的效果很接近,应该都是真的,在提示词差不多的情况下面应该最后的表现都是差不多的.
左图,自己测试的
[image]
[image]
竞技场的效果
[image]
这样通过UI来校验应该是最简单的,有没有掺水意试就知道.
测试项目试本人的开源项目,一个注册邮箱管理器,感兴趣的佬可以点击主页看介绍贴.