youngbergchoates42 在 【原创】模型照妖镜,检测智商准确性99% 中发帖
https://linux.do/t/topic/1961727,像这种类似的字段检测,容错率太高
我二月份也写过类似的检测器,检测数量也突破了100万,是根据字段+提示词+AI来判断,还是容错率太高,后面我就懒得去维护了,甚至想关站。
有的佬说,这种不准确的,很难测准确,有的站随便改下字段提示词 就无法识别出来,现实情况确实是这样子。
有的佬又说,惨不惨用就知道了,看买的价格. 我的答案是不一定,凭主观判断使用 浪费时间也有容错率,第二个价格,高价照样掺水给你
直到前两天我发现一个中转站有38个cc分组,我的好奇心已经达到顶点,马上翻遍L站所有的测试方法帖子做了一张试卷,给模型答题
发现了一个出其不意的效果,所有测试方法融合在一起后,竟然有出其不意的效果。
在大量接口测试中,测试智商的准确率极高
甚至来自官方来源的降智也能测试出来
侧重测试模型智商,不是为了判断是clau...