LLMeme 在 让模型默写文字或许可以试探参数量 中发帖
例如问:
民法典 第一条 的原文是什么?
答错:R1 llama 8B
答对:R1 Qwen 32B、官网 V3、官网 R1
民法典 第一千二百六十条 的原文是什么?
(是最后一条)
答错:R1 llama 8B、R1 Qwen 32B
答对:官网 V3、官网 R1
民法典 第五百九十条 的原文是什么?
答错:R1 llama 8B、R1 Qwen 32B、官网 V3
答对:官网 R1
杭州市旅游条例 第一条 的原文是什么?
答错:R1 llama 8B、R1 Qwen 32B、官网 V3、官网 R1
答对:无
虽然很多东西都可以默写,但法律有完整的数据库,素材找起来方便。而且有热门冷门之分,很适合设置多种梯度来进行评判(注意要是模型训练前颁布的)。
以上都是非联网模型。如果没法关掉联网,或许可以找一些搜索结果容易被污染的问题来测试。