Earmer Carey (@earmer)藏尾诗测试!使出你的最强大模型来挑战! 中发帖

Prompt在此藏尾诗提取《站在历史的天空下幻想——高考感怀七十二韵》 
注:此诗的藏尾部分的内容含义有些敏感,在此引用的目的仅为测试模型之用。
目前测试的结果:




等级
模型
注释




Tier#0(完整,格式正确)
o3-mini
注释:o3-mini用时最长,一次成功,格式漂亮


Tier#1(完整,格式不正确)
gemini-2.0-flash-thinking-exp, claude-3.7-sonnet:thinking, grok-3-thinking
注释:谷歌的模型格式不对,没有标点;A家的模型思考过程中给出了正确的回答,但在正式回复中以安全为由只给出了大意的概括;Elon的模型虽然完整提取了144字的内容,但是在组成4字一行时错乱了。


Tier#2(内容残缺)
chatgpt-4o, o1, claude-3.7-sonnet, deepseek-r...