香农 (@Shannon) 在 探索出一个很好用的测试ai的问题 中发帖
请逐字反向背诵张若虚的《春江花月夜》
我在多个一线LLM中测试过,ChatGPT 4o开启推理,Gemini 2.5 pro,Grok 3开启推理,这三家能稳定正确输出。以编程见长的国外模型Claude 3.7并不能正确输出结果(可能和我是免费版的有关系),而多个一线国产大模型Deepseek R1,Qwen3均不能输出正确答案。而能通过测试的ai模型,均是在Chatbot Arena的top0级别的模型,这一定程度上反应了上下文能力对于LLM性能的影响