翰林文苑 (@hanlinwenyuan)一个很难绷的测试大模型的问题 中发帖

问题: 
114514*1919810=?

如果模型支持调用python等分析工具,还得告诉它不让用。
答案:
219845122340

各种大模型的评测结果:
o3 mini/o1系列正确并且飞速。
[image]
[image]
r1正确,极慢。
[image]
4o/gemini 1.5 pro/gemini exp 1206/claude 3.5 sonnet全错。
好笑的是claude 3.5 sonnet列了个假的竖式 🤣
[image]