@starkvber让大模型算算中秋国庆调休后实际放了几天假😢 中发帖

测试了国内外的几家模型结果如下: 
测试结果


Claude-3-5-Sonnet (Anthropic)

正确率: 最高
稳定性: 最佳
特点: 多次询问均能稳定给出正确答案



GPT-4o (OpenAI)

表现: 优秀,仅次于Claude



Gemini Flash (Google)

表现: 良好,位列第三
-Gemini Pro 反而表现较差



Grok-mini (xAI)

表现: 良好,位列第四



DeepSeek Coder

表现: 不错,为表现最好的国产模型



智谱清言

表现: 偶尔正确



问题答案: 4天
Claude-3-5-Sonnet
[claude-3-5-sonnet]
GPT-4o
[gpt-4o-2024-08-06]
[chatgpt-4o-latest]
Gemini
[gemini-...