@starkvber 在 让大模型算算中秋国庆调休后实际放了几天假😢 中发帖
测试了国内外的几家模型结果如下:
测试结果
Claude-3-5-Sonnet (Anthropic)
正确率: 最高
稳定性: 最佳
特点: 多次询问均能稳定给出正确答案
GPT-4o (OpenAI)
表现: 优秀,仅次于Claude
Gemini Flash (Google)
表现: 良好,位列第三
-Gemini Pro 反而表现较差
Grok-mini (xAI)
表现: 良好,位列第四
DeepSeek Coder
表现: 不错,为表现最好的国产模型
智谱清言
表现: 偶尔正确
问题答案: 4天
Claude-3-5-Sonnet
[claude-3-5-sonnet]
GPT-4o
[gpt-4o-2024-08-06]
[chatgpt-4o-latest]
Gemini
[gemini-...