@starkvber 在让大模型算算中秋国庆调休后实际放了几天假😢 中发帖测试了国内外的几家模型结果如下：测试结果Claude-3-5-Sonnet (Anthropic) 正确率: 最高稳定性: 最佳特点: 多次询问均能稳定给出正确答案GPT-4o (OpenAI) 表现: 优秀,仅次于ClaudeGemini Flash (Google) 表现: 良好,位列第三 -Gemini Pro 反而表现较差Grok-mini (xAI) 表现: 良好,位列第四DeepSeek Coder 表现: 不错,为表现最好的国产模型智谱清言表现: 偶尔正确问题答案: 4天 Claude-3-5-Sonnet [claude-3-5-sonnet] GPT-4o [gpt-4o-2024-08-06] [chatgpt-4o-latest] Gemini [gemini-...

@starkvber 在让大模型算算中秋国庆调休后实际放了几天假😢 中发帖

测试了国内外的几家模型结果如下： 
测试结果


Claude-3-5-Sonnet (Anthropic) 

正确率: 最高
稳定性: 最佳
特点: 多次询问均能稳定给出正确答案



GPT-4o (OpenAI) 

表现: 优秀,仅次于Claude



Gemini Flash (Google) 

表现: 良好,位列第三 
-Gemini Pro 反而表现较差



Grok-mini (xAI) 

表现: 良好,位列第四



DeepSeek Coder 

表现: 不错,为表现最好的国产模型



智谱清言 

表现: 偶尔正确



问题答案: 4天 
Claude-3-5-Sonnet 
 [claude-3-5-sonnet] 
GPT-4o 
[gpt-4o-2024-08-06] 
[chatgpt-4o-latest] 
Gemini 
 [gemini-...