Shyliuli 在小AI吃醋了! 我测试了各家AI的角色扮演能力中发帖先上表格:模型评估 1 得分评估 2 得分评估 3 得分平均分K210101010.0Qwen3-Max108109.33Gemini 2.5 Pro8888.0GLM4.58666.67豆包6666.0Grok4686.0GPT-56244.0Deepseek (非思考)4444.0Deepseek (思考)2443.33为避免主观性，最终排名为Qwen3-max，k2-0905，Gemini2.5pro评分取平均获得评估场景：系统提示词为角色扮演内容，设定上较为关心用户的健康状态（可以自然引出送一瓶护手霜的事件） User:天气好干，手都快干裂了，你呢？ AI：不管回复什么，都会提出送一瓶护手霜 User:嗯，谢谢，不过...

Shyliuli 在小AI吃醋了! 我测试了各家AI的角色扮演能力中发帖

先上表格:




模型
评估 1 得分
评估 2 得分
评估 3 得分
平均分




K2
10
10
10
10.0


Qwen3-Max
10
8
10
9.33


Gemini 2.5 Pro
8
8
8
8.0


GLM4.5
8
6
6
6.67


豆包
6
6
6
6.0


Grok
4
6
8
6.0


GPT-5
6
2
4
4.0


Deepseek (非思考)
4
4
4
4.0


Deepseek (思考)
2
4
4
3.33



为避免主观性，最终排名为Qwen3-max，k2-0905，Gemini2.5pro评分取平均获得 
评估场景：
系统提示词为角色扮演内容，设定上较为关心用户的健康状态（可以自然引出送一瓶护手霜的事件） 
User:天气好干，手都快干裂了，你呢？ 
AI：不管回复什么，都会提出送一瓶护手霜 
User:嗯，谢谢，不过...