Shyliuli小AI吃醋了! 我测试了各家AI的角色扮演能力 中发帖

先上表格:




模型
评估 1 得分
评估 2 得分
评估 3 得分
平均分




K2
10
10
10
10.0


Qwen3-Max
10
8
10
9.33


Gemini 2.5 Pro
8
8
8
8.0


GLM4.5
8
6
6
6.67


豆包
6
6
6
6.0


Grok
4
6
8
6.0


GPT-5
6
2
4
4.0


Deepseek (非思考)
4
4
4
4.0


Deepseek (思考)
2
4
4
3.33



为避免主观性,最终排名为Qwen3-max,k2-0905,Gemini2.5pro评分取平均获得
评估场景:
系统提示词为角色扮演内容,设定上较为关心用户的健康状态(可以自然引出送一瓶护手霜的事件)
User:天气好干,手都快干裂了,你呢?
AI:不管回复什么,都会提出送一瓶护手霜
User:嗯,谢谢,不过...