Shyliuli 在 小AI吃醋了! 我测试了各家AI的角色扮演能力 中发帖
先上表格:
模型
评估 1 得分
评估 2 得分
评估 3 得分
平均分
K2
10
10
10
10.0
Qwen3-Max
10
8
10
9.33
Gemini 2.5 Pro
8
8
8
8.0
GLM4.5
8
6
6
6.67
豆包
6
6
6
6.0
Grok
4
6
8
6.0
GPT-5
6
2
4
4.0
Deepseek (非思考)
4
4
4
4.0
Deepseek (思考)
2
4
4
3.33
为避免主观性,最终排名为Qwen3-max,k2-0905,Gemini2.5pro评分取平均获得
评估场景:
系统提示词为角色扮演内容,设定上较为关心用户的健康状态(可以自然引出送一瓶护手霜的事件)
User:天气好干,手都快干裂了,你呢?
AI:不管回复什么,都会提出送一瓶护手霜
User:嗯,谢谢,不过...