sxjeru 在 不同多模态大模型 以图查找动漫人物出处 效果评测 中发帖
突发奇想,想考考一众多模态大模型分析二次元人物的能力,包括外貌描述、情绪分析、身份识别等。就随手截了一张图直接边看边整。
只是随便玩玩,不必太过认真,大模型的结果本就伴随运气。
结论:
gemini-2.5-pro-exp 拿了 MVP,可以给出类似发色人物,甚至能从“画风”的角度去猜测和给出图片相近的作品,让咱稍微惊讶了一下。
鉴于所有大模型均未给出正解,仍然建议将寻找图片出处的任务交给传统搜图工具,仅从本次国漫截图的搜图效果来看,Yandex > 百度 > Bing > Google
各大模型对于人物情绪的把握基本正确,颜色分析则是参差不齐,可见下折叠。
对于图片描述,个人觉得最优的是 gemini-2.0-flash-thinking 与 gemini-2.5-pro-exp,有文学功底,见字如面。
▶
色彩识别相关
▶
给LLM的提问
▶
测评结果总表
▶
部分原始输出...