复川 (@rememdyl) 在 GPT5在图片理解的指标上GOAT了 中发帖
我最近在给一批图像数据集打标,测试了主流的VLM模型,目前测下来效果最好的是GPT5。这点还挺出乎我预料的,我本来以为GPT5擅长推理和编程,不擅长视觉理解,但是它对图片内容的理解确实是目前我在图片打标这个任务上最好的。
下面是我的实际案例:
[测试图片]
输入提示词:
我准备给 Qwen image 20B 这个AI绘画模型来训练人物Lora模型,现在正在给图片数据集打标。我希望你能协助我打标,因为Qwen image 20B 这个模型可以用自然语言来描述要生成的图片,所以我希望图片的tag也用自然语言来说明图片中有什么内容。我想要训练的人物保持面部、发型不变,Lora的触发词是 “Evelyn”(图中女性的名字),因此你的描述中不需要写人物的面部特征和发型,但你需要描写人物的服饰、神情、动作以及环境特征,请你根据我的需求来写提示词,用英文写一遍,再翻译成中文。
GLM-4....