段 (@mapleqaq) 在 求助!关于视觉识别大模型应用,有无佬比较懂 中发帖
最近有个需求,需要识别学生的上课情况,前期根据监控画框搞定了,想识别出每个框起来的学生的听课状态,直接丢给chatgpt,识别效果挺不错,但是需要自己部署私有模型。。
开源模型尝试了好几个,gemma3,llama3.1,qwen2-vl但是效果都不好,没办法准确描述每个学生的状态,或者会瞎描述,有没有懂这方面技术的佬,这种情况哪家开源模型效果比较好,还是得在prompt上面下功夫。诚恳求教各位佬,第一次发正经帖子 🫡
[freecompress-e8ea1b29a5e15df3e320991f0da8182.png]