段 (@mapleqaq) 在求助！关于视觉识别大模型应用，有无佬比较懂中发帖最近有个需求，需要识别学生的上课情况，前期根据监控画框搞定了，想识别出每个框起来的学生的听课状态，直接丢给chatgpt，识别效果挺不错，但是需要自己部署私有模型

段 (@mapleqaq) 在求助！关于视觉识别大模型应用，有无佬比较懂中发帖

最近有个需求，需要识别学生的上课情况，前期根据监控画框搞定了，想识别出每个框起来的学生的听课状态，直接丢给chatgpt，识别效果挺不错，但是需要自己部署私有模型。。 
开源模型尝试了好几个，gemma3，llama3.1，qwen2-vl但是效果都不好，没办法准确描述每个学生的状态，或者会瞎描述，有没有懂这方面技术的佬，这种情况哪家开源模型效果比较好，还是得在prompt上面下功夫。诚恳求教各位佬，第一次发正经帖子 🫡 
 [freecompress-e8ea1b29a5e15df3e320991f0da8182.png]