@llllllll视觉大模型接入视频监控,通过简单的提示词配置来识别视频中行为的方案? 中发帖

目标就是代替一些安保场景或者员工的行为监督, 比如通过配置提示词识别乱停车之类的。 
目前想到的办法就是对视频抽帧, 然后将图片让视觉模型去理解, 看看是否能识别出来。
或许也可以将图片理解解析成文字, 将文字交给另一个纯文本模型,然后通过提示词的方式提取设定的行为。
大佬们还有更好的方案吗? 或者有开源的程序推荐不, 这可能是一个大模型很好的落地场景,好像也有商业化的实现了, 准备自己试着学习弄下搞搞玩玩