@llllllll 在视觉大模型接入视频监控，通过简单的提示词配置来识别视频中行为的方案？中发帖目标就是代替一些安保场景或者员工的行为监督，比如通过配置提示词识别乱停车之类的

@llllllll 在视觉大模型接入视频监控，通过简单的提示词配置来识别视频中行为的方案？中发帖

目标就是代替一些安保场景或者员工的行为监督， 比如通过配置提示词识别乱停车之类的。 
目前想到的办法就是对视频抽帧， 然后将图片让视觉模型去理解， 看看是否能识别出来。 
或许也可以将图片理解解析成文字， 将文字交给另一个纯文本模型，然后通过提示词的方式提取设定的行为。 
大佬们还有更好的方案吗？ 或者有开源的程序推荐不， 这可能是一个大模型很好的落地场景，好像也有商业化的实现了， 准备自己试着学习弄下搞搞玩玩