xooov模型显存评估 中发帖

我有一个场景,需要对多个视频(10万个)轮询截图打上标签,即需要多模态识别图像上的危险源,多少显存大小是比较合理的,同时考虑短视频的模态输入,同时考虑使用人数500人? 
领导让我评估一下显存或者显卡怎么配置比较好
ps:让我入职不到一年的评估,怎么感觉像是让我背锅啊,但是确实只有我在搞AI