李 (@lizhian) 在 目前多模态模型的视觉理解能力 中发帖
对于当前的多模态模型的视频理解,均为视频抽帧理解,将视频按照每秒抽出多少帧(即参数FPS=[0-24],Gemini支持到24,doubao仅支持到5)进行图像理解,那么模型究竟是如何理解这些内容的呢,是将这些内容转为文本来理解?还是将这些帧图像加上时间戳转化为token?向量存储在对应云上呢?
目前我有一个项目是对多个视频加一段脚本进行混剪计划生成。即把多个视频素材喂给模型让模型基于我的指令生成多个混剪方案。当然我也看到了近期字节推出的vidi2,它论文里面的一个场景可以说和我这个项目一模一样(见下图),但是我从它的试用demo里并没有看到或者说体验到它论文中说的这种效果。
[image]
求佬友指点一二, 🥺