李 (@lizhian) 在目前多模态模型的视觉理解能力中发帖对于当前的多模态模型的视频理解，均为视频抽帧理解，将视频按照每秒抽出多少帧（即参数FPS=[0-24],Gemini支持到24，doubao仅支持到5）进行图像理解，那么模型究竟是如何理解这些内容的呢，是将这些内容转为文本来理解？还是将这些帧图像加上时间戳转化为token？向量存储在对应云上呢？目前我有一个项目是对多个视频加一段脚本进行混剪计划生成

李 (@lizhian) 在目前多模态模型的视觉理解能力中发帖

对于当前的多模态模型的视频理解，均为视频抽帧理解，将视频按照每秒抽出多少帧（即参数FPS=[0-24],Gemini支持到24，doubao仅支持到5）进行图像理解，那么模型究竟是如何理解这些内容的呢，是将这些内容转为文本来理解？还是将这些帧图像加上时间戳转化为token？向量存储在对应云上呢？ 
目前我有一个项目是对多个视频加一段脚本进行混剪计划生成。即把多个视频素材喂给模型让模型基于我的指令生成多个混剪方案。当然我也看到了近期字节推出的vidi2，它论文里面的一个场景可以说和我这个项目一模一样（见下图），但是我从它的试用demo里并没有看到或者说体验到它论文中说的这种效果。 
 [image] 
求佬友指点一二， 🥺