lycohana 在 想和佬友们讨论一下多模态辅助视频总结的流程 中发帖
下面是目前做的大概的流程,想请教一下如何修改或者添加流程结果会更优?
对于无语音的视频是没办法了,因为是基于语音转文字总结的
flowchart TD
A["文本总结原链路"] --> B["转写内容完成"]
B --> C["LLM 生成结构化摘要"]
C --> D["进入图文总结链路"]
D --> E1["并发任务 1: 下载视频源"]
D --> E2["并发任务 2: LLM 规划捕获帧"]
E1 --> F1["按图文总结专用分辨率设置下载"]
F1 --> F2["360p / 480p / 720p / 自动"]
F2 --> F3["得到用于抽帧的视频文件"]
E2 --> G1["输入: 转写内容 + 结构化摘要 + 章节时间轴 + 转写摘要"]
G1 --> G2["提示词引导 AI 判断哪里可能有重要画面"]
G...