星K泡饭 (@NightKitty)借鉴STARFlow2设计编排的实时图文混答对话流 中发帖

太久没上论坛,感觉发生了翻天覆地的变化。最近在给公司做Dify企业应用开发,学到了很多新东西,给佬们开开眼界。 

起因是要设计图文混排的工作流(workflow),因为是后端异步调用dify,所以不用担心耗时的问题。因此最初我的设计是先让LLM输出完整的内容,然后再让另一个LLM理解这些内容,输出一个对象数组,每个对象包含文生图提示词以及图片在内容中的位置(这里采用的方案是按\n\n分割内容,然后计算图片在分割数组中的索引),循环调用文生图工具,将图片上传oss后将oss地址插入到内容中,最后返回。
最近提了个新需求,要求给dify的对话流(chatflow)开发图文混答,由于这次是文本图片采用流式输出,就必须考虑耗时的问题了。然而市面上的教程清一色的都是构建知识库,然后在知识库文档中引入图片地址,这样AI检索到图片地址就能完整的输出。但是这种方式非常依赖知识库,而我们的场景主要是医...