星K泡饭 (@NightKitty) 在借鉴STARFlow2设计编排的实时图文混答对话流中发帖太久没上论坛，感觉发生了翻天覆地的变化

星K泡饭 (@NightKitty) 在借鉴STARFlow2设计编排的实时图文混答对话流中发帖

太久没上论坛，感觉发生了翻天覆地的变化。最近在给公司做Dify企业应用开发，学到了很多新东西，给佬们开开眼界。 

起因是要设计图文混排的工作流（workflow），因为是后端异步调用dify，所以不用担心耗时的问题。因此最初我的设计是先让LLM输出完整的内容，然后再让另一个LLM理解这些内容，输出一个对象数组，每个对象包含文生图提示词以及图片在内容中的位置（这里采用的方案是按\n\n分割内容，然后计算图片在分割数组中的索引），循环调用文生图工具，将图片上传oss后将oss地址插入到内容中，最后返回。 
最近提了个新需求，要求给dify的对话流（chatflow）开发图文混答，由于这次是文本图片采用流式输出，就必须考虑耗时的问题了。然而市面上的教程清一色的都是构建知识库，然后在知识库文档中引入图片地址，这样AI检索到图片地址就能完整的输出。但是这种方式非常依赖知识库，而我们的场景主要是医...