张大宇学不动 (@JunoirYu)关于 fastgpt 返回图文的问题 中发帖

我正在使用FastGPT构建一个知识库,希望最终能实现图文并茂的问答 
当前已实现的方案

我将训练资料手动整理成Markdown格式,包含标准的图片语法,例如:
![图片描述](图片URL)
将此类Markdown文件导入FastGPT进行训练后,AI能够学会并返回相同格式的图文内容。
前端通过Markdown渲染器展示,流程已跑通

遇到的核心问题
我手头的原始资料大多是PDF和Word文档 ,内部图文混排 。目前看来,FastGPT默认的文档解析(或Embedding)逻辑似乎会过滤掉图片 ,只提取纯文本,导致训练后的模型丢失了图片信息。
难道我要修改 fastgpt 源码调整 embedding 逻辑吗。。。 这对我难度有点大,并且后面合并他源分支的改动可能会不太好搞 。
在不修改FastGPT核心源码的前提下,有没有什么处理方案?
或者有什么开源工具可以把 pdfwo...