SS (@SS11)做图文知识库问答,怎么让 LLM 回答时带上知识库里的图? 中发帖

大家好,请教个技术问题。 
我正在做一个知识库问答系统,知识库是图文并茂的 PDF 文档。
需求是:

输入:一个包含复杂图文内容的知识库(例如产品手册、设计图纸、PDF 报告等)。
输出:当用户提问时,系统不仅能基于知识库的文本内容生成准确答案,还能在答案中智能地引用或直接展示相关的图片、图表或截图

现在卡在:

图片和文字怎么一起做向量化,才能搜得准?
模型生成答案时,怎么知道该引用哪张图?

我设想的流程是 PDF / 文档 -> OCR -> Markdown (文本与图片链接) -> 喂给大模型。 但这个流程感觉过于简单,尤其是在向量化和检索阶段,如何处理 Markdown 里的图片标记 ![alt-text](image.jpg),并让它与文本块产生强关联。
我知道市面上的一些项目(如 Bisheng)或其他商业产品已经实现了类似功能,效果看起来还不错。我非常好奇其背...