SS (@SS11) 在做图文知识库问答，怎么让 LLM 回答时带上知识库里的图？中发帖大家好，请教个技术问题

SS (@SS11) 在做图文知识库问答，怎么让 LLM 回答时带上知识库里的图？中发帖

大家好，请教个技术问题。 
我正在做一个知识库问答系统，知识库是图文并茂的 PDF 文档。 
需求是： 

输入：一个包含复杂图文内容的知识库（例如产品手册、设计图纸、PDF 报告等）。
输出：当用户提问时，系统不仅能基于知识库的文本内容生成准确答案，还能在答案中智能地引用或直接展示相关的图片、图表或截图

现在卡在： 

图片和文字怎么一起做向量化，才能搜得准？
模型生成答案时，怎么知道该引用哪张图？

我设想的流程是 PDF / 文档 -> OCR -> Markdown (文本与图片链接) -> 喂给大模型。 但这个流程感觉过于简单，尤其是在向量化和检索阶段，如何处理 Markdown 里的图片标记 ![alt-text](image.jpg)，并让它与文本块产生强关联。 
我知道市面上的一些项目（如 Bisheng）或其他商业产品已经实现了类似功能，效果看起来还不错。我非常好奇其背...