人间惊鸿客 (@dhw0604)有没有研究RAG的大佬,请帮我指导一下 中发帖

我现在遇到一个问题,就是我想做一个RAG知识库,我目前考虑的是微软的那套GraphRAG,因为他是知识图 + 社区摘要,想着做这个的话,就还可以做成一个知识图谱来可视化知识库了,但是我现在就是我把pdf识别成json后,在提取实体和关系这步发现,我的文档内容失去了很多,是我考虑的地方有遗漏还是什么问题,请大佬帮我解答一下,举个例子:我去北京王府井吃了一碗豆汁,提取后的结果就是 我 → 北京 ,我 → 王府井 ,北京 → 王府井 , 我 → 豆汁。但是这样的话其实根本连贯不起来啊,而且我处理的pdf都是一些操作手册,安全手册,里面有安全须知,计算公式,图表等等。这些做成关系明显就会失去很多内容啊。我这检索处理内容不就失真严重了吗?请问大佬们有何高见,给我指点一下。