人间惊鸿客 (@dhw0604) 在有没有研究RAG的大佬，请帮我指导一下中发帖我现在遇到一个问题，就是我想做一个RAG知识库，我目前考虑的是微软的那套GraphRAG，因为他是知识图 + 社区摘要，想着做这个的话，就还可以做成一个知识图谱来可视化知识库了，但是我现在就是我把pdf识别成json后，在提取实体和关系这步发现，我的文档内容失去了很多，是我考虑的地方有遗漏还是什么问题，请大佬帮我解答一下，举个例子：我去北京王府井吃了一碗豆汁，提取后的结果就是我 → 北京，我 → 王府井 ,北京 → 王府井 , 我 → 豆汁

人间惊鸿客 (@dhw0604) 在有没有研究RAG的大佬，请帮我指导一下中发帖

我现在遇到一个问题，就是我想做一个RAG知识库，我目前考虑的是微软的那套GraphRAG，因为他是知识图 + 社区摘要，想着做这个的话，就还可以做成一个知识图谱来可视化知识库了，但是我现在就是我把pdf识别成json后，在提取实体和关系这步发现，我的文档内容失去了很多，是我考虑的地方有遗漏还是什么问题，请大佬帮我解答一下，举个例子：我去北京王府井吃了一碗豆汁，提取后的结果就是 我 → 北京 ，我 → 王府井 ,北京 → 王府井 , 我 → 豆汁。但是这样的话其实根本连贯不起来啊，而且我处理的pdf都是一些操作手册，安全手册，里面有安全须知，计算公式，图表等等。这些做成关系明显就会失去很多内容啊。我这检索处理内容不就失真严重了吗？请问大佬们有何高见，给我指点一下。