疑无 (@yiwu) 在 Dify 知识库的一个大坑(以及解决方案) 中发帖
最近在研究自建在线 RAG,目前把 fastgpt, dify, ragflow 都试了试,发现 dify 在导入文档时有一个大坑。以 诡秘之主 小说全本 txt 为例,如下图:
[image]
如果这里“分段标识符”按照默认选择"\n\n“,那么分块会出现这样的:
[image]
对你没看错,就算选了 500 tokens 的块,由于小说文件里这几句话后面连续\n,所以它们每个都单独分块了。什么概念呢?如果这时候我以"痛“为关键词搜索知识库,那么排名前三相关的取回结果大概率就是”痛!好痛!头好痛!“这三个块没有任何上下文!实际上在另一个库里我已经遇到了这个非常难绷的现象,按一个角色名字取回数据,返回10个块8个里头都只有这个人的名字 :tieba_087:基本没取回什么有用的东西。
反之,我们把这个劳什子”分段标识符“换成滚键盘获得的任意字符串比如:
[image]
就...