@Felix_David 在 求助,dify相关的问题 中发帖
求教,当前在使用dify开发一些功能,但是目前感觉dify的知识库难用的一批。主要是针对于表格数据和分段感觉存在较大问题:
1.首先是对于表格类型的数据(主要针对于文档中的表格,非结构化数据),表格类型的数据通常包含非单层表头,多层表头中常常还包含合并表格和拆分表格的情况,针对于的这种情况,ragflow似乎通过html的方式进行处理入库,貌似效果还可以,但是当挪到dify做接口的时候就似乎展现出完全不同的结果,这让人难以忍受。
2.分段,目前dify默认的分段方式,经过一些个人向的实践和测试,发现效果最好的是父子分段,当父分段较长的时候,效果比较好,这也较为合理,相当于将所有知识都丢给llm,让模型根据上下文通常会给出差强人意的回复。但是对于普通分段或者是子分段来说,通常是需要按照特定符号进行分段的,常见的通常为“/n/n”,但是这也造成了相当大的问题,例如,当我给定的文稿是word...