@yyy2024最近对rag的一些想法和实践 中发帖

去年这会儿,大家都在搭rag,从dify, coze到ragflow,但是经常会遇到一个问题,demo好整,但是效果嘛,不好说。现在已经有一些解决方案,比如用easydataset做qa对,用Hyde扩展回答的范围,用RAG去扩展问题的范围。但是还是有一个我认为不能理解的,那就是向量相似度不等于语义相关性。如果不做qa对,仅仅按chunk切分,会导致什么问题呢,三重语义断裂——代词指代丢失、跨句依赖断裂、术语定义分离。更恼火的还有,Embedding导致的多个不确定的方面:比如模型选择、分块策略、相似度阈值导致相同的查询返回不同的结果。现在其实也有很多项目已经认识到这点,抛弃embbeding,比如:pageindex,sirchmunk,tree-search等等等,我研究了这些agentic+no embbeding的方案,然后有了一些自己的想法和实践。 
解决之道是Agentic R...