Yoan Huang 在 咱web端也能跑本地知识库,RAG(傲娇)-篇章2-数据预处理与匹配结果优化 中发帖
众所周知,RAG 最基本的流程是:
数据处理 → 向量化 → 存储 → 匹配文本 → 结果优化 → 最终的匹配结果
其中,数据预处理与匹配结果优化尤为重要。
1. 数据预处理:文本分块(Chunking)
在处理一篇长篇幅的文章时,通常需要将整个文本切分为多个小块,每个小块分别向量化后再存储。
拆分块的重要性
如果分块方式不合理,可能会导致无法命中真正相关的内容。因此,合理的分块策略至关重要。
如何拆分?
看这里:
👉 Text Splitters Overview - LangChain
文章类型数据:推荐使用 Text-structured
HTML 等结构化标签类型:推荐使用 Document-structured
2. 弥补 RAG 匹配缺陷:大小块 + 关键词索引
即使文本被拆成多个块,匹配结果依旧可能不准确。因为 RAG 本身存在局限性:若问题与任何文本...