Yoan Huang 在咱web端也能跑本地知识库,RAG(傲娇)-篇章2-数据预处理与匹配结果优化中发帖众所周知，RAG 最基本的流程是：数据处理 → 向量化 → 存储 → 匹配文本 → 结果优化 → 最终的匹配结果其中，数据预处理与匹配结果优化尤为重要

Yoan Huang 在咱web端也能跑本地知识库,RAG(傲娇)-篇章2-数据预处理与匹配结果优化中发帖

众所周知，RAG 最基本的流程是： 

数据处理 → 向量化 → 存储 → 匹配文本 → 结果优化 → 最终的匹配结果 

其中，数据预处理与匹配结果优化尤为重要。 
1. 数据预处理：文本分块（Chunking）
在处理一篇长篇幅的文章时，通常需要将整个文本切分为多个小块，每个小块分别向量化后再存储。 
拆分块的重要性
如果分块方式不合理，可能会导致无法命中真正相关的内容。因此，合理的分块策略至关重要。 
如何拆分？
看这里： 
👉 Text Splitters Overview - LangChain 

文章类型数据：推荐使用 Text-structured
HTML 等结构化标签类型：推荐使用 Document-structured


2. 弥补 RAG 匹配缺陷：大小块 + 关键词索引
即使文本被拆成多个块，匹配结果依旧可能不准确。因为 RAG 本身存在局限性：若问题与任何文本...