@AoManoh有无懂RAG的佬友?我想请教一下法律文档如何分块 中发帖

如题,本人再跑公司的RAG业务。主要是将郭嘉的法律 PDF 通过Mineru 解析得到markdown文本和定位json数据后,对文档进行清洗和分块。但是现在遇到两个问题: 

Mineru 解析后的文档存在 OCR 错误, 需要调整格式、清洗错误内容
分块策略,最开始用 RAGFlow 的分块策略,但是效果很糟糕。不知道是因为,没有清洗数据还是其他的原因

针对这两个问题,佬友们有什么推荐的文章和宝贵的建议吗?
目前,我的想法是,在清洗格式错误上,由于法律文档要求 100% 可信度,所以用 LLM 清洗风险就很大了,只能考虑一下算法洗 + 自己手动调整。但是我草。200多个法律文档,而且只有我一个人做,这工程量太大了。
所以佬友们,救救我 🥲 救救我 🥲 救救我 🥲