@windgoRAG知识库还有搞头吗? 中发帖

项目背景
由于业务需求,团队需处理海量的电子文档。单个表单涉及的 PDF 数量通常在 1000 至 5000 份不等。自 2025 年 12 月启动知识库项目以来,我们在几个月的实战中遇到了以下瓶颈:

超长文档解析难:部分文档页数过多,解析速度极慢,且极易触发内存溢出(OOM)。
工程图纸识别精度低:项目中包含大量工程图纸,通用解析工具常将其误识别为普通图片,导致要素提取缺失或严重失真。
多格式兼容性差:用户上传的文件涵盖 PDF、图片、CAD 及 Office 办公文档。虽然 PDF 解析相对成熟,但对于超多列的复杂 Excel 表单,解析效果堪称“灾难”。
深度问答可靠性不足:对于高难度的逻辑推理问答,单纯依赖通用 LLM 的语义检索往往难以达到业务精度要求。
其他长尾问题:如离线部署环境下的资源分配、响应延迟等。


选型调研与避坑指南
考虑到研发周期,我们优先对市面主流的开源 ...