wangqiang 在 pdf 提取的方案,大家都有什么好的项目吗 中发帖
有老哥试过英伟达的 nv-ingest 项目吗?
目前试过了 mineru,docling, Unstructured Open Source - Unstructured, imanoop7/Ollama-OCR
上述项目总的来说都各有优缺点,想问问老哥 pdf 内容提取有啥好的方案没,需要考虑扫描 pdf,速度,表格,公式,图片等情况