@fengchris 在 MonkeyOCR开源 MinerU的有力对手 中发帖
MonkeyOCR采用"结构-识别-关系"(SRR)三元范式,既简化了模块化方法的多工具流程,又规避了使用大型多模态模型处理整页文档的效率低下问题。
相较于基于流程的MinerU方案,MonkeyOCR在九类中英文文档上平均准确率提升5.1%,其中公式识别提升15.0%,表格处理提升8.6%。与端到端模型对比时,我们的30亿参数模型在英文文档上取得最佳平均表现,性能超越Gemini 2.5 Pro和Qwen2.5 VL-72B等模型。针对多页文档解析任务,我们的方法处理速度达到每秒0.84页,显著优于MinerU(0.65页/秒)和Qwen2.5 VL-7B(0.12页/秒)。
[image]
[image]
仓库地址:echo840/MonkeyOCR · Hugging Face
模型地址:echo840/MonkeyOCR · Hugging Face
Demo:ht...