姜望 (@jiangwang)MinerU商业化二开 中发帖

搞大模型RAG应用开发的佬估计都听说过MinerU, 
可以高质量得识别各种格式的文档,比如DOCX、PDF、PNG等等,
然后返回结构化的JSON内容,包含标题分段、段落分段、表格类型、公式识别等等。
原仓库:https://github.com/opendatalab/MinerU
官方版本问题:
包含禁止非商业的排序模型layoutreader,
因公司业务需要,对其进行了二次开发,
开发后效果和使用排序模型相差不大,有需要的佬可以参考参考
二次开源地址:
https://github.com/muzhichu/MinerU
主要二开内容:

使用规则排序替换排序模型layoutreader
优化Dockerfile(在项目根目录下):集成libreoffice到容器,支持直接解析docx、ppt等文件
解决libreoffice转码和MinerU识别中文乱码问题
...