姜望 (@jiangwang) 在 MinerU商业化二开中发帖搞大模型RAG应用开发的佬估计都听说过MinerU, 可以高质量得识别各种格式的文档，比如DOCX、PDF、PNG等等，然后返回结构化的JSON内容，包含标题分段、段落分段、表格类型、公式识别等等

姜望 (@jiangwang) 在 MinerU商业化二开中发帖

搞大模型RAG应用开发的佬估计都听说过MinerU, 
可以高质量得识别各种格式的文档，比如DOCX、PDF、PNG等等， 
然后返回结构化的JSON内容，包含标题分段、段落分段、表格类型、公式识别等等。 
原仓库：https://github.com/opendatalab/MinerU 
官方版本问题： 
包含禁止非商业的排序模型layoutreader， 
因公司业务需要，对其进行了二次开发， 
开发后效果和使用排序模型相差不大，有需要的佬可以参考参考 
二次开源地址： 
https://github.com/muzhichu/MinerU 
主要二开内容： 

使用规则排序替换排序模型layoutreader
优化Dockerfile（在项目根目录下）：集成libreoffice到容器，支持直接解析docx、ppt等文件
解决libreoffice转码和MinerU识别中文乱码问题
...