812011525 在 分享一个自己写的 MinerU 后处理脚本,可用于建RAG知识库 中发帖
MinerU 后处理脚本
这是一个用于处理 MinerU 工具生成的 Markdown 文件的 Python 脚本,主要用于批量处理 PDF 转换后的文档,优化文件结构和图片路径。
mineru后处理.zip (4.7 KB)
功能特点
🔄 批量处理:自动扫描并处理目录下的所有 PDF 转换文件夹
📁 路径转换:将 Markdown 文件中的相对路径图片链接转换为绝对路径
📚 智能拆分:根据文件大小和标题结构自动拆分大型文档
📝 记录管理:自动记录转换历史,避免重复处理
🔍 内容优化:过滤并合并内容过少的章节,提高文档质量
工作原理
脚本会:
扫描当前目录下所有包含 .pdf 的文件夹
查找每个文件夹中的 full.md 文件
将相对路径图片链接转换为绝对路径
根据文件大小决定是否拆分:
小于 50KB:直接保存为完整文件
大于 50KB:按一级标题拆分,无标题则按固定大...