wang (@wanghanlin) 在 新项目pdf转md : MarkMuse 中发帖
MarkMuse:内部 RAG 大规模文档预处理解决方案
背景
公司正在建设基于 RAG 的知识库,急需高质量的文档预处理与数据清洗方案。
目前功能
高精度 PDF→Markdown:基于 Mistral AI OCR,精确提取文本与结构。
多模态支持:图片提取与增强(支持 OpenAI/千帆),为多模态分析打基础。
模板化提示词:内置 Jinja2 与 LangChain,灵活自定义转换规则。
批量与云存储:一键批量转换,原生集成 S3/MinIO 存储。
Mistral AI 获取
平台地址
免费申请key量大管饱
可以看一看文档效果pdf的ocr识别可以说第一
[image]
快速上手
pip install -r requirements.txt
cp env.sample .env && 编辑 .env 填写 API 密钥
python...