wang (@wanghanlin)新项目pdf转md : MarkMuse 中发帖

MarkMuse:内部 RAG 大规模文档预处理解决方案
背景

公司正在建设基于 RAG 的知识库,急需高质量的文档预处理与数据清洗方案。

目前功能


高精度 PDF→Markdown:基于 Mistral AI OCR,精确提取文本与结构。


多模态支持:图片提取与增强(支持 OpenAI/千帆),为多模态分析打基础。


模板化提示词:内置 Jinja2 与 LangChain,灵活自定义转换规则。


批量与云存储:一键批量转换,原生集成 S3/MinIO 存储。


Mistral AI 获取

平台地址
免费申请key量大管饱
可以看一看文档效果pdf的ocr识别可以说第一
[image]

快速上手

pip install -r requirements.txt

cp env.sample .env && 编辑 .env 填写 API 密钥

python...