xy3 在 整理python读取文件为markdown给大模型的库 中发帖
magic-doc
Magic-Doc 是一个轻量级、开源的用于将多种格式的文档(PPT/PPTX/DOC/DOCX/PDF)转化为 markdown 格式的工具。支持转换本地文档或者位于 AWS S3 上的文件
magic-doc/README_zh-CN.md at main · opendatalab/magic-doc
MinerU
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
MinerU/README_zh-CN.md at master · opendatalab/MinerU
marker
Marker可快速准确地将文档转换为Markdown、JSON和HTML格式。
支持所有语言的PDF、图像、PPTX、DOCX、XLSX、HTML、 EPUB文件转换
VikParuchuri/marker...