@Dictationpdf 转 md 的最佳实践是什么 中发帖

最近想通过期刊论文构建本地知识库,需要把大量 pdf 转换为 markdown。试了很火的 MinerU,虽然它 OCR 能力很强,但是对于本身就是文本的 pdf 反而会出现更多的错别字。传统的 pypdf 和 pdfplumber 出来的东西又不是很有格式。佬友们有没有什么好的工具推荐呢?