Ezio Sweet J. Ding (@EzioSweet)【文献翻译】关于文献翻译的思考以及简单的工作流程 中发帖

这两天一直在思考怎么将PDF英文文献翻译成好理解、好阅读、好查阅的中文形式,研究了一下将整个流程整理一下。 
总体流程
对于一个PDF,直接对译为中文PDF在很多时候是不合适的,主要问题在于中英文表述相同意义下的字数不同,以及对公式处理不佳。考虑这一点,找到一个合适的中间格式来转可能更好。
显然markdown完美符合这个中间格式的要求,换句话说我们第一步就要将PDF转成markdown,然后因为markdown纯文本的格式,直接按段落分丢给LLM翻译就行了
而且markdown本身就有极佳的可读性,也可以借助mdbook等SSG工具转换成网页从而在各个端都能访问阅读
用流程图描述就是这样
graph LR
Start[原始 PDF 文件] --> CoreProcess
subgraph CoreProcess [核心处理流程]
directio...