周 (@yoyo) 在分析下目前pdf沉浸式翻译中存在的难题中发帖前几天写了个pdf的翻译工具，后来因为有人上传敏感信息关闭了

周 (@yoyo) 在分析下目前pdf沉浸式翻译中存在的难题中发帖

前几天写了个pdf的翻译工具 ，后来因为有人上传敏感信息关闭了。后来在优化的时候遇到了一些问题，然后也查询了很多的资料，发现有很多问题是不好解决的 
1. 数学,公式不好识别 
单独的OCR公式是有很多东西可以做到识别的，但是在pdf的文本中是有很多数学符号，夹杂公式描述，目前的死板做法是全部当做字符处理，那么翻译的结果就是不对的。 
 [image] 
2. 版式复杂影响阅读顺序 
这个主要就是阅读顺序的问题，可以看下面的截图，正常人是可以理解到我们的阅读是按照123顺序阅读的，但是目前的pdf解析工具基本都是分块解析文本内容，这样就会将原本完整的内容截断，上下文内容截断，那么翻译的时候也会不准确。需要识别出文本的阅读顺序，这个是pdf工具阅读和处理目前没有很好解决的问题。查到一个layoutlm使用机器学习的方法来做这个阅读顺序，但是他没有使用文本理解的方式。相同的版式，不一样的阅读顺...