Jason Smith 在 请教一个貌似简单,但问遍所有主流ai大模型都无法解决的问题,自动化word文档旧格式Equation转换问题 中发帖
主要目的
最近想通过本地ai模型来做文档格式化解析,简单说就是把word,pdf提取成格式化的json ,markdown格式,要把数学公式转成LaTeX格式, 貌似主流各种库都非常的多,个人看到最有名的就是makritdown,微软出品
碰到的问题
有一些旧的word文档,里面的一些数学公式都是旧的Equation Editor 3.0,就是math type格式的公式,这种用makritdown ,pandoc等等,各种工具都无法解析成Latex,需要转换成Office Math ML格式,然后才能转换
office 2016以上的版本,有个自动转换功能,就是你打开这种文档,双击旧的功能,会提示你自动转换,试过,大部分能正确转换,但是,还是搞不明白,为啥还是有部分公式死活转变不过来
[image]
测试主流的在线ai平台,很多能正确转换,搞不清楚他们背后怎么处理这些文档的...