@qq3829596922 在 [开发问题] 批量提取word文档中的图片和表格,转成markdown,保存图片表格url在原位置 中发帖
目前解决方案
1.将word转为pdf使用mineru等提取
问题:原word中有图片是嵌套在表格中,比如一些对比的图片而且比较小,mineru整个识别为了表格
2.使用pandocx提取,
问题:pandocx无法提取word里面的表格
3.用收费库aspose提取,表格能提取了
问题:aspose提取出来的图片不是原图
有没有其他人有过类似需求的,用docling?