@Leon0545 在 如何提取复杂PDF中的表格? 中发帖
佬友们周一早上好,第一次发帖,没想到就算是求助帖 😭.
问题是这样的,最近在使用AI解析PDF中的表格时上遇到了一些问题,
目前我的解析流程是:
1.使用PyMuPDF扫描查找表格,进行裁切成图片
2.图片送到qwen-vl-max 转为markdown 表格
我遇到的问题,复杂的表格会丢失个别列 ,例如:
我的PDF中的一页为:
[image]
解析后的效果:
[image]
期望的效果是(但不丢失column):
[image]
模型是:qwen2.5-vl-72b-instruct
想获取一些建议,如何做能做的更好呢?