@liuyu想问下大佬们项目里的OCR都是怎么实现的 中发帖

现在在做一个项目,主要就是对于扫描件的PDF,还有其他一些文件里的小图片进行识别。 
用处的话,解析出来的数据需要做RAG,还有一些其他的业务,主要是要保证语义完整。但是文件内容的格式不确定,比较泛,需要满足各种各样的情况,还包括印章识别。
项目里目前确定的是会有纯文本的大模型。
目前看下来有两个不错的开箱就能用的:
qwen3-vl:在服务器上放了一个,感觉效果还不错,基本上就满足了,调提示词就行。
paddleocr-vl:线上的体验版看了一下,相同的图片,识别率比qwen差点,但是模型好像小一些,对硬件要求也低一点吧。
还在考虑要不要做一个传统OCR的方案托底呀,万一上面两种最终用户那边都不能部署。
但是没有做过传统OCR,感觉要实现上面的要求会比较复杂,有没有大佬指指路。 😖