@liuyu 在想问下大佬们项目里的OCR都是怎么实现的中发帖现在在做一个项目，主要就是对于扫描件的PDF，还有其他一些文件里的小图片进行识别

@liuyu 在想问下大佬们项目里的OCR都是怎么实现的中发帖

现在在做一个项目，主要就是对于扫描件的PDF，还有其他一些文件里的小图片进行识别。 
用处的话，解析出来的数据需要做RAG，还有一些其他的业务，主要是要保证语义完整。但是文件内容的格式不确定，比较泛，需要满足各种各样的情况，还包括印章识别。 
项目里目前确定的是会有纯文本的大模型。 
目前看下来有两个不错的开箱就能用的： 
qwen3-vl：在服务器上放了一个，感觉效果还不错，基本上就满足了，调提示词就行。 
paddleocr-vl：线上的体验版看了一下，相同的图片，识别率比qwen差点，但是模型好像小一些，对硬件要求也低一点吧。 
还在考虑要不要做一个传统OCR的方案托底呀，万一上面两种最终用户那边都不能部署。 
但是没有做过传统OCR，感觉要实现上面的要求会比较复杂，有没有大佬指指路。 😖