ShiroEirin 在居然没人关注d指导的新模型-deepseekOCR吗中发帖这个OCR模型骚的地方在于OCR扫完后的是理解文档的token

ShiroEirin 在居然没人关注d指导的新模型-deepseekOCR吗中发帖

这个OCR模型骚的地方在于OCR扫完后的是理解文档的token。可以直接作为训练集给模型训练了，直接自回归一体（偷偷摸摸就给你的文档当训练集了），而且体积又小，它使用了100个视觉标记就能超越需要256个标记的GOT-OCR2.0，而MinerU2.0使用7000多个标记的情况下，DeepSeek-OCR也能以不到800个标记的量取得更好的表现。800bdba198854beeb257ec8786c423f7|690x269 
 [3331fbbc096a37a30e02e525baba4803]