ShiroEirin 在 居然没人关注d指导的新模型-deepseekOCR吗 中发帖
这个OCR模型骚的地方在于OCR扫完后的是理解文档的token。可以直接作为训练集给模型训练了,直接自回归一体(偷偷摸摸就给你的文档当训练集了),而且体积又小,它使用了100个视觉标记就能超越需要256个标记的GOT-OCR2.0,而MinerU2.0使用7000多个标记的情况下,DeepSeek-OCR也能以不到800个标记的量取得更好的表现。800bdba198854beeb257ec8786c423f7|690x269
[3331fbbc096a37a30e02e525baba4803]