Schrödinger (@synbio)最近热乎的实用GitHub项目: Ollama OCR 基于 Ollama 视觉模型的图片文字识别工具,能帮你从图片中提取文字。 中发帖

最近热乎的实用GitHub项目: Ollama OCR 
这是一个基于 Ollama 视觉模型的图片文字识别工具,能帮你从图片中提取文字。


支持两种视觉模型:
LLaVA 7B:速度快,适合实时处理,就是准确度可能差点
Llama 3.2 Vision:准确度高,适合处理复杂的文档


提取出来的文字格式挺灵活:
可以是 Markdown 格式,保留原文的标题、列表这些样式
可以是纯文本,干干净净的
可以是 JSON 格式,结构化的数据
还能识别表格,或者提取关键信息对


GitHub:GitHub - imanoop7/Ollama-OCR
[image]
结果:
[image]