fliper 在 做了一个支持多种ocr工具的pip包:multi-ocr-sdk 中发帖
项目介绍
开源地址 GitHub - B-Beginner/MULTI-OCR-SDK: A simple and efficient Python SDK for DeepSeek-OCR API
MULTI-OCR-SDK 是一个简单高效的 Python SDK,用于调用各类OCR API(现已支持deepseek-OCR、视觉模型VLM),可以高精度、高性能地将文档(PDF、图片)转换为 Markdown 文本。
使用
安装
# 通过pip安装
pip install multi-ocr-sdk
# 或者通过uv安装
uv add multi-ocr-sdk
通过视觉模型VLM完成OCR的基础用法
import os
from pprint import pprint
from multi_ocr_sdk import VLMClient
API_KEY = "your...