@yyy2024 在 用硅基的免费模型THUDM/GLM-4-9B-0414翻译markdown文件 中发帖
瞎折腾写了个翻译脚本来翻译markdown文件。
为什么要搞个脚本来翻译?
沉浸式翻译pdf的效果一般,虽然格式保留了,但是看着也挺难受。所以我用minerU把pdf先转成了markdown。
如果不想这么麻烦,有没有更好的办法?
有的,把markdown转成html,然后再用沉浸式翻译效果就更好了。
脚本如下:
————————————
脚本特点:
LLM参与文本分块
多线程并发处理(ThreadPoolExecutor加速)
错误重试机制
————————————
import requests
import time
import re
from typing import List
from concurrent.futures import ThreadPoolExecutor, as_completed
def calculate_token_size(...