codeboy 在【开源分享】用 MLLM 对图像进行批量打标！大幅提升训练效果中发帖各位佬友，大家好！由于目前主流生图模型 (如 Flux) 原生使用自然语言进行训练，而常规的 tagger (如 wd-tagger) 输出局限在特定的词汇表中，难以精确描述图像，常常导致训练 LoRA 时难以收敛，效果较差

codeboy 在【开源分享】用 MLLM 对图像进行批量打标！大幅提升训练效果中发帖

各位佬友，大家好！ 
由于目前主流生图模型 (如 Flux) 原生使用自然语言进行训练，而常规的 tagger (如 wd-tagger) 输出局限在特定的词汇表中，难以精确描述图像，常常导致训练 LoRA 时难以收敛，效果较差。 
于是，我写了个 Python 小工具，利用多模态大模型的能力，全自动地为你的图片生成详细、结构化的标签，可以更加精准地描述图像。 
它支持自定义 API Endpoint，可以直接用咱们论坛佬友分享的各种 API 池，把成本降到最低！本地部署的 VLM 也能方便对接 (使用 OpenAI 格式的 API 都能使用)。 
✨ 主要功能

🏷 AI 自动打标：直接把图片丢给模型，自动生成详细的标签，风格、主体、场景、构图全都有。
⚡ 批量处理：支持多线程并发处理，文件夹里成百上千张图也能快速搞定。
📌 自定义触发词：在开头添加固定的触发词，更好地固定图像特征。
🤖 ...