codeboy 在 【开源分享】用 MLLM 对图像进行批量打标!大幅提升训练效果 中发帖
各位佬友,大家好!
由于目前主流生图模型 (如 Flux) 原生使用自然语言进行训练,而常规的 tagger (如 wd-tagger) 输出局限在特定的词汇表中,难以精确描述图像,常常导致训练 LoRA 时难以收敛,效果较差。
于是,我写了个 Python 小工具,利用多模态大模型的能力,全自动地为你的图片生成详细、结构化的标签,可以更加精准地描述图像。
它支持自定义 API Endpoint,可以直接用咱们论坛佬友分享的各种 API 池,把成本降到最低!本地部署的 VLM 也能方便对接 (使用 OpenAI 格式的 API 都能使用)。
✨ 主要功能
🏷 AI 自动打标:直接把图片丢给模型,自动生成详细的标签,风格、主体、场景、构图全都有。
⚡ 批量处理:支持多线程并发处理,文件夹里成百上千张图也能快速搞定。
📌 自定义触发词:在开头添加固定的触发词,更好地固定图像特征。
🤖 ...