kejun (@ke_jun) 在 250620 三花AI日报:消费级显卡实现 FLUX.1-dev 微调;Kyutai 推出 STT 模型;Adobe 基于 Wang 2.1 的实时视频生成;NVIDIA 基于扩散模型的通用视频重照明技术;HeyGen 推出 AI 广告生成工具 中发帖
Hugging Face 官方教程:消费级显卡实现 FLUX.1-dev 微调
[图片]
Hugging Face 官方发布教程《LoRA Fine-Tuning FLUX.1-dev on Consumer Hardware》,详细讲解如何在单张消费级显卡(10GB显存)上,使用 QLoRA 技术和 diffusers 库对 FLUX.1-dev 模型进行高效微调。
佬们可以在这里看完整教程细节
Kyutai 推出 STT 模型
Kyutai Speech-To-Text 是一款开源的语音转文本模型,支持流式传输和批量推理两种模式,运行速度极快。它提供两个版本:
纯英语 2.6B 参数模型 - 即使作为流式模型,在基准测试中表现也优于 Whisper Large v3
轻量级 1B 参数双语模型 - 专为英语/法语实时语音聊天应用优化
可惜没有中文,佬们可以直接在官方...