𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷 (@lezishen) 在 小米声音理解大模型 MiDashengLM-7B 发布并全量开源,22 个公开评测集刷新最好成绩 中发帖
[image]
MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。
2024 年,小米发布的 Xiaomi Dasheng 声音基座模型在国际上首次突破 AudioSet 50+ mAP,在 HEAR Benchmark 环境声、语音、音乐三大领域建立领先优势并保持至今。
Xiaomi Dasheng 在小米的智能家居和汽车座舱等场景有超过 30 项落地应用。行业首发的车外唤醒防御、手机音箱全天候监控异常声音、“打个响指”环境音关联 IoT 控制能力,以及小米 YU7 上搭载的增强哨兵模式划车检测等,背后都有 Xiaomi Dasheng 作为核心算法的赋能。
MiDashengLM 的训练数据由 100% 的...