Kai Li (李凯) (@JusperLee)[开源/硬核] 2.4k小时干翻100万小时?我们开源了一个颠覆大规模硬怼的音频分离数据集 Hive 中发帖

各位佬友,今天给大家分享一个我们团队最近刚中/刚放出来的硬核工作:Hive 一个用于通用声音分离(Universal Sound Separation, USS)的高纯度、语义一致性合成数据集。 
一句话总结这个工作的含金量:用它训练的模型,仅用 ~0.2% 的数据量,在零样本(Zero-shot)通用声音分离任务上,硬刚并平替了 Meta 等大厂用 100 万小时数据堆出来的音频大模型(如 SAM-Audio)。

项目主页 & 试听 Demo: https://cslikai.cn/Hive/
ArXiv 论文: https://arxiv.org/abs/2601.22599


为什么要做这个?
玩过 AI 音频分离(比如把一段视频里的环境音、狗叫、下雨声单独剥离出来)的佬友应该知道,目前主流的做法和 LLM 一样:大力出奇迹。把网上的油管视频、各种野外录音(In-the-wil...