天海逍遥 (@biggerm)LongCat-Audio-Codec 正式开源! 中发帖

一种专门为语音 LLM 优化的音频编解码解决方案。 
主要突破:


双重标记:语义标记和声学标记以低帧率(16.7Hz / 60ms)并行提取。这确保了建模的高效性和完整的信息完整性。


超高效率:LongCat-Audio-Codec 即使在极低比特率(如 0.43 kbps)下也能保持高可懂度。


实时准备:具备低延迟流式解码器架构。延迟控制在毫秒级,以实现实时交互。


解码器中的超分辨率技术进一步提升了音频质量,且无需额外模型!该解决方案降低了技术门槛,优化了移动/嵌入式 Speech LLM 部署的资源效率。
代码:
Github: GitHub - meituan-longcat/LongCat-Audio-Codec: LongCat Audio Tokenizer and Detokenizer
Huggingface: meituan-longcat/...