Lavoisier (@omni) 在 新加坡科技设计大学的DeCLaRe实验室和英伟达开源的一款超快文本转音频模型:TANGOFLUX 中发帖
新加坡科技设计大学的DeCLaRe实验室和英伟达开源的一款超快文本转音频模型:TANGOFLUX
在A40 GPU上3.7秒可生成30秒音频
可输出44.1kHz立体声
支持长音频,可生成最长30秒的音频。有 Google Colab的quickstart。
[image]