Lavoisier (@omni)新加坡科技设计大学的DeCLaRe实验室和英伟达开源的一款超快文本转音频模型:TANGOFLUX 中发帖

新加坡科技设计大学的DeCLaRe实验室和英伟达开源的一款超快文本转音频模型:TANGOFLUX 
在A40 GPU上3.7秒可生成30秒音频
可输出44.1kHz立体声
支持长音频,可生成最长30秒的音频。有 Google Colab的quickstart。


[image]