@iheee求推荐:适合中文有声书旁白配音的 TTS 模型/方案 中发帖

我现在在做有声书/故事类内容的自动配音。角色对白部分目前问题不大,因为每个角色说的话相对短,TTS 的情绪、音色和表现力比较容易控制,效果也还可以。现在主要卡在"旁白"上,因为旁白文本通常很长,需要承担大量叙述、转场、气氛铺垫和情绪推进。 
如果直接用普通 TTS 生成,常见问题是:

语调太平,像播报或机械朗读;
长文本情绪不稳定,前后听感不一致;
缺少有声书旁白需要的节奏感、停顿和抑扬顿挫;
语速、段落停顿、情绪推进不太好控制;
分段生成再拼接时,容易出现语气断裂或衔接不自然。

我想找的是更适合"中文有声书旁白"的 TTS 模型或生成方案。目标效果大概是:

普通话清晰,适合长时间听;
语速可控,不能太快;
情绪有层次,但不要戏剧化过头;
有自然停顿和叙述节奏;
能稳定处理较长旁白文本;
最好能通过 prompt / instruction 控制旁白风格。

想求助各位佬:有没有...