兵马俑 (@clover_cn) 在 开源了一款多角色有声小说自动配音玩具,求大佬们指点下 中发帖
硅基流动的indextts2以及开源的indextts2这两种都兼容。
目前的工作流是LLM 解析文本 → 手动选择角色情感音频 → 生成配音 → 合成。
[PixPin_2026-03-17_14-12-26]
[PixPin_2026-03-17_14-20-01]
[PixPin_2026-03-17_14-13-08]
我想省去手动选择角色参考音频, 在LLM解析小说的时候顺便给我把角色参考音频也解决了,但是目前没有神好的思路。
我的参考音频都是按照人名-情绪来命名的
[PixPin_2026-03-17_14-12-46]
目前有两个不确定性:
1.重复/随机分配参考音频
2.男女音频混用
实在是没有什么好的方法了,抛开大模型的随机性有什么方式可以尽量弥补的哇?
仓库有使用硅基流动生成的成品音频试听,要是使用自建的indextts2效果会更好一点,...