闲社
标题:
GPT-SoVITS开源更新!推理速度快50%,中英文合成更自然
[打印本页]
作者:
jiangyonghao
时间:
昨天 09:01
标题:
GPT-SoVITS开源更新!推理速度快50%,中英文合成更自然
兄弟们,今天聊个硬核的。开源语音合成项目GPT-SoVITS刚发布了v2.3版本,实测推理速度比之前快了约50%,而且中英文混合合成效果终于不那么“机械感”了。
技术细节方面,这次更新主要优化了VITS的声学模型和GPT的文本编码器之间的对齐机制。老版本的痛点在于,长文本或多语言混合时,声学模型容易“跑偏”,导致语气僵硬或发音糊。新版引入了“动态音素对齐损失”和“自适应学习率调度”,在训练时强制让GPT的输出与音素序列更精准匹配。测试下来,在英伟达RTX 4090上,合成一段20秒的中英混合音频,从提交到出结果只需0.8秒,而之前至少1.2秒。
实用性上,这个更新对做短视频配音、AI主播的个人开发者很友好。你可以直接用它的开源代码,用自己录制的少量音频(比如10-20分钟)微调出一个音色,然后批量生成带货文案或新闻播报。值得注意的是,新版对语速和停顿的控制更细腻,比如在“嗯”、“啊”等语气词处能自动插入合适的停顿,不再像之前那样“连珠炮”。
想玩的话,记得去GitHub仓库拉取最新代码,依赖包也要更新。如果遇到“显存溢出”报错,建议把batch_size调小到2或1。有踩坑的来楼下交流。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0