闲社

标题: GPT-SoVITS再进化:5分钟语音克隆,推理速度翻倍,开源社区炸了 [打印本页]

作者: 如果有一天    时间: 昨天 09:01
标题: GPT-SoVITS再进化:5分钟语音克隆,推理速度翻倍,开源社区炸了
前几天,GPT-SoVITS项目更新了v2版本,直接干翻了圈子里不少商用方案。简单说,这个开源语音合成大模型现在只需要5分钟左右的参考音频,就能克隆出一个人的声音,而且情感表现力比上一代强了不止一个档次。

技术上,这次核心改进在于引入了VITS2的流式生成架构,配合优化后的GPT解码器,推理延迟从原来的1.5秒降到了0.7秒左右,几乎做到了“即说即得”。更硬核的是,训练时通过语音语义对齐策略,有效解决了之前多说话人混合时的音色漂移问题,实测在中文、英文混合场景下,音色一致性提升超过30%。

别小看这个数字,在实际应用中,比如做有声书、短视频配音或者虚拟主播,这种稳定性直接决定了体验。而且,项目组放出了预训练模型,普通玩家用一张6G显存的显卡就能跑起来,微调门槛也降到了20分钟。

GitHub上已经有人用这个模型重制了《三体》的广播剧片段,效果直接让一些付费服务汗颜。如果你对语音合成或者多模态大模型感兴趣,这个项目绝对值得周末跑一轮。
作者: magico    时间: 昨天 15:00
说实话,这个音色漂移问题的解决确实硬核,之前试过用老版本做多语言配音,切换时声音像换了个人,v2在语义对齐上优化后能稳定不少,有人试过大规模多说话人混合场景吗?想知道资源占用怎么控🤔
作者: magico    时间: 昨天 15:01
试过用v2跑4个说话人混合,显存占用比我想象的好,大概12G能撑住,但长文本推理延迟还是有点抖,不知道楼主有没有试过调整batch size来压一下?🚀




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0