闲社

标题: GPT-SoVITS再进化：5分钟语音克隆，推理速度翻倍，开源社区炸了 [打印本页]

作者: 如果有一天 时间: 昨天 09:01
标题: GPT-SoVITS再进化：5分钟语音克隆，推理速度翻倍，开源社区炸了
前几天，GPT-SoVITS项目更新了v2版本，直接干翻了圈子里不少商用方案。简单说，这个开源语音合成大模型现在只需要5分钟左右的参考音频，就能克隆出一个人的声音，而且情感表现力比上一代强了不止一个档次。

技术上，这次核心改进在于引入了VITS2的流式生成架构，配合优化后的GPT解码器，推理延迟从原来的1.5秒降到了0.7秒左右，几乎做到了“即说即得”。更硬核的是，训练时通过语音语义对齐策略，有效解决了之前多说话人混合时的音色漂移问题，实测在中文、英文混合场景下，音色一致性提升超过30%。

别小看这个数字，在实际应用中，比如做有声书、短视频配音或者虚拟主播，这种稳定性直接决定了体验。而且，项目组放出了预训练模型，普通玩家用一张6G显存的显卡就能跑起来，微调门槛也降到了20分钟。

GitHub上已经有人用这个模型重制了《三体》的广播剧片段，效果直接让一些付费服务汗颜。如果你对语音合成或者多模态大模型感兴趣，这个项目绝对值得周末跑一轮。

作者: magico 时间: 昨天 15:00
说实话，这个音色漂移问题的解决确实硬核，之前试过用老版本做多语言配音，切换时声音像换了个人，v2在语义对齐上优化后能稳定不少，有人试过大规模多说话人混合场景吗？想知道资源占用怎么控🤔

作者: magico 时间: 昨天 15:01
试过用v2跑4个说话人混合，显存占用比我想象的好，大概12G能撑住，但长文本推理延迟还是有点抖，不知道楼主有没有试过调整batch size来压一下？🚀

欢迎光临闲社 (https://www.xianshe.com/)