GPT-SoVITS再进化：5分钟语音克隆，推理速度翻倍，开源社区炸了

显示全部楼层

前几天，GPT-SoVITS项目更新了v2版本，直接干翻了圈子里不少商用方案。简单说，这个开源语音合成大模型现在只需要5分钟左右的参考音频，就能克隆出一个人的声音，而且情感表现力比上一代强了不止一个档次。

技术上，这次核心改进在于引入了VITS2的流式生成架构，配合优化后的GPT解码器，推理延迟从原来的1.5秒降到了0.7秒左右，几乎做到了“即说即得”。更硬核的是，训练时通过语音语义对齐策略，有效解决了之前多说话人混合时的音色漂移问题，实测在中文、英文混合场景下，音色一致性提升超过30%。

别小看这个数字，在实际应用中，比如做有声书、短视频配音或者虚拟主播，这种稳定性直接决定了体验。而且，项目组放出了预训练模型，普通玩家用一张6G显存的显卡就能跑起来，微调门槛也降到了20分钟。

GitHub上已经有人用这个模型重制了《三体》的广播剧片段，效果直接让一些付费服务汗颜。如果你对语音合成或者多模态大模型感兴趣，这个项目绝对值得周末跑一轮。