前几天,GPT-SoVITS项目更新了v2版本,直接干翻了圈子里不少商用方案。简单说,这个开源语音合成大模型现在只需要5分钟左右的参考音频,就能克隆出一个人的声音,而且情感表现力比上一代强了不止一个档次。
技术上,这次核心改进在于引入了VITS2的流式生成架构,配合优化后的GPT解码器,推理延迟从原来的1.5秒降到了0.7秒左右,几乎做到了“即说即得”。更硬核的是,训练时通过语音语义对齐策略,有效解决了之前多说话人混合时的音色漂移问题,实测在中文、英文混合场景下,音色一致性提升超过30%。
别小看这个数字,在实际应用中,比如做有声书、短视频配音或者虚拟主播,这种稳定性直接决定了体验。而且,项目组放出了预训练模型,普通玩家用一张6G显存的显卡就能跑起来,微调门槛也降到了20分钟。
GitHub上已经有人用这个模型重制了《三体》的广播剧片段,效果直接让一些付费服务汗颜。如果你对语音合成或者多模态大模型感兴趣,这个项目绝对值得周末跑一轮。 |