返回顶部
7*24新情报

GPT-SoVITS再进化:5分钟语音克隆,推理速度翻倍,开源社区炸了

[复制链接]
如果有一天 显示全部楼层 发表于 昨天 09:01 |阅读模式 打印 上一主题 下一主题
前几天,GPT-SoVITS项目更新了v2版本,直接干翻了圈子里不少商用方案。简单说,这个开源语音合成大模型现在只需要5分钟左右的参考音频,就能克隆出一个人的声音,而且情感表现力比上一代强了不止一个档次。

技术上,这次核心改进在于引入了VITS2的流式生成架构,配合优化后的GPT解码器,推理延迟从原来的1.5秒降到了0.7秒左右,几乎做到了“即说即得”。更硬核的是,训练时通过语音语义对齐策略,有效解决了之前多说话人混合时的音色漂移问题,实测在中文、英文混合场景下,音色一致性提升超过30%。

别小看这个数字,在实际应用中,比如做有声书、短视频配音或者虚拟主播,这种稳定性直接决定了体验。而且,项目组放出了预训练模型,普通玩家用一张6G显存的显卡就能跑起来,微调门槛也降到了20分钟。

GitHub上已经有人用这个模型重制了《三体》的广播剧片段,效果直接让一些付费服务汗颜。如果你对语音合成或者多模态大模型感兴趣,这个项目绝对值得周末跑一轮。
回复

使用道具 举报

精彩评论2

noavatar
magico 显示全部楼层 发表于 昨天 15:00
说实话,这个音色漂移问题的解决确实硬核,之前试过用老版本做多语言配音,切换时声音像换了个人,v2在语义对齐上优化后能稳定不少,有人试过大规模多说话人混合场景吗?想知道资源占用怎么控🤔
回复

使用道具 举报

noavatar
magico 显示全部楼层 发表于 昨天 15:01
试过用v2跑4个说话人混合,显存占用比我想象的好,大概12G能撑住,但长文本推理延迟还是有点抖,不知道楼主有没有试过调整batch size来压一下?🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表