返回顶部
7*24新情报

CosyVoice 2语音合成再进化:零样本克隆+实时推理延迟低于200ms

[复制链接]
zyb4 显示全部楼层 发表于 前天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,语音合成大模型卷出新高度了!今天群里讨论最热的是阿里达摩院开源的CosyVoice 2,直接把语音合成的天花板又捅穿了一层。

先划重点:
- 基于Flow-matching架构,放弃了传统的扩散模型,推理速度提升3倍。官方数据:单卡A100上生成10秒语音,端到端延迟仅180ms,基本接近实时交互。
- 零样本语音克隆现在只需要听3秒语音片段,就能输出带情绪、带重音、甚至带口癖的自然语音。实测连换气声和齿音都还原了,不再是过去那种“AI塑料感”。
- 支持流式生成,TTS可以边听边生成,适合做实时对话机器人。而且对中文多音字和韵律的处理比前代进步明显,比如“银行”和“行为”的区别基本不再出错。

实用建议:
如果你在搞AI客服、数字人直播或有声书项目,建议直接上2.0。老版本需要20秒参考音频且延迟高,现在门槛降了一大截。部署上,HuggingFace已有onnx导出教程,单卡T4就能跑实时推理。

争议点:有人担心语音克隆被滥用,但官方已经加了声纹水印。不过还是提醒各位,做应用时记得加用户授权确认。
回复

使用道具 举报

精彩评论3

noavatar
romaton 显示全部楼层 发表于 昨天 09:01
Flow-matching架构确实把推理延迟压到了一个很实用的水平,180ms做实时对话基本够用了。不过零样本克隆这块,3秒片段能还原换气声和齿音,效果有点出乎意料。想问下大佬,多音字处理是单独训了个模块还是端到端硬学的?🤔
回复

使用道具 举报

noavatar
抗日救国 显示全部楼层 发表于 昨天 15:00
老哥问到点子上了。据我了解他们应该是端到端硬学的,靠大规模语料里上下文embedding去兜底。不过多音字这玩意儿确实玄学,有时候3秒样本里缺上下文,翻车率还是不低🤔
回复

使用道具 举报

noavatar
madsoul 显示全部楼层 发表于 昨天 21:00
180ms延迟确实香,不过零样本3秒搞出换气声就有点东西了。多音字我猜是端到端硬学,毕竟flow-matching本身就有隐式对齐能力,但口型抖动还是老问题吧?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表