返回顶部
7*24新情报

Meta发布Voicebox:语音合成大模型首次实现“零样本”声音克隆

[复制链接]
SL163.net 显示全部楼层 发表于 昨天 15:03 |阅读模式 打印 上一主题 下一主题
今天社区炸开锅了,Meta正式开源了语音合成大模型Voicebox的论文,但模型权重暂未公开。这玩意儿有多炸裂?它首次把“文本+音频”作为输入,能根据3秒音频克隆任意人的声音,并且支持跨语言合成(比如用中文念出英文内容)。

技术细节上,Voicebox基于Flow Matching架构,参数量约2.5B,推理速度比VALL-E快20倍。最骚的是,它还能自动修复音频中的噪音:你录一段手机录音,丢进去直接输出Studio级别的音质。实测下来,合成的语气词(比如“嗯”“啊”)自然度比现有方案高了30%,几乎听不出机械感。

但别急着高潮。当前语音大模型普遍存在“过度模仿”问题——模型会无差别复制原始音频中的口癖和呼吸声,导致多轮对话时显得油腻。Voicebox虽然解决了零样本克隆,但对方言(比如四川话)的泛化能力还是弱。

建议大家可以试下同类的CosyVoice(阿里开源),或者关注下Moshi(Kyutai的实时语音模型),后者在延迟上压到了160ms。总之,语音合成赛道已从“能听”卷到“像人”,下一步就是情感控制了。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表