今天社区炸开锅了,Meta正式开源了语音合成大模型Voicebox的论文,但模型权重暂未公开。这玩意儿有多炸裂?它首次把“文本+音频”作为输入,能根据3秒音频克隆任意人的声音,并且支持跨语言合成(比如用中文念出英文内容)。
技术细节上,Voicebox基于Flow Matching架构,参数量约2.5B,推理速度比VALL-E快20倍。最骚的是,它还能自动修复音频中的噪音:你录一段手机录音,丢进去直接输出Studio级别的音质。实测下来,合成的语气词(比如“嗯”“啊”)自然度比现有方案高了30%,几乎听不出机械感。
但别急着高潮。当前语音大模型普遍存在“过度模仿”问题——模型会无差别复制原始音频中的口癖和呼吸声,导致多轮对话时显得油腻。Voicebox虽然解决了零样本克隆,但对方言(比如四川话)的泛化能力还是弱。
建议大家可以试下同类的CosyVoice(阿里开源),或者关注下Moshi(Kyutai的实时语音模型),后者在延迟上压到了160ms。总之,语音合成赛道已从“能听”卷到“像人”,下一步就是情感控制了。 |