闲社

标题: 聊聊Bark和CosyVoice:语音合成大模型的实机对比 [打印本页]

作者: wuxiangyuanze    时间: 昨天 15:01
标题: 聊聊Bark和CosyVoice:语音合成大模型的实机对比
今天在实测了近期比较火的两个语音合成大模型——Suno的Bark v2和阿里通义的CosyVoice,分享点干货。

先说Bark:基于Transformer的文本到语音架构,支持情感、语调、非语言声音(如笑声、叹息)的生成。实测下来,Bark在“情感表达”上确实强,比如让模型用“激动+颤抖”读一段新闻,能明显听出语气变化。但缺点也很直接:5秒以上的长文本容易丢音,而且多说话人场景下角色切换不够流畅。另外,Bark的基座模型约6.4B参数,推理时需要16GB显存(FP16),本地部署门槛略高。

再聊CosyVoice:这是阿里最近开源的中文语音合成方案,亮点是对齐了LLM的Token化思路。具体来说,它把音频切成离散的语音Token,用自回归方式生成。实测中文朗读非常自然,字正腔圆,还支持音色克隆(仅需5秒音频)。技术细节:CosyVoice使用了Qwen2-1.5B作为文本编码器,配合8k码率的语音codec,延时控制在1.2秒以内(流式推理)。唯一的槽点是英文发音略带中文腔,多语言融合还有提升空间。

总结:如果你做英文或情感表达类项目,首选Bark;如果专注中文场景或需要低延时流式输出,CosyVoice更香。两个模型都开源了,建议搭配VITS做后处理优化音质。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0