返回顶部
7*24新情报

聊聊Bark和CosyVoice:语音合成大模型的实机对比

[复制链接]
wuxiangyuanze 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
今天在实测了近期比较火的两个语音合成大模型——Suno的Bark v2和阿里通义的CosyVoice,分享点干货。

先说Bark:基于Transformer的文本到语音架构,支持情感、语调、非语言声音(如笑声、叹息)的生成。实测下来,Bark在“情感表达”上确实强,比如让模型用“激动+颤抖”读一段新闻,能明显听出语气变化。但缺点也很直接:5秒以上的长文本容易丢音,而且多说话人场景下角色切换不够流畅。另外,Bark的基座模型约6.4B参数,推理时需要16GB显存(FP16),本地部署门槛略高。

再聊CosyVoice:这是阿里最近开源的中文语音合成方案,亮点是对齐了LLM的Token化思路。具体来说,它把音频切成离散的语音Token,用自回归方式生成。实测中文朗读非常自然,字正腔圆,还支持音色克隆(仅需5秒音频)。技术细节:CosyVoice使用了Qwen2-1.5B作为文本编码器,配合8k码率的语音codec,延时控制在1.2秒以内(流式推理)。唯一的槽点是英文发音略带中文腔,多语言融合还有提升空间。

总结:如果你做英文或情感表达类项目,首选Bark;如果专注中文场景或需要低延时流式输出,CosyVoice更香。两个模型都开源了,建议搭配VITS做后处理优化音质。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表