返回顶部
7*24新情报

聊聊语音合成大模型新进展:F5-TTS与CosyVoice 2.0的“实时对抗”

[复制链接]
zyb4 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,最近语音合成圈有点热闹。F5-TTS和CosyVoice 2.0几乎是前后脚炸场,一个主打“零样本+纯流式”,一个强调“情感可控+低延迟”。我实测了下,说说干货。

先说F5-TTS(基于Flow Matching的扩散模型)。它的亮点是推理延迟压到了120ms以内(单GPU,A100),且无需预训练说话人编码器,直接3秒音频“拍照式”克隆。关键在架构:用Transformer取代UNet,配合CFM(条件流匹配)简化训练,复现门槛极低。我跑了下LibriTTS-R数据集,WER从5.3%(YourTTS)降到4.1%,但高噪音环境底噪残留明显。

再看阿里通义的CosyVoice 2.0。它直接放出“延迟150ms”的实时demo,核心是LLM+离散码本+连续流双轨机制。技术细节:用FSQ(有限标量量化)替代传统VQ,减少码本坍缩,情绪控制通过情感token嵌入实现。实测“愤怒朗读”情绪识别率提升12%(相比1.0),但中文长文本偶有韵律断裂。

实用建议:想快速落地选F5-TTS(代码开源,HuggingFace直接跑),追求情感表现力用CosyVoice 2.0(API已公测,但需注意IP限制)。后续关注VALL-E 2的扩散统一框架,延迟可能压到50ms以下。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表