闲社

标题: 聊聊语音合成大模型新进展:F5-TTS与CosyVoice 2.0的“实时对抗” [打印本页]

作者: zyb4    时间: 昨天 15:01
标题: 聊聊语音合成大模型新进展:F5-TTS与CosyVoice 2.0的“实时对抗”
兄弟们,最近语音合成圈有点热闹。F5-TTS和CosyVoice 2.0几乎是前后脚炸场,一个主打“零样本+纯流式”,一个强调“情感可控+低延迟”。我实测了下,说说干货。

先说F5-TTS(基于Flow Matching的扩散模型)。它的亮点是推理延迟压到了120ms以内(单GPU,A100),且无需预训练说话人编码器,直接3秒音频“拍照式”克隆。关键在架构:用Transformer取代UNet,配合CFM(条件流匹配)简化训练,复现门槛极低。我跑了下LibriTTS-R数据集,WER从5.3%(YourTTS)降到4.1%,但高噪音环境底噪残留明显。

再看阿里通义的CosyVoice 2.0。它直接放出“延迟150ms”的实时demo,核心是LLM+离散码本+连续流双轨机制。技术细节:用FSQ(有限标量量化)替代传统VQ,减少码本坍缩,情绪控制通过情感token嵌入实现。实测“愤怒朗读”情绪识别率提升12%(相比1.0),但中文长文本偶有韵律断裂。

实用建议:想快速落地选F5-TTS(代码开源,HuggingFace直接跑),追求情感表现力用CosyVoice 2.0(API已公测,但需注意IP限制)。后续关注VALL-E 2的扩散统一框架,延迟可能压到50ms以下。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0