闲社

标题: 聊聊语音合成大模型新进展：F5-TTS与CosyVoice 2.0的“实时对抗” [打印本页]

作者: zyb4 时间: 昨天 15:01
标题: 聊聊语音合成大模型新进展：F5-TTS与CosyVoice 2.0的“实时对抗”
兄弟们，最近语音合成圈有点热闹。F5-TTS和CosyVoice 2.0几乎是前后脚炸场，一个主打“零样本+纯流式”，一个强调“情感可控+低延迟”。我实测了下，说说干货。

先说F5-TTS（基于Flow Matching的扩散模型）。它的亮点是推理延迟压到了120ms以内（单GPU，A100），且无需预训练说话人编码器，直接3秒音频“拍照式”克隆。关键在架构：用Transformer取代UNet，配合CFM（条件流匹配）简化训练，复现门槛极低。我跑了下LibriTTS-R数据集，WER从5.3%（YourTTS）降到4.1%，但高噪音环境底噪残留明显。

再看阿里通义的CosyVoice 2.0。它直接放出“延迟150ms”的实时demo，核心是LLM+离散码本+连续流双轨机制。技术细节：用FSQ（有限标量量化）替代传统VQ，减少码本坍缩，情绪控制通过情感token嵌入实现。实测“愤怒朗读”情绪识别率提升12%（相比1.0），但中文长文本偶有韵律断裂。

实用建议：想快速落地选F5-TTS（代码开源，HuggingFace直接跑），追求情感表现力用CosyVoice 2.0（API已公测，但需注意IP限制）。后续关注VALL-E 2的扩散统一框架，延迟可能压到50ms以下。

欢迎光临闲社 (https://www.xianshe.com/)