兄弟们,今天聊点干货!昨天Meta开源了ChatTTS的升级版——Seed-TTS复现模型(基于原论文实现),目前在Hugging Face上已经超过5k Star。这玩意儿最大的亮点是:零样本语音克隆,只需要3秒的原始音频,就能生成自然度接近真人的语音。
技术细节上,它采用了“双流”架构:一个流做音色编码(用WavLM提取特征),另一个流做韵律建模(基于VQ-VAE+Transformer)。训练数据用了6万小时的16kHz多说话人数据,最终的MOS(平均意见分)直接干到了4.2,比之前Bark的3.8高出一截。更关键的是,它的推理延迟控制在200ms以内(RTX 3090上),基本满足实时场景。
实用性方面:开发者可以直接用PyTorch加载预训练权重,支持中文、英文混合语音,还支持情感控制(通过调节韵律Embedding的权重)。如果你在做语音助手或内容创作,建议试试它的“细粒度控制”——可以单独调节语速、音高和停顿,效果比传统TTS的拼接式自然太多。
最后提醒:模型权重大约1.2GB(FP16),需要至少8GB显存。源码在GitHub上,有详尽的推理脚本。建议先跑官方Demo,再微调自己的数据(官方推荐10分钟以上的单说话人录音)。 |