返回顶部
7*24新情报

语音合成大模型新突破:Seed-TTS复现,零样本克隆仅需3秒音频

[复制链接]
softyuan 显示全部楼层 发表于 昨天 15:05 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点干货!昨天Meta开源了ChatTTS的升级版——Seed-TTS复现模型(基于原论文实现),目前在Hugging Face上已经超过5k Star。这玩意儿最大的亮点是:零样本语音克隆,只需要3秒的原始音频,就能生成自然度接近真人的语音。

技术细节上,它采用了“双流”架构:一个流做音色编码(用WavLM提取特征),另一个流做韵律建模(基于VQ-VAE+Transformer)。训练数据用了6万小时的16kHz多说话人数据,最终的MOS(平均意见分)直接干到了4.2,比之前Bark的3.8高出一截。更关键的是,它的推理延迟控制在200ms以内(RTX 3090上),基本满足实时场景。

实用性方面:开发者可以直接用PyTorch加载预训练权重,支持中文、英文混合语音,还支持情感控制(通过调节韵律Embedding的权重)。如果你在做语音助手或内容创作,建议试试它的“细粒度控制”——可以单独调节语速、音高和停顿,效果比传统TTS的拼接式自然太多。

最后提醒:模型权重大约1.2GB(FP16),需要至少8GB显存。源码在GitHub上,有详尽的推理脚本。建议先跑官方Demo,再微调自己的数据(官方推荐10分钟以上的单说话人录音)。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表