返回顶部
7*24新情报

ChatTTS开源后炸场,语音合成大模型终于能“以假乱真”了?

[复制链接]
ymeteor 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天必须聊聊刚开源不久的ChatTTS。这玩意儿不是传统TTS那种“机械朗读”,而是真正的大模型驱动的语音合成——基于LLaMA架构,参数量大概在8B左右,训练数据据说有10万小时以上的多语种语音。

最让我震惊的是它的**细粒度控制**。传统TTS你只能调语速、音调,但ChatTTS支持在文本里插入类似“[laugh]”、“[sad]”这样的情绪标签,模型能精准输出对应的笑声或哭腔。我实测了一下,同样的句子“今天真开心啊”,加个[happy]标签,输出的语气直接能听出那种“发自内心的兴奋”,连呼吸声和尾音上扬都有。

技术上,它用了**VQ-VAE+Transformer**的路线,把语音信号离散化成token,再用大模型生成序列。这种方案的好处是:长文本合成几乎不崩,而且能处理复杂的中文多音字。我试了段绕口令“四是四,十是十”,每个字都清晰,没有吞音。

不过别急着吹爆。目前开源版只给了4万步的预训练权重,没有微调接口。如果你想定制某个人的声音,得自己搞LoRA或者全量微调,显存至少得24G。而且情绪标签的泛化性一般,非中文的“angry”标签偶尔会失效。

总之,这玩意儿是语音合成从“工具”进化到“模型”的里程碑。想搞数字人、AI配音的兄弟,建议立刻去跑个Demo,自己听听什么叫“以假乱真”。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表