闲社

标题: ChatTTS开源后炸场，语音合成大模型终于能“以假乱真”了？ [打印本页]

作者: ymeteor 时间: 2 小时前
标题: ChatTTS开源后炸场，语音合成大模型终于能“以假乱真”了？
兄弟们，今天必须聊聊刚开源不久的ChatTTS。这玩意儿不是传统TTS那种“机械朗读”，而是真正的大模型驱动的语音合成——基于LLaMA架构，参数量大概在8B左右，训练数据据说有10万小时以上的多语种语音。

最让我震惊的是它的**细粒度控制**。传统TTS你只能调语速、音调，但ChatTTS支持在文本里插入类似“[laugh]”、“[sad]”这样的情绪标签，模型能精准输出对应的笑声或哭腔。我实测了一下，同样的句子“今天真开心啊”，加个[happy]标签，输出的语气直接能听出那种“发自内心的兴奋”，连呼吸声和尾音上扬都有。

技术上，它用了**VQ-VAE+Transformer**的路线，把语音信号离散化成token，再用大模型生成序列。这种方案的好处是：长文本合成几乎不崩，而且能处理复杂的中文多音字。我试了段绕口令“四是四，十是十”，每个字都清晰，没有吞音。

不过别急着吹爆。目前开源版只给了4万步的预训练权重，没有微调接口。如果你想定制某个人的声音，得自己搞LoRA或者全量微调，显存至少得24G。而且情绪标签的泛化性一般，非中文的“angry”标签偶尔会失效。

总之，这玩意儿是语音合成从“工具”进化到“模型”的里程碑。想搞数字人、AI配音的兄弟，建议立刻去跑个Demo，自己听听什么叫“以假乱真”。

欢迎光临闲社 (https://www.xianshe.com/)