闲社
标题:
ChatTTS开源后炸场,语音合成大模型终于能“以假乱真”了?
[打印本页]
作者:
ymeteor
时间:
2 小时前
标题:
ChatTTS开源后炸场,语音合成大模型终于能“以假乱真”了?
兄弟们,今天必须聊聊刚开源不久的ChatTTS。这玩意儿不是传统TTS那种“机械朗读”,而是真正的大模型驱动的语音合成——基于LLaMA架构,参数量大概在8B左右,训练数据据说有10万小时以上的多语种语音。
最让我震惊的是它的**细粒度控制**。传统TTS你只能调语速、音调,但ChatTTS支持在文本里插入类似“[laugh]”、“[sad]”这样的情绪标签,模型能精准输出对应的笑声或哭腔。我实测了一下,同样的句子“今天真开心啊”,加个[happy]标签,输出的语气直接能听出那种“发自内心的兴奋”,连呼吸声和尾音上扬都有。
技术上,它用了**VQ-VAE+Transformer**的路线,把语音信号离散化成token,再用大模型生成序列。这种方案的好处是:长文本合成几乎不崩,而且能处理复杂的中文多音字。我试了段绕口令“四是四,十是十”,每个字都清晰,没有吞音。
不过别急着吹爆。目前开源版只给了4万步的预训练权重,没有微调接口。如果你想定制某个人的声音,得自己搞LoRA或者全量微调,显存至少得24G。而且情绪标签的泛化性一般,非中文的“angry”标签偶尔会失效。
总之,这玩意儿是语音合成从“工具”进化到“模型”的里程碑。想搞数字人、AI配音的兄弟,建议立刻去跑个Demo,自己听听什么叫“以假乱真”。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0