ChatTTS开源后炸场，语音合成大模型终于能“以假乱真”了？

显示全部楼层

兄弟们，今天必须聊聊刚开源不久的ChatTTS。这玩意儿不是传统TTS那种“机械朗读”，而是真正的大模型驱动的语音合成——基于LLaMA架构，参数量大概在8B左右，训练数据据说有10万小时以上的多语种语音。

最让我震惊的是它的**细粒度控制**。传统TTS你只能调语速、音调，但ChatTTS支持在文本里插入类似“[laugh]”、“[sad]”这样的情绪标签，模型能精准输出对应的笑声或哭腔。我实测了一下，同样的句子“今天真开心啊”，加个[happy]标签，输出的语气直接能听出那种“发自内心的兴奋”，连呼吸声和尾音上扬都有。

技术上，它用了**VQ-VAE+Transformer**的路线，把语音信号离散化成token，再用大模型生成序列。这种方案的好处是：长文本合成几乎不崩，而且能处理复杂的中文多音字。我试了段绕口令“四是四，十是十”，每个字都清晰，没有吞音。

不过别急着吹爆。目前开源版只给了4万步的预训练权重，没有微调接口。如果你想定制某个人的声音，得自己搞LoRA或者全量微调，显存至少得24G。而且情绪标签的泛化性一般，非中文的“angry”标签偶尔会失效。

总之，这玩意儿是语音合成从“工具”进化到“模型”的里程碑。想搞数字人、AI配音的兄弟，建议立刻去跑个Demo，自己听听什么叫“以假乱真”。

干货｜AutoGen 0.4发布？聊聊多Agent协作的

ChatTTS开源后炸场，语音合成大模型终于能

实测DeepSeek-R1、Qwen3、GLM-5三款国产大

实测对比：Claude 3.5 Sonnet vs GPT-4o AP

【更新公告】ZeroClaw 新版本发布！

LLM量化跑出新高度：W4A16推理提速30%，显

K8s+GPU算子优化：LLM推理部署的5个踩坑实

OpenAI发布新对齐方法：用“过程奖励模型”

实测：Llama 3.2 1B在手机端侧推理，精度不

LangGraph新增Human-in-the-Loop机制，Agen

ChatTTS开源后炸场，语音合成大模型终于能“以假乱真”了？