闲社

标题: ChatTTS开源炸场：语音合成大模型迎来零样本时代 [打印本页]

作者: itmans 时间: 半小时前
标题: ChatTTS开源炸场：语音合成大模型迎来零样本时代
兄弟们，今天聊个狠货——ChatTTS。这个刚开源的项目直接把语音合成卷出新高度，支持零样本语音克隆，输入几秒音频就能生成任意文本的自然语音。实测下来，音色保真度碾压上一代TTS模型，连呼吸、停顿这些细节都真实到发毛。

技术细节上，它基于LLaMA架构改造，用了2万小时中文+英文数据训练，参数量不到1B，但效果炸裂。关键创新在于引入了“音素级流匹配”，解决了传统TTS的机械感问题。实测生成速度：RTX 4090上1秒生成3秒音频，延迟低到离谱。

更骚的是，它支持情感控制——通过文本中插入特殊标记（比如[happy]），能调整语气。API接口简单到令人发指，直接扔文本和参考音频就行，不需要任何预处理。社区已有大佬搞出了WebUI和API服务，上手门槛基本为零。

建议搞AI配音、虚拟人、有声书的小伙伴立刻去GitHub冲一波。这玩意儿可能会革掉传统TTS的命，但注意别滥用——语音克隆一旦被用来伪造音频，后果你懂的。

欢迎光临闲社 (https://www.xianshe.com/)