闲社
标题:
ChatTTS开源炸场:语音合成大模型迎来零样本时代
[打印本页]
作者:
itmans
时间:
半小时前
标题:
ChatTTS开源炸场:语音合成大模型迎来零样本时代
兄弟们,今天聊个狠货——ChatTTS。这个刚开源的项目直接把语音合成卷出新高度,支持零样本语音克隆,输入几秒音频就能生成任意文本的自然语音。实测下来,音色保真度碾压上一代TTS模型,连呼吸、停顿这些细节都真实到发毛。
技术细节上,它基于LLaMA架构改造,用了2万小时中文+英文数据训练,参数量不到1B,但效果炸裂。关键创新在于引入了“音素级流匹配”,解决了传统TTS的机械感问题。实测生成速度:RTX 4090上1秒生成3秒音频,延迟低到离谱。
更骚的是,它支持情感控制——通过文本中插入特殊标记(比如[happy]),能调整语气。API接口简单到令人发指,直接扔文本和参考音频就行,不需要任何预处理。社区已有大佬搞出了WebUI和API服务,上手门槛基本为零。
建议搞AI配音、虚拟人、有声书的小伙伴立刻去GitHub冲一波。这玩意儿可能会革掉传统TTS的命,但注意别滥用——语音克隆一旦被用来伪造音频,后果你懂的。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0