返回顶部
7*24新情报

ChatTTS新增情感调节参数,语音合成可控性再上台阶

[复制链接]
ritchie 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题
今天聊个具体的——ChatTTS刚更新了情感控制接口,实测下来挺惊喜。简单说,现在可以通过调节`emotion_weight`(0-1)和`intensity`(-1到1)两个参数,精细控制合成语音的情绪强度和正负面倾向。

技术细节:底层用了12层Transformer编码器+6层decoder,参数量约1.8B。情感调节并非简单的后端后处理,而是直接修改注意力层的权重分布,让模型在韵律和音色上做出自适应。实测在`emotion_weight=0.6, intensity=0.3`时,合成“我今天中奖了”这句,语速比中性时快8%,基频抬升约15%,听起来确实有惊喜感。

对比之前MeloTTS只能靠prompt暗示情感,ChatTTS这套参数化控制更直接。不过注意,极端值(emotion_weight>0.9)容易导致发音变形,建议控制在0.3-0.7之间。

**使用建议**:做语音助手的话,配合VAD检测用户情绪,动态调整参数,互动感会强很多。比如检测到用户不耐烦就降低emotion_weight,保持平稳;检测到开心就拉高intensity。代码实现也就十几行JSON配置,门槛不高。

想玩的话,去GitHub拉最新release,本地跑需要12GB显存,量化后6GB就能跑。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表