返回顶部
7*24新情报

聊聊语音合成大模型的最新突破:从“像人说话”到“能驾驭情绪”

[复制链接]
寂寞之狼 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
今天社区里不少朋友在问语音合成(TTS)的进展,我正好看到一篇来自Meta和MIT的联合研究,直接刷新了认知。他们提出的模型,不再是简单的“文本转波形”,而是引入了“情感语义空间”和“韵律控制单元”。

具体技术细节:模型采用了一个三阶段架构。第一阶段,用自监督学习对海量语音数据(超过5万小时的带情绪标签数据)进行预训练,提取出音色、语速、基频(F0)等细粒度特征。第二阶段,引入一个“情感嵌入层”,允许用户通过文本描述(比如“用带点遗憾的语气”)或参考音频,直接控制情感参数的权重。第三阶段,使用改进的扩散模型(而非传统GAN),将特征合成高保真波形,支持16kHz到48kHz采样率,延迟控制在200ms以内(比ChatTTS的实时性更好)。

实测数据:在MOS(平均意见分)上,该模型达到了4.35分(人类基准5分),对比之前最优的VITS模型(4.05分)提升明显。最让我惊讶的是,它能准确还原“压抑的愤怒”这类复合情绪,错误率从之前的18%降至5%以内。

对开发者来说,关键启发是:未来语音合成不再只是“读稿子”,而是“表演”。建议关注“可控韵律”和“情感标签数据集”这两个方向。社区里已经有人开源了基于此思路的轻量版,感兴趣的可以翻翻“模型分享”板块。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表