IndexTTS2：情感表达与时长可控的自回归零样本语音合成突破 + 一键包，网盘自取

浏览次数：774 发布时间：2025/10/2

关键词：无关键词

上一篇：威力导演PowerDirector v24.0.0910.1破解旗舰版下一篇：自媒体专用50个高质量样音

资源下载链接

资源详情介绍

现有自回归大规模文本转语音（TTS）模型虽在语音自然度上具备优势，但其依赖逐 token 的生成机制，难以精确控制合成语音的时长 —— 这一局限在视频配音等需严格视音频同步的场景中尤为突出，严重制约了模型的实用价值。

为此，本文提出 IndexTTS2 模型，并创新性地设计了一种通用且适配自回归模型的语音时长控制方法。该方法支持两种生成模式：其一可通过显式指定生成 token 数量，实现对语音时长的精准控制；其二则保留自由自回归生成逻辑，同时忠实还原输入提示中的韵律特征，兼顾灵活性与自然度。

此外，IndexTTS2 还实现了情感表达与说话人身份的解耦，支持对音色与情感的独立调控：在零样本设置下，模型既能精准复刻 “音色提示” 中的目标音色，又能完美还原 “风格提示” 所指定的情感语调。为提升高情感表达场景下的语音清晰度与生成稳定性，模型引入 GPT 潜在表示，并设计了三阶段训练范式；同时，为降低情感控制门槛，基于文本描述微调 Qwen3 模型，构建软指令机制以有效引导语音生成所需的情感倾向。

多数据集实验结果表明，IndexTTS2 在词错误率、说话人相似度及情感保真度三项核心指标上，均显著优于现有零样本 TTS 模型。

2、本网站的资源部分来源于网络，如有侵权，请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点，并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
5、站长邮箱：admin@51kuake.com 广告投诉请发至此邮箱

软件

主题数
9

7日内
0

30日内
0

版块热门