IndexTTS2:情感表达与时长可控的自回归零样本语音合成突破 + 一键包,网盘自取

浏览次数:774 发布时间:2025/10/2
关键词: 无关键词
资源下载链接
资源详情介绍

现有自回归大规模文本转语音(TTS)模型虽在语音自然度上具备优势,但其依赖逐 token 的生成机制,难以精确控制合成语音的时长 —— 这一局限在视频配音等需严格视音频同步的场景中尤为突出,严重制约了模型的实用价值。

为此,本文提出 IndexTTS2 模型,并创新性地设计了一种通用且适配自回归模型的语音时长控制方法。该方法支持两种生成模式:其一可通过显式指定生成 token 数量,实现对语音时长的精准控制;其二则保留自由自回归生成逻辑,同时忠实还原输入提示中的韵律特征,兼顾灵活性与自然度。

此外,IndexTTS2 还实现了情感表达与说话人身份的解耦,支持对音色与情感的独立调控:在零样本设置下,模型既能精准复刻 “音色提示” 中的目标音色,又能完美还原 “风格提示” 所指定的情感语调。为提升高情感表达场景下的语音清晰度与生成稳定性,模型引入 GPT 潜在表示,并设计了三阶段训练范式;同时,为降低情感控制门槛,基于文本描述微调 Qwen3 模型,构建软指令机制以有效引导语音生成所需的情感倾向。

多数据集实验结果表明,IndexTTS2 在词错误率、说话人相似度及情感保真度三项核心指标上,均显著优于现有零样本 TTS 模型。