声音克隆第二代,最强AI音色克隆,B站IndexTTS2最新整合包
温馨提示:
公众号:溯光笔记 本站仅为个人兴趣爱好而创立 并不会收费,感谢大家的支持.如有冒犯请联系我.
01资源介绍:
IndexTTS2 是哔哩哔哩(B站)语音团队在2025年9月开源的新一代零样本语音合成模型。它在自回归架构中引入了多项技术创新,显著提升了情感表达和时长控制的精准度。下面我将为你详细介绍这款模型。
??? 一、核心功能与特性
精准时长控制:IndexTTS2 首次在自回归TTS架构中引入了“时间编码”机制。用户可以通过显式设定目标token数量来实现毫秒级的语音时长控制,这对于需要严格音画同步的视频配音场景至关重要。同时,它也支持自由生成模式,以保留输入提示的原始韵律特征 。
情感与音色解耦:该模型的一项突破是实现了情感特征与说话人音色的解耦控制(Emotion-Speaker Disentanglement)。这意味着用户可以分别指定音色参考(如一段音频)和情感参考(另一段音频或文本描述),模型能在零样本条件下精准还原目标音色并完全重现指定情绪 。
丰富的控制方式:除了音频参考,用户还能通过自然语言描述(“软指令”)、情感向量或独立的情感参考音频等多种方式灵活调节合成语音的情感表达,大大降低了使用门槛 。
高表现力与自然度:模型在多项权威测试集上取得了当前最优(SOTA)性能。其主观MOS评分在情感自然度上达4.22分,情感匹配度达0.887,时长控制误差小于0.07%,证明了其生成语音的高保真度和丰富表现力 。
多语言支持:IndexTTS2 的训练数据包含了 55,000小时的中英文双语语音数据,使其具备良好的中英文语音合成能力 。
02资源截图:

03下载地址:
THE END