INTERSPEECH 2022|面向零样本声音克隆的内容相关细粒度说话人表征方法...

发布网友 发布时间:2024-11-28 23:26

我来回答

1个回答

热心网友 时间:9分钟前

本文探索了一种零样本声音克隆技术,其核心目标是使用任意参考语音合成未曾接触过的说话人声音。以往方法往往通过提取一个固定维度的说话人表征向量,虽能较好地捕捉整体音色与说话风格,但这种粗粒度信息了对说话人细节发音特性的准确建模与迁移。为解决这一问题,本文引入了一种内容相关细粒度说话人表征方法(Content-Dependent Fine-Grained Speaker Embedding, CDFSE)。该方法在输入待合成文本的实际发音内容下,从参考语音中提取音素级说话人表征序列,代替传统的全局/话语级定长说话人表征,旨在更精确地捕捉和迁移目标说话人的声音风格和个人发音习惯。在AISHELL-3中文多说话人数据集上进行实验,结果显示,所提出的CDFSE方法显著提升了合成语音与目标说话人声音的相似度,特别是在未见说话人上的表现,相较于基线模型,SMOS提升达0.2以上。

为了更好地实现细粒度说话人表征,模型在FastSpeech 2声学框架基础上进行了扩展,包括设计几个音频编码器及引入参考注意力模块。模型流程如下:首先对参考语音进行一系列编码处理,提取出局部内容嵌入和局部说话人嵌入。然后,利用TTS模型音素编码器输出与局部内容嵌入的关联性,通过参考注意力模块获取与文本内容匹配的音素级细粒度说话人表征序列,并将其应用到音素编码器输出上。此外,引入对参考语音mel谱按音素边界分割、随机打乱重排的预处理策略,以避免模型误建模文本与音频的时序相关性。

试验数据源自AISHELL3,一个包括218个中国约85小时口音各异录音的多说话人语料库。为了评估模型在未见说话人上的效果,试验选取了8位参与者(4男4女)作为测试集。每个说话人仅使用一条音频作为参考语音。基线模型包括两种经典的定长说话人表征方法和一种基于Attentron的变长嵌入方法。实验结果表明,所提出的CDFSE方法在未见说话人上的说话人相似度提升显著,与基线模型相比,达到了更高的SMOS值,并且主观评价中合成语音的自然度和可懂度也得到了提升。

进一步的实验和分析揭示了不同粒度的局部说话人嵌入对模型性能的影响。通过调整下采样编码器中平均池化层的核大小,可以观察到模型性能的变化。实验结果还通过客观指标评估了合成语音的可懂度和说话人相似度,并通过样例分析和2D t-SNE可视化展示了细粒度说话人嵌入的空间分布,进一步验证了方法的有效性。

综上所述,本文提出的内容相关细粒度说话人表征方法在零样本声音克隆任务中展现出显著优势,有效提升了合成语音与目标说话人声音的相似度,特别是在未见说话人情况下的表现。该方法为语音合成领域的研究提供了新的视角和思路,有助于进一步提高合成语音的自然度与个性化能力。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com