Learn2Sing2.0 教师-学生学习框架下基于扩散模型和互信息的歌声合成

 @halomaster 11 Sep 2022, 15:47 GMT【AI】 

为不擅长唱歌的人构建高质量的歌唱语料库并非易事,因此为这个人创建歌声合成器具有挑战性。Learn2Sing 致力于通过学习其他人(即歌唱老师)记录的数据来合成没有他或她歌唱数据的说话者的歌声。受音高是区分歌声和说话声音的关键风格因素这一事实的启发,所提出的 Learn2Sing 2.0 首先生成具有电话级别平均音高值的初步声学特征,这允许针对不同风格对该过程进行训练,即说话或唱歌,除了说话人信息外,共享相同的条件。然后,根据特定的风格,一个扩散解码器,在推理阶段通过快速采样算法加速,逐渐恢复最终的声学特征。在训练过程中,为了避免说话人嵌入和风格嵌入的信息混淆,采用互信息来抑制说话人嵌入和风格嵌入的学习。实验表明,所提出的方法能够为目标说话人合成高质量的歌声,而无需使用 10 个解码步骤的歌声数据。 [官网](https://welkinyang.github.io/Learn2Sing2.0/) 知乎上的介绍文章:https://zhuanlan.zhihu.com/p/555470689 [论文](https://arxiv.org/abs/2203.16408) [code](https://github.com/WelkinYang/Learn2Sing2.0) [demo](https://welkinyang.github.io/Learn2Sing2.0/) (下滑可见)

0 replies