Learn2Sing 一个基于扩散和互信息的唱歌模型

 @halomaster 29 Sep 2022, 09:01 GMT【AI】 

为一个不擅长唱歌的人构建一个高质量的歌唱语料库并非易事,因此为这个人创建一个歌声合成器具有挑战性。Learn2Sing 致力于通过学习其他人(即歌唱老师)记录的数据来合成没有他或她歌唱数据的说话者的歌声。受音高是区分歌声和说话声音的关键风格因素这一事实的启发,所提出的 Learn2Sing 2.0 首先在音素级别生成具有平均音高值的初步声学特征,从而允许针对不同风格对该过程进行训练,即说话或唱歌,除了说话人信息外,共享相同的条件。然后,根据特定风格,一个扩散解码器,在推理阶段通过快速采样算法加速,逐渐恢复最终的声学特征。在训练过程中,为了避免说话人嵌入和风格嵌入的信息混淆,采用互信息来抑制说话人嵌入和风格嵌入的学习。实验表明,所提出的方法能够为目标说话者合成高质量的歌声,而无需经过 10 个解码步骤的歌声数据。 https://github.com/WelkinYang/Learn2Sing2.0

[1] @halomaster • 29 Sep 2022, 09:01 GMT 
[论文解读 | Learn2Sing2.0 — 教师-学生学习框架下基于扩散模型和互信息的歌声合成](https://zhuanlan.zhihu.com/p/555470689)

1 of 1 pages  1 replies