AUDIOGEN是基于自回归的文本引导音频生成模型,其训练过程包含两个主要阶段。
这里采用了Mata 团队自身的EnCodec提取离散表征,而EnCodec和VQ-GAN,以及音频编解码领域的SoundStream结构相似。
生成器
判别器
损失函数计算:
采用WGAN的框架进行训练,损失分为生成器和判别器损失。
关于该编码器结构,可参考 溯源:从VQ-VAE到RVQ–语音信号的离散化方法 理解该方法
编码器得到的量化码字 $z_q$ 通过查找表(Look-Up-Table, LUT) 映射到连续空间得到 $\textbf{v}$。文本特征则由预训练的T5模型编码得到文本嵌入$\textbf{u}$ 。文本和音频嵌入连接,得到语言模型的输入。
整个模型可以视作编码器-解码器架构,其中预训练的T5模型视作编码器,而我们只需要训练解码器。为了更好的加强文本的引导性,模型中加入了cross-attention层,计算文本与音频的cross-attention。其损失函数计算如下所示, 其旨在自回归的预测下一步的内容
Classifier Free-Guidance(CFG): 该方法是生成模型中权衡生成质量和生成多样性的常用方法之一, 最早在diffusion相关工作中使用。在该工作中,训练时以10%的概率丢弃文本条件。在推理过程中,以以下的方式进行采样,以线性搭配条件生成概率和无条件生成概率:
Multi-stream audio inputs: 尽管编码过程中对原始波形做了32倍的下采样,但每秒仍有约500个token。因而在处理长音频时,模型会非常慢。Multi-stream audio inputs将音频拆成了若干个流,每个流独立送入模型处理。这样增加了推理速度,但降低了质量(注: 该方法的具体处理方式需要看源码,论文中说的确实模糊)
略