模型总体结构如上图所示,核心结构包括 QueryNet,负责对文本查询进行编码;以及 SeparationNet, 负责根据文本查询,从原始音频的幅度谱和相位谱中提取目标音频。
QueryNet 采用预训练好的CLAP中的 Text Encoder, 作用是通过对比学习,将音频和文本描述带入联合音频文本潜在空间。训练过程中该分支全程冻结。
SeparationNet 采用 frequency-domain ResUNet model, 如下图所示。该网络通过短时傅里叶变化,得到音频的幅度谱和相位谱:
\[X = |X|e^{j\angle X}\]和下图不完全一致的是,这里网络输入复数谱X(包含实部和虚部两个通道),输出文本查询对应的 magnitude mask $M$ 和 phase residual $\angle M$。目标音频的复频谱可以通过以下公式得到:
\[S=M \odot X =|M|\odot|X|e^{j(\angle M + \angle X)}\]AudioSep应用 Feature-wise Linearly modulated (FiLm) layer, 用于将文本特征引入分离模型。不妨将音频特征表示为 $H^=\mathbb{R}^{m \times h \times w}$, 对第i层特征 $H_{i}$ 做以下操作:
\[FiLM(H_i|\gamma_i H_i, \beta_i) = \gamma_i H_i + \beta_i\]其中 $(\gamma, \beta)=g(e_q)$ , $e_q$ 为文本嵌入,g 为两层MLP。
这里看起来像类似SE-Net的做法? 不过SE-Net是采用Squeeze后的原始特征经过MLP后做逐通道的Recalibration,而这里是用文本嵌入过MLP后做Recalibration;
将两个原始音频 $s_1$ 和 $s_2$ 等能量的混合,并采用与 $s_1$ 或 $s_2$ 对应的 文本描述为query。在波形上计算L1损失函数, 以监督分离音频与目标音频尽可能一致。
Exploring Text-Queried Sound Event Detection with Audio Source Separation . ICASSP 2025 在投。该工作利用AudioSep 强大的开集分离能力将混合音频进行分离,之后在末端单独训练小的CRNN网络做SED。作者希望通过这种方式解决由于混叠声音事件的检测难题。