Home

gentlesnow

08 Aug 2019

【论文研读】 009 SpecAugment

谷歌19年语音识别的论文


SpecAugment是一种数据增强的方法,可以直接应用在神经网络特征输入部分。 增强策略包括warping the features扭曲特征、masking blocks of frequency channels屏蔽频率通道块、masking blocks of time steps屏蔽时间步长块。 将SpecAugment应用在LSA模型上,在LibriSpeech和Switchboard都优于目前的最好成绩。

在LibriSpeecg上没有使用语言模型的LAS取得了6.8%的WER,用了浅的语言模型取得了5.8%的WER。 目前最好的混合模型的成绩是7.5%WER。 对于Switchboard在没有使用语言模型的情况下在Hub5’00测试集的Switchboard/CallHome部分达到7.2%/14.6%, 在浅融合时达到6.8%/14.1%。 之前最先进的混合模型的WER为8.3%/17.3%。

论文动机

深度学习目前已经成功应用于语音识别领域。 目前的研究重点是设计更好的网络结构和端到端模型。 然而这些模型往往容易过拟合而且需要大量的训练数据。

目前已经有人将数据增强应用到了ASR中。

  1. artificial data
  2. Vocal Tract Length Normalization
  3. Speed perturbation
  4. keyword spotting
  5. Feature dropouts

SpecAugment由频谱图的三种变形组成。

  1. time warping
  2. time masking
  3. frequency masking

模型结构

将输入的log mel spectrogram经过两层步数为2的CNN,输出结果结果d个堆叠的大小为w的双向LSTM以产生一系列注意力向量。 注意力向量被喂入两层维度为w的RNN解码器中,产生token。 使用Word Piece Model将文本token化。 最大的模型是LAS-4-1024(LAS-d-w)。

模型结果

SpecAugment极大地提高了ASR网络的性能。 通过使用简单的手工策略扩充训练集,甚至超越混合模型的性能, 能够在端到端LAS网络上获得LibriSpeech 960h和Switchboard 300h任务的更好的结果在没有语言模型的情况下。 SpecAugment将ASR从过度拟合转换为欠拟合的问题,并且可以通过更长时间地训练更大的网络来获得更好的性能。

Til next time,
gentlesnow at 14:38

scribble