【论文研读】 009 SpecAugment
谷歌19年语音识别的论文
SpecAugment是一种数据增强的方法,可以直接应用在神经网络特征输入部分。 增强策略包括warping the features扭曲特征、masking blocks of frequency channels屏蔽频率通道块、masking blocks of time steps屏蔽时间步长块。 将SpecAugment应用在LSA模型上,在LibriSpeech和Switchboard都优于目前的最好成绩。
在LibriSpeecg上没有使用语言模型的LAS取得了6.8%的WER,用了浅的语言模型取得了5.8%的WER。 目前最好的混合模型的成绩是7.5%WER。 对于Switchboard在没有使用语言模型的情况下在Hub5’00测试集的Switchboard/CallHome部分达到7.2%/14.6%, 在浅融合时达到6.8%/14.1%。 之前最先进的混合模型的WER为8.3%/17.3%。
论文动机
深度学习目前已经成功应用于语音识别领域。 目前的研究重点是设计更好的网络结构和端到端模型。 然而这些模型往往容易过拟合而且需要大量的训练数据。
目前已经有人将数据增强应用到了ASR中。
- artificial data
- Vocal Tract Length Normalization
- Speed perturbation
- keyword spotting
- Feature dropouts
SpecAugment由频谱图的三种变形组成。
- time warping
- time masking
- frequency masking
模型结构
将输入的log mel spectrogram经过两层步数为2的CNN,输出结果结果d个堆叠的大小为w的双向LSTM以产生一系列注意力向量。 注意力向量被喂入两层维度为w的RNN解码器中,产生token。 使用Word Piece Model将文本token化。 最大的模型是LAS-4-1024(LAS-d-w)。
模型结果
SpecAugment极大地提高了ASR网络的性能。 通过使用简单的手工策略扩充训练集,甚至超越混合模型的性能, 能够在端到端LAS网络上获得LibriSpeech 960h和Switchboard 300h任务的更好的结果在没有语言模型的情况下。 SpecAugment将ASR从过度拟合转换为欠拟合的问题,并且可以通过更长时间地训练更大的网络来获得更好的性能。
Til next time,
gentlesnow
at 14:38
