- 1 简介和创新点
- 2 模型
- 3 模型参数
- 4 实验结果
- 5 疑问和思考
文献来源: ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
1 简介和创新点(1)简介 在语音增强领域提出了复数神经网络CDNN将复数值的有噪短时傅立叶变换(STFT)映射到干净的短时傅立叶变换。 提出了参数整流线性单位(PReLU)非线性的复数值扩展,这有助于改善CDNN的性能。 实验结果表明,与实值深层神经网络(DNN)相比,使用所提出的非线性性的CDNN可以提供相似或更好的增强结果 (2)创新点 使用使用实值反向传播训练的CDNN,而先前的研究探索了复数的反向传播 在模型中利用了以前未建议的复杂批处理规范化 提出了参数整流线性单位(PReLU)非线性的复数值激活函数,这有助于改善CDNN的性能。
2 模型提出的全连接复数神经网络。图中的W表示复数的初始化权重,从Input输入两个向量与权重矩阵进行相乘,然后经过Batch-Normalization,再经过CPRcLU激活构成一个隐藏层。重复三个隐藏层。 提出的CPRcLu激活函数公式如下
其中αI 和αR是可训练参数 本文中还列出其他的复数激活函数,比如ModRelu、ZreLu、CReLu、zPReLu、z3PReLu,大部分激活函数最初都在《Deep Complex Network》文献中提出。
3 模型参数数据集:TIMIT 训练集信噪比范围:【-5,5】 CDNN: 724 个复数隐藏单元 声音重采样频率:16KHZ Batch-size:4096 优化器:Adam 学习率:0.0002 Dorpout率:0.2
4 实验结果CPReLu激活函数效果最佳。CDNN相对于DNN效果最佳
(1)该模型无源码,但是Batch-Normalization和激活函数是使用《Deep Complex Network》中的源码直接调用的。模型部分介绍不清楚。就连全脸层中有使用dropout层都没有在模型部分介绍,在实验部分接受到的。 (2)全连接层的每层神经元个数没有展示,无法复现。
(3)《DeepComplex Network》复数神经网络的源码,可调用该源码封装的复数神经网络中的隐藏层的各个方法