Understanding Normalization in Deep Learning

Abstract

一个卷积层,一个归一化层,一个非线性激活函数一起构成了深度卷积神经网络 (ConvNet)的“原子”结构。通过该基础结构的堆叠,产生了许多应用广泛的神经网络。归一化方法是这些神经网络的重要组成部分之一。本次报告的内容围绕深度学习的归一化方法展开,及其为神经网络带来的正则能力与泛化能力。报告分为四个部分。第一部以白化网络(Whitened Neural Network,WNN)为例,浅析神经网络前向计算与反向传播的关系:表明修改前向计算,将可以直接影响深度网络的费希尔信息矩阵 (Fisher Information Matrix,FIM),也将影响随机梯度优化过程。第二部分介绍WNN的一个特例——Batch Normalization (BN)的正则能力与泛化性能。BN的原始文章认为BN为训练ConvNet带来“隐式”正则。我们将这种“隐式”正则显示的表达出来:即BN=Population Normalization (PN) + Gamma衰减。它们可以直观体现BN对FIM的影响。第三部分提出并回答深度学习中一个新的问题——ConvNet中的每一个归一化层是否需要使用不同的归一化操作?我们使用Switchable Normalization (SN)来解决这个问题。SN通过可微分学习为ConvNet的每一个归一化层选择合适的操作。它具有普适性且能够广泛应用。我们还给出了SN的几何解释。报告的最后一部分介绍归一化技术的扩展,包括Instance-Batch Normalization Network (IBN-Net)和卡尔曼归一化(Kalman Normalization)。

Date