Table of Contents
在 机器学习漫谈(2) 中我们提到了可以利用Fisher-Rao norm 的方法去分析深度学习的泛化界1,在这篇文章中我们详细的描述Fisher-Rao norm
Notations
- Neural Network describes by : $$f_{\theta}:\mathcal{X}\rightarrow \mathcal{Y}(\mathcal{X}\subset \mathbb{R}^p,\mathcal{Y}\subset \mathbb{R}K) : \left.\sigma_{L+1}\left(\sigma_L\left(\ldots \sigma_2\left(\sigma_1\left(x^T W^0\right) W^1\right) W^2\right) \ldots\right) W^L\right)$$
- $\theta\in \Theta\subset \mathbb{R}^d$. $\Theta = \mathbb{R}^{p \times k_1} \times \mathbb{R}^{k_1 \times k_2} \times \ldots \times \mathbb{R}^{k_{L-1} \times k_L} \times \mathbb{R}^{k_L \times K}$,$d = p k_1+\sum_{i=1}^{L-1} k_i k_{i+1}+k_L K$
- 对于 ReLU 和 "leaky" ReLU激活函数而言 : $\sigma(z) =\sigma^{'}(z)z$
- 第$t$层激活之后的输出值: $O^t(x)\in \mathbb{R}^{k_t}$
- 第$t$层激活之前的输出值: $N^t(x)\in \mathbb{R}^{k_{t}}$
- $N^t_i, O_i^t$ : 第$t$ 层的第$i$个节点激活之后和激活之前的输出值
- 定义损失函数 $l(\cdot,\cdot)$
- 期望风险 : $L(\theta):=\mathbb{E}_{(X, Y) \sim \mathcal{P}} \ell\left(f_\theta(X), Y\right)$
- 经验风险 : $\widehat{L}(\theta):=\widehat{\mathbb{E}} \ell\left(f_\theta(X), Y\right) = \frac{1}{N} \sum_{i=1}^N \ell\left(f_\theta\left(X_i\right), Y_i\right)$
首先通过下面的引理我们来认识一下隐藏在梯度中的结构
梯度结构引理
对于一个数据 $x\in \mathbb{R}^p$, 通过上面的网络定义得到的$f_{\theta}$ 满足:
对于任意的$0 \leqslant t \leqslant s \leqslant L$,
$$\sum_{i \in\left[k_t\right], j \in\left[k_{t+1}\right]} \frac{\partial O^{s+1}}{\partial W_{i j}^t} W_{i j}^t=O^{s+1}(x)$$ 此外: $$\sum_{\substack{i \in\left[k_t\right], j \in\left[k_{t+1}\right] \\ 0 \leqslant t \leqslant L}} \frac{\partial O^{L+1}}{\partial W_{i j}^t} W_{i j}^t=(L+1) O^{L+1}(x) .$$
这个引理揭示了就算在一个over-parametrized的高维网络中, 这些等式限制条件也隐藏在其中,也就是这个网络不是无限复杂的.这个引理还可以推出两个很有意思的推论
最大间隔驻点推论
考虑一个二分类问题, $\mathcal{Y} = \{-1,+1\}$, 网络的输出只有一个单元,当我们选择hinge loss $l (f,y) = \max\{0,1-yf\}$,如果对参数 $\theta$ 满足:
- 它是经验风险的一个驻点, $\nabla_\theta \widehat{L}(\theta)=\mathbf{0}$
- $\theta$ 能够将数据完美分开: $Y_if_{\theta}(X_i)>0,\forall i\in [N]$
那么它一定是最大间隔解也就是: $Y_i f_\theta\left(X_i\right) \geqslant 1: \forall i \in[N]$
深度网络的驻点推论
对于激活函数选择$\sigma(x)=x$ 的线性网络,如果用均方损失那么所有的驻点($\nabla_\theta \widehat{L}(\theta)=\nabla_\theta \widehat{\mathbb{E}}\left[\frac{1}{2}\left(f_\theta(X)-Y\right)^2\right]=0$)满足: $$\left\langle w(\theta), \mathbf{X}^T \mathbf{X} w(\theta)-\mathbf{X}^T \mathbf{Y}\right\rangle=0$$
- $\left\langle w(\theta), \mathbf{X}^T \mathbf{X} w(\theta)-\mathbf{X}^T \mathbf{Y}\right\rangle=0$
- $\text{X}\in \mathbb{R}^{N\times p},\text{Y}\in \mathbb{R}^N$ data matrix
注意到这里的驻点并不是全局最优的点,全局最优点需要满足的是$\mathbf{X}^T \mathbf{X} w(\theta)-\mathbf{X}^T \mathbf{Y}=\mathbf{0}$
Fisher-Rao Metric
$\mathcal{P}_{\theta}$ 定义了一族概率分布 $\mathcal{F}_{\theta}:\{f_{\theta}|\theta\in \mathcal{P}_{\theta}\}$
Footnotes:
Tengyuan Liang, Tomaso Poggio, Alexander Rakhlin, and James Stokes. Fisher-rao metric, geometry, and complexity of neural networks. In The 22nd International Conference on Artificial Intelligence and Statistics, pages 888–896. PMLR, 2019.