enter image description hereenter image description here对于绝大多数的模式识别的应用中我们对于结果的预测是不变的,无论对于输入值采取的是怎样复杂的变化,考虑对于一个二维图像的分类(例如手写体),某一个图像应当被分类为一个特定的类别而不论这个图像具体存在于哪个位置。如果有一个足够大的数量的训练模版是有效的,那么自适应模型(例如神经网络模型)可以学习这个不变量,至少能够大约推测出来。

这种方法也许不实用,但是如果训练数量的个数是有限的,或者有一些不变量的存在,那么我们可以寻找一个另外的一种方法来鼓励自适应模型来凸显需要的不变量,这些可以被分为四大类:

1、训练集通过训练模版的副本进行放大,通过不变量的存在进行改变。

2、一个正规化项加到误差函数中来补偿由于输入变化造成模型输出值的改变,这个结果称作tangent propagation切线繁殖

3、不变量被预置在预处理过程中,通过在需要改变的条件下提取不变量的特征,任何随后的回归或者分类系统使用这样的特征作为输入,将会包含这些不变值。

4、最后的一个方法就是将这些不变量属性建立于神经网络的结构中,一个获得这个目的的方法就是通过使用局部接受域和共享权值。在卷积神经网络中将会谈论到。

Tangent propagation切线繁殖

我们可以通过正规化的手段来鼓励模型对于输入数据的变化,通过切线繁殖(Tangent Propagation)的手法达到目的,考虑一个特定的输入向量xn的转换的效果,考虑到这个变化是连续的,我们可以讨论引入一个量ξ主宰了这个变化,因此切线向量为:enter image description here

enter image description here

因此我们如果需要知道这个变量对于输出结果的影响,我们需要用yk对ξ取导数:

enter image description here

通过添加一个修正项Ω给出一个新的误差函数的形式:

enter image description here

enter image description here

在实际的应用中,τn可以被通过最终误差方法(Finite Differences)来进行计算,通过减去原来的向量xn,然后再除以ξ即可得到。

训练经过变化的数据

我们已经了解鼓励一个模型的不变量的方法在于使用原先数据集发生改变过的版本来扩大训练集数据,这里我们引入一个方法和Tangent propagation非常接近的一个方法。

对于之前的那个例子我们了解到。如果没有发生变化,误差函数为:

enter image description here

这里我们考虑一个神经网络的例子,只有一个输出值,为了保证标记值的清楚,我们这里考虑这里有无数个数据点的复制,其中ξ由p(ξ)来决定:

enter image description here

enter image description here

enter image description here

Ω值为:

enter image description here

我们为了更加对这个项进行简化,我们可以采取以下的式子:

enter image description here

因此。对于第一项:

enter image description here

假设加入的噪声点仅仅是添加了一个随机噪音,即x->x+ξ,那么修正项为:

enter image description here

软权值共享(Soft weight sharing)

一个减少网络的复杂性的方法是通过限制权值在一些特定的群组中,我们通过软权值共享方法,其中强制限制权值方法被一个正则花方法取代,其中不同的组别的权值被鼓励允许拥有相同的值大小。进一步,将不同的权值分配到不同的组别中,对于每一个组别的平均权值大小和这些值在组中的分布情况是被认为是一个学习过程。

我们回顾之前提到的一个简单的权值衰减修正项,可以被视为高斯先验分布的取负log,我们鼓励这些权值形成多个不同的组别,而不是仅仅在一个组中间,通过考虑一个高斯分布的组合实现,这些高斯分布,包括混合的协参数,平均值,方差,可以被视为可以进行调节的,并且是一个学习过程,因此我们有一个概率分布形式为:

enter image description here

enter image description here

我们可以得到一个正规化项函数为如下的形式:

enter image description here

因此最终的误差函数为:

enter image description here

为了最小化最终的误差函数,我们必须要把误差函数能够对各种可进行调整的参数进行求导,我们首先需要把{πj}看作先验概率然后引入一个相应的后验概率:

enter image description here

enter image description here

误差函数对高斯函数的中点可以被简单地计算为:

enter image description here

这里有一个简单而直接的解释,由于它将μj推向权值的平均值

enter image description here

为了实际的应用中我们引入一个新的参数ηj:

enter image description here

enter image description here

enter image description here

因此修正的误差函数对ηj的求导为:

enter image description here

因此,我们可以看到,πj逐渐被带到后验概率的平均值处。