当前位置:首页 > 游戏开发

理解神经网络中的目标函数

发布时间:2019-07-09 08:37:50   编辑:it技术学习网   阅读次数:

摘要:机器学习从微软更有经验的开发人员?拉尔斯?Hulstaert?在训练中的几个目标函数的神经网络呈现在我们面前的文本。本文详细介绍了写作的动力,从以下三个方面:首先,有很多文章介绍了优化方法,比如如何优化随机梯度下降,或提出方法的变体,很少有人会解释建立神经网络目标方法的功能。我会去回答这样的问题:为什么会均方误差(MSE)和交叉熵损失分别为目标函数回归和分类任务?为什么要添加一个调整项是有意义的?因此,写这篇博客的意义在于,通过检查目标函数,一看就明白了神经网络的工作,但也可以

本文针对的是来自微软的机器学习发展经验少?拉尔斯?Hulstaert?在训练中的几个目标函数的神经网络呈现在我们面前的文本。


介绍


撰写本文时,有以下三个方面的动机:

首先,有很多文章介绍了优化方法,比如如何优化随机梯度下降,或提出方法的变体,很少有人会解释神经网络的目标函数构建。我会去回答这样的问题:为什么会均方误差(MSE)和交叉熵损失分别为目标函数回归和分类任务?为什么要添加一个调整项是有意义的?因此,写这篇博客的意义在于,通过检查目标函数,一看就明白了神经网络的工作,但能理解为什么他们不能发挥在其他领域的作用。


其次,预测误差的概率神经网络是一个名字,并拮抗样品的面(对抗性?例如,这是一种特殊的输入数据,这些数据通过专门的研究人员设计的,让神经网络作出错误的预测),他们什么都不做。总之,神经网络往往是过分自信,即便他们的判断这样的错误。在现实世界中的问题也不容忽视,自动驾驶仪,例如,自动驾驶汽车,以确保?145公里每小时?也使在行驶速度是正确的决定。所以,如果我们要学习的大规模应用的深度,我们不仅要认识到它的优势,但也知道它的不足之处。
一直以来,我想了解网络如何能神经元从概率的观点来解释,为什么它们适用于机器学习模型作为一个大的框架。像网络的输出作为概率人讨论。所以,概率神经网络来解释是否有它和它的目标函数之间的联系?

\

通过这篇文章和他们的朋友的启发写作?布赖恩?特里普?在学习贝叶斯神经网络剑桥大学计算机和生物实验室的研究,笔者强烈建议读者阅读自己的好友?布赖恩?基于神经网络的变推论“情结论文?不确定?在?机?学习:?贝叶斯?造型?对于?条件?密度?估计?和?突触?可塑性“。


监督学习


在监督学习,我们一般有一组数据?d,X?其中所述样品是,我们用(X中的样本标签,?Y)的方式来表示一个样本,我们要做的,是?P(Y?|?X,?θ)?条件概率分布模型。


例如,图像分类任务,X?它代表一个图像,Y?标签指示对应的图像。P(Y?|?X,?θ)?说:图像?X?并通过参数θ定义的下一个模型,有标签?概率。


在这样的模式被称为判别模型(判别?模型)。或在判别模型的条件,条件概率分布函数的定义?P(Y | X,?θ)?参数θ是从训练集推出。


基于观察到的数据?X(输入数据或特征值),概率分布模型的输出,那么这个分布将被用于预测的标签?Y(真值或类别)。不同的机器学习模型,需要不同的预测参数。对于线性模型(例如:逻辑回归,其特征在于由一系列相等数目定义的权重的)具有非线性模型(例如:神经网络,通过一系列的各层的权重定义的),这两个模型它可以是约等于所述条件概率分布。


对于一个典型的分类问题(其可以是一系列学习)定义为θ的参数?X?可见的分布(它们基于不同的标签)的映射。判别模型给出的概率(N?等于类的数量)作为输出。每?X?所有属于一个阶层,而是由模型的不确定性是基于分布式输出,以反映。在一般情况下,最大的一类的概率会在第一时间做出决定选择。


我们注意到,判别回归模型(判别?回归?模型)的输出往往只是一个预测值,而不是真正的价值基于所有的分布。这种分类判别模型(判别?分类?模型)不同,后者输出一个基于类的分布可以。那么,这是否意味着,由于判别模型返回任务和它的崩溃?输出模式不应该告诉我们的返回值(回归?值)会看重它比其他人更容易?


\

说判别回归模型只有一个输出实际上会误导,其实,回归模型与相关已知概率分布的输出:高斯分布。事实证明,判别回归模型的输出表示的高斯分布的均值(高斯分布完全由平均值和标准偏差确定的)。有了这些信息,你可以决定在输入的情况下,每个相似的真正价值* X *。


通常情况下,只有分销模式,将意味着,高斯分布建模与否的标准偏差,或者是根本?X?保持恒定值(恒定)。因此,判别回归模型,从预定的2θ?X?高斯分布(Y?从采样来的)意味着地图。基本上,只要你想做出决定,我们将选择平均,因为它可以通过提高标准差来表示模型?X?它是不确定的。



在回归问题,其他的概率模型(如高斯过程)在模型的不确定性的过程中更好的结果。因为当你想要同时均值和时间的标准偏差的造型,判别回归模型必须是自信的倾向。


高斯过程(高斯?过程)可以通过标准偏差来量化的不确定性被准确地建模。它唯一的缺点是,高斯过程不能很好地扩展到大的数据集。在下图中可以看到,GP?在具有大数据量的周围区域的模型是小的置信区间。在数据点,置信区间和少数地区成为大。


通过在训练组训练,判别模型学习数据(或类表示一个真值)的特性。如果模型可以被分配正确的高概率的样品类,或更紧密的焦点上测试真值(true?平均值(mean)的值),那么我们说好的模型性能。


链接神经网络


当用于分类或回归神经网络的任务,上述参数分布(高斯分布的类别)的模型将通过神经网络来实现。


这是时候,我们不得不决定神经网络参数θ最大似然估计(MLE)更清楚。MLE?发现训练数据集对应于似然(或等效地对数似然)的最大参数θ的。更具体地,该图中下面得到了最大限度的表达:



什么时候?P(Y?|?X,?θ)?当由模型,它代表训练数据的实时标签的概率决定。如果?P(Y?|?X,?θ)?关?1,这意味着,该模型能够确定培训设置正确的标签/平均。鉴于由?N?下与由(X,Y)的训练数据的观察,训练数据的似然性的总和可以被重写对数概率。


在分类和回归,P(Y的情况下| X,?θ)?作为(X,?y)是后验概率可以被重写可见高斯分布和。在优化神经网络的情况下,我们的目标是改变参数,具体方法:一系列的输入?X,概率分布?Y?参数可以校正中得到的输出(返回值等)。这通常可通过梯度下降来实现和其变体。因此,为了获得?MLE?据估计,我们的目标是相对于实际产出优化模型输出:

最大化对应于近似为真实分布的交叉熵最小化值分布的分布的类别。
最大化高斯分布的值对应于最小的真实平均的平均均方近似于此。

因此,上述图像的表达可被重写,分别交叉熵损失变目标函数和标准偏差,与神经网络的分类和回归。


相比于从所述输入数据到神经网络或几率更传统的概率模型,非线性函数意味着采集难以被解释。虽然这是显著缺点的神经网络,但它的很多模拟复杂的功能的能力还可以带来很多好处高水平。根据该部分的内容导出的讨论中,我们可以清楚地看到目标函数(在确定的神经网络的参数?MLE?像的可能性期间形成)可以在概率性的方式来解释。


神经网络的一个有趣的解释和它的那些一般线性模型(线性回归,logistic回归)与相关关系。相比所选择的特征的线性组合(如在?GLM?这样做),神经网络将产生的特征的高度非线性的组合。


最大后验(地图)


但是,如果神经网络可以被解释为一个概率模型,为什么他们给质量差的预测的可能性,但那些谁也不能处理它对抗样本?他们为什么需要这么多的数据?


在选择了良好的函数逼近,根据不同的搜索空间我倾向于选择不同的模式(logistic回归分析,神经网络等。)。当面对一个巨大的搜索空间,这意味着你可以非常灵活后,模拟时的后验概率,仍然是有代价的。例如,神经网络被证明是一个一般函数逼近。这是有足够的参数,就可以模拟任何功能,只要。但是,为了确保在整个数据空间的功能,可以很好地校准,有的需要大量的工作数据集。


通常情况下,一个标准的神经网络将使用?MLE?进行优化,才知道是很重要的。使用?MLE?优化可能使发生模型拟合,该模型需要大量的数据来做出的过度拟合减弱。机器学习的目标不是去寻找训练数据模型的最好诠释。我们需要的是找到一个模型可以有数据的训练集之外的一个很好的推广能力。


此时,最大后验(地图)的方法是一种有效的替代,当我们经常遇到的概率模型拟合问题用它。所以?地图?什么神经网络语境中它相当于?对于目标函数它有什么作用?


与?MLE?同样,地图?它也可以在一个目标函数神经网络的情况下改写。从本质上说,使用?MAP?您正在最大化系列参数θ的(下数据给出,假设上θ先验概率分布)的概率:


使用?MLE?当我们只考虑方程的第一个元素(模型解释的程度训练数据)。用过的?的MAP,以便减少过拟合模型也很重要,以满足一个先验概率(θ满足程度先验概率)。


使用平均和θ?0?高斯先验概率和?L2?施加到目标函数的正则化是相同的(以确保有很多小的权重的),但在θ和使用拉普拉斯先验概率?L1?施加到目标函数的正则化是相同的(以确保大量的权重值的?0)。


\

一个完全贝叶斯方法


在?MLE?同?MAP?在这两种情况下,仅使用一个模型(它只是一组参数)。这对于复杂的数据,例如在未覆盖有该问题的特定空间区域的图像数据,尤其如此不太可能发生。模型是由这些区域中的随机初始化和训练过程模型输出来确定,除了数据模型点的空间覆盖区域将得到一个非常低的概率估计。


尽管?MAP?为了确保过拟合模型在这些地方的程度不太高,但它仍然使模型变得过于自信。在完全贝叶斯方法,我们通过平均多个模型来解决这个问题,这样你就可以得到更好的预测不确定性。我们的目标是分布式仿真的参数,而不仅仅是一组参数。如果所有的覆盖区域外的模型(不同参数设置)给出不同的预测,这意味着该地区具有很大的不确定性。通过平均这些模型,最终我们会在这些领域的模型不确定性,这正是我们想要的。


本文链接:理解神经网络中的目标函数

友情链接: 心经结缘 大悲咒 大悲咒功德
网站地图
it技术学习网版权所有   苏ICP备18043316号