您现在的位置是:主页 > news > 泉州seo网络营销/关键词优化公司推荐
泉州seo网络营销/关键词优化公司推荐
admin2025/5/19 22:43:33【news】
简介泉州seo网络营销,关键词优化公司推荐,网站公司简介模板免费下载,交互比较好的网站转载于:https://blog.csdn.net/huangfei711/article/details/79865054 目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。这样做是有一定原因的,首先&…
转载于:https://blog.csdn.net/huangfei711/article/details/79865054
目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。这样做是有一定原因的,首先,深层网络由许多非线性层堆叠而来,每一层非线性层都可以视为是一个非线性函数 f(x)f(x)
我们最终的目的是希望这个多元函数可以很好的完成输入到输出之间的映射。
梯度消失与梯度爆炸其实是一种情况。例如,下图以三个隐层的单神经元网络为例:
以上图为例,假设每一层网络激活后的输出为 fi(x)fi(x),即第二隐层的输入与激活函数求导后相乘。如果激活函数求导后与权重相乘的积大于1,那么层数增多的时候,最终的求出的梯度更新信息将以指数形式增加,即发生梯度爆炸,如果此部分小于1,那么随着层数增多,求出的梯度更新信息将会以指数形式衰减,即发生了梯度消失。下面以 sigmoid 激活函数为例来具体分析:
sigmoid 函数的导数曲线如下图所示:
可以看到,sigmoid 导数的最大值为0.25,通常 abs(w)<1abs(w)<1,则上述分析中的激活函数的导数与权重的积小于0.25,前面的层比后面的层梯度变化更小,故变化更慢,从而引起了梯度消失问题。当权值过大,前面层比后面层梯度变化更快,则引起梯度爆炸问题。
sigmoid 时,消失和爆炸哪个更易发生?
因为 sigmoid 导数最大为1/4,故只有当 abs(w)>4abs(w)>4 时才可能出现梯度爆炸,而最普遍发生的是梯度消失问题。
如何解决梯度消失和梯度爆炸?
常用的用于解决梯度消失和梯度爆炸的方法如下所示:
- 使用 ReLU、LReLU、ELU、maxout 等激活函数
sigmoid函数的梯度随着x的增大或减小和消失,而ReLU不会。 - 使用批规范化
通过规范化操作将输出信号xx带来的放大缩小的影响,进而解决梯度消失和爆炸的问题。