印象中一般都是说sigmoid会在两端梯度消失,dying relu这个该怎么理解?
1个回答
假设一个神经元(neuron)是$Relu(wx+b)$。因为一般用mini batch(SGD)优化算法,每次计算gradient只用一组(batch)数据点。假如用一组数据点更新$w,b$后,其余数据点$wx+b<0$,那么只会有一组点能通过这个neuron并更新它的参数,对于绝大多数点来说,不能通过这个neuron,也不能更新参数,相当于“死掉”。如果dying relu 很多,对于大多数数据来说神经网络大部分通路断掉,学习能力就变弱了。
解决办法是用leakyRelu等;bias的初始值设为正数,比如1;减小learning rate。
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
激活函数leakyRELU和pRELU的区别是什么?
2回答
purelin激活函数是什么?
1回答
如果y的范围是-1到1之间,网络输出层的激活函数应该是tanh还是linear?
1回答
多项式网络(polynomial networks)的结构和激活函数?
0回答
elu激活函数是什么?
1回答
softmin是什么激活函数?
3回答
环境激活报错求解
0回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!