怎么理解所谓的dying relu?

  统计/机器学习 人工神经网络    浏览次数:1442        分享
0

印象中一般都是说sigmoid会在两端梯度消失,dying relu这个该怎么理解?

 

初学者   2019-04-01 12:17



   1个回答 
5

假设一个神经元(neuron)是$Relu(wx+b)$。因为一般用mini batch(SGD)优化算法,每次计算gradient只用一组(batch)数据点。假如用一组数据点更新$w,b$后,其余数据点$wx+b<0$,那么只会有一组点能通过这个neuron并更新它的参数,对于绝大多数点来说,不能通过这个neuron,也不能更新参数,相当于“死掉”。如果dying relu 很多,对于大多数数据来说神经网络大部分通路断掉,学习能力就变弱了。

解决办法是用leakyRelu等;bias的初始值设为正数,比如1;减小learning rate。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-04-02 16:01



  相关主题

softmin是什么激活函数?   3回答

多项式网络(polynomial networks)的结构和激活函数?   0回答

激活函数leakyRELU和pRELU的区别是什么?   2回答

激活函数RELU在0点的导数是多少?   3回答

elu激活函数是什么?   1回答

人工神经网络有哪些常用的激活函数?   4回答

LeakyReLu是什么意思?   1回答

怎么理解神经网络中的激活函数hard sigmoid?   1回答

sigmoid, tanh, arctan这几个激活函数为什么长这么像?   1回答

激活函数multi-sigmoid和softmax有什么区别?   0回答

环境激活报错求解   0回答

神经网络里每层的激活函数必须是一样的吗?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!