有关tf.nn.leaky_relu中的alpha的详细信息features,alpha = 0.2,name = None

问题描述

我正在尝试使用leaky_relu作为隐藏层的激活功能。对于参数alpha,其解释为:

激活函数在x

这是什么意思?不同的alpha值会对模型结果产生什么影响?

解决方法

有关ReLU及其变体的深入说明,请参见以下链接:

  1. https://machinelearningmastery.com/rectified-linear-activation-function-for-deep-learning-neural-networks/
  2. https://medium.com/@himanshuxd/activation-functions-sigmoid-relu-leaky-relu-and-softmax-basics-for-neural-networks-and-deep-8d9c70eed91e

在常规ReLU中,主要缺点是由于在网络中执行的操作会导致所谓的“ Dying RELU”问题,因此激活输入可能为负值

该单位不活动时,梯度为0。这可能导致 单元从未激活为基于梯度的优化的情况 算法不会调整永远不会激活的单元的权重 原来。此外,像消失的梯度问题一样,我们可能 期望在训练常数为0的ReLU网络时学习会变慢 渐变。

因此Leaky ReLU将零值替换为一个较小的值,例如0.001(称为“ alpha”)。因此,对于泄漏的ReLU,函数 f(x)= max(0.001x,x)。现在0.001x的梯度下降将具有非零值,并且它将继续学习而不会达到死角。