我应该在深度神经网络中最后一层之前的层中使用哪个激活函数？

我有一个带有单标签多类的数据集。MNIST Dataset 。我想在该数据集上构建深度神经网络分类器。很明显，最后一层的激活函数将是 softmax。但我很好奇我应该使用哪个激活函数（Relu、Sigmoid、tanh）。也请给出背后的直觉。

您可以使用上述三个中的任何一个以及更多。尽管事实上，'ReLu' 的计算速度比其他两个快，而且它的导数计算速度也更快。这对神经网络的训练和推理时间产生了重大影响：只有一个常数因子，但常数很重要。然而，通常偏爱 ReLu 的主要原因是它不太容易受到梯度消失问题的影响。