在回归非分类问题中使用 softmax 作为隐藏层激活函数是否可以接受？

问题描述

我之前为 ML 模型做过手动超参数优化，并且总是默认使用 tanh 或 relu 作为隐藏层激活函数。最近，我开始尝试使用 Keras Tuner 来优化我的架构，但不小心将 softmax 作为隐藏层激活的选择。

我只见过 softmax 在输出层的分类模型中使用，从来没有作为隐藏层激活，尤其是对于回归。该模型在预测温度方面的性能非常好，但我很难证明使用该模型的合理性。

我看过像 this one 这样的帖子，其中讨论了为什么它应该只用于输出，但在我的情况下有什么理由吗？我在下面展示了整体架构，以供参考。

model = Sequential()
model.add(Dense(648,activation='relu',input_shape=(train_x.shape[1],)))
model.add(Dropout(0.3))
model.add(Layernormalization())
model.add(Dense(152,activation='relu'))
model.add(Dropout(0.15))
model.add(Layernormalization())
model.add(Dense(924,activation='softsign'))
model.add(Dropout(0.37))
model.add(Layernormalization())
model.add(Dense(248,activation='softmax'))
model.add(Dropout(0.12))
model.add(Layernormalization())
model.add(Dense(1,activation='linear'))
model.compile(loss='mse',optimizer='Adam')

解决方法

我可能错了，无论是分类还是回归都应该没有区别。从数学角度考虑。

一般来说，在隐藏层中使用 softmax 不是首选，因为我们希望每个神经元彼此独立。如果您应用 softmax，那么它们将线性相关，因为激活将迫使它们的总和等于 1。这并不意味着它从未被使用过，您可以参考 this paper。

假设使用一些高级激活，例如 LeakyReLU，通过使用它，神经元将受到控制，因为可以调整 alpha 率。但是使用 softmax 这将是不可能的。

现在回到问题，我认为这取决于数据集。模型能够用 softmax 概括这个数据集。但是，我认为它不会总是那样工作。如上所述，您使它们彼此线性相关。所以如果一个神经元学错了，就会影响整个网络的泛化，因为其他值也会受到影响。

编辑：我测试了两个模型。对于某些数据，softmax 的效果与 relu 一样好。但情况是所有神经元都相互依赖。让它们相互依赖并不是应该承担的风险，尤其是在大型网络中。

数据：

X_train = np.random.randn(10000,20)
y_train = np.random.randn(10000,1)
X_test = np.random.randn(5000,20)
y_test = np.random.randn(5000,1)

使用 Softmax：

model = Sequential()
model.add(Dense(512,activation='relu',input_shape=(20,)))
model.add(Dense(256,activation='softmax'))
model.add(Dense(512,activation='softmax'))
model.add(Dense(256,activation='softmax'))
model.add(Dense(128,activation='softmax'))
model.add(Dense(1,activation='linear'))
model.compile(loss='mse',optimizer='adam')
model.fit(X_train,y_train,epochs = 16,validation_data= (X_test,y_test))

结果：模型无法学习此数据。它发散并保持在与发散相同的区域。似乎一个神经元想要学习，但另一个不让另一个神经元学习。

Epoch 15/16
313/313 [==============================] - 1s 3ms/step - loss: 1.0259 - val_loss: 1.0269
Epoch 16/16
313/313 [==============================] - 1s 3ms/step - loss: 1.0020 - val_loss: 1.0271

使用relu：

model = Sequential()
model.add(Dense(512,activation='relu'))
model.add(Dense(512,activation='relu'))
model.add(Dense(256,activation='relu'))
model.add(Dense(128,activation='relu'))
model.add(Dense(1,y_test))

# Obviously overfitting but that's not the case.

结果：带有 relu 的模型能够学习这两种数据。

Epoch 15/16
313/313 [==============================] - 1s 3ms/step - loss: 0.5580 - val_loss: 1.3091
Epoch 16/16
313/313 [==============================] - 1s 3ms/step - loss: 0.4808 - val_loss: 1.3290

keras keras python softmax