与 BatchNormalization 层相关的 Keras 属性可训练和训练

我知道类似的问题已经在 SE 上多次提出，但没有一个真正详细解释这是如何工作的。

基于Keras documentation on Transfer Learning，为了冻结图层，可以设置其属性trainable = False。为简单起见，Keras 允许将 trainable 属性设置为递归应用于网络前面层的层。因此只有基础网络的最后一层需要设置属性。

除了设置 trainable 属性外，我们还需要设置 training = False，以便将 BN 层置于推理模式。我明白the difference between these two properties。

在网络的顶层训练后，我们通过设置 trainable = True 来解冻基础模型，但保留 training = False，正如文档建议的那样：

重要的是，虽然基础模型变得可训练，但它仍然在推理模式下运行，因为我们在构建模型时调用它时传递了 training=False。这意味着里面的批标准化层不会更新它们的批统计信息。如果他们这样做了，他们将严重破坏模型迄今为止学习的表示。

这是我的问题：

这解释了为什么 BN 层需要保持在 training = False（在推理模式中），但是对于基础网络的其余层，它们保持在推理模式中是否无关紧要？对于训练和推理模式，除了 BN 和 Dropout 之外的所有其他层的行为是否相同？
在 tf>2.0 中真的需要设置 training 属性吗？我们能否实现相同的行为，首先将我们需要冻结的所有基础层设置为 trainable=False，但在解冻时只为不是 BN 的层设置 trainable=True？这将使 BN 层处于推理模式。 Keras FAQ 声明：

从 TensorFlow 2.0 开始，设置 bn.trainable = False 也会强制层在推理模式下运行。此行为仅适用于 Batchnormalization。对于其他每一层，权重可训练性和“推理与训练模式”保持独立。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）