与 BatchNormalization 层相关的 Keras 属性可训练和训练

问题描述

我知道类似的问题已经在 SE 上多次提出,但没有一个真正详细解释这是如何工作的。

基于Keras documentation on Transfer Learning,为了冻结图层,可以设置其属性trainable = False。为简单起见,Keras 允许将 trainable 属性设置为递归应用于网络前面层的层。因此只有基础网络的最后一层需要设置属性

除了设置 trainable 属性外,我们还需要设置 training = False,以便将 BN 层置于推理模式。我明白the difference between these two properties

在网络的顶层训练后,我们通过设置 trainable = True 来解冻基础模型,但保留 training = False,正如文档建议的那样:

重要的是,虽然基础模型变得可训练,但它仍然在推理模式下运行,因为我们在构建模型时调用它时传递了 training=False。这意味着里面的批标准化层不会更新它们的批统计信息。如果他们这样做了,他们将严重破坏模型迄今为止学习的表示。

这是我的问题:

  1. 这解释了为什么 BN 层需要保持在 training = False(在推理模式中),但是对于基础网络的其余层,它们保持在推理模式中是否无关紧要?对于训练和推理模式,除了 BN 和 Dropout 之外的所有其他层的行为是否相同?

  2. 在 tf>2.0 中真的需要设置 training 属性吗?我们能否实现相同的行为,首先将我们需要冻结的所有基础层设置为 trainable=False,但在解冻时只为不是 BN 的层设置 trainable=True?这将使 BN 层处于推理模式。 Keras FAQ 声明:

从 TensorFlow 2.0 开始,设置 bn.trainable = False 也会 强制层在推理模式下运行。此行为仅适用于 Batchnormalization。对于其他每一层,权重可训练性和“推理与训练模式”保持独立。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)