问题描述
我知道类似的问题已经在 SE 上多次提出,但没有一个真正详细解释这是如何工作的。
基于Keras documentation on Transfer Learning,为了冻结图层,可以设置其属性trainable = False
。为简单起见,Keras 允许将 trainable
属性设置为递归应用于网络前面层的层。因此只有基础网络的最后一层需要设置属性。
除了设置 trainable
属性外,我们还需要设置 training = False
,以便将 BN 层置于推理模式。我明白the difference between these two properties。
在网络的顶层训练后,我们通过设置 trainable = True
来解冻基础模型,但保留 training = False
,正如文档建议的那样:
重要的是,虽然基础模型变得可训练,但它仍然在推理模式下运行,因为我们在构建模型时调用它时传递了 training=False。这意味着里面的批标准化层不会更新它们的批统计信息。如果他们这样做了,他们将严重破坏模型迄今为止学习的表示。
这是我的问题:
-
这解释了为什么 BN 层需要保持在
training = False
(在推理模式中),但是对于基础网络的其余层,它们保持在推理模式中是否无关紧要?对于训练和推理模式,除了 BN 和 Dropout 之外的所有其他层的行为是否相同? -
在 tf>2.0 中真的需要设置
training
属性吗?我们能否实现相同的行为,首先将我们需要冻结的所有基础层设置为trainable=False
,但在解冻时只为不是 BN 的层设置trainable=True
?这将使 BN 层处于推理模式。 Keras FAQ 声明:
从 TensorFlow 2.0 开始,设置 bn.trainable = False 也会 强制层在推理模式下运行。此行为仅适用于 Batchnormalization。对于其他每一层,权重可训练性和“推理与训练模式”保持独立。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)