Cloud TPU 分布式训练中的数学运算失败?

问题描述

我正在 kaggle TPU 中训练我的 keras 模型。 训练分布在 8 个 TPU 核心上。

在我的自定义训练循环中,当我进行数学运算 (batch%16) 时,我得到的结果是 (batch/16) * 8 的值。

为什么会发生这种情况,我该如何解决distributed Strategy 中是否有特定的数学运算函数

下面是代码片段;

class GANMonitor(keras.callbacks.Callback):
    def __init__(self,num_img=10):
        self.num_img = num_img

    def on_batch_end(self,batch,logs):
        logs["steps"]= batch%16
    

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)