Cloud TPU 分布式训练中的数学运算失败？

问题描述

我正在 kaggle TPU 中训练我的 keras 模型。训练分布在 8 个 TPU 核心上。

在我的自定义训练循环中，当我进行数学运算 (batch%16) 时，我得到的结果是 (batch/16) * 8 的值。

为什么会发生这种情况，我该如何解决？ distributed Strategy 中是否有特定的数学运算函数？

下面是代码片段；

class GANMonitor(keras.callbacks.Callback):
    def __init__(self,num_img=10):
        self.num_img = num_img

    def on_batch_end(self,batch,logs):
        logs["steps"]= batch%16

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

keras keras tensorflow tensorflow tensorflow tpu