@tensorflow/tfjs-node-gpu 适用于 NVIDIA P4，但在 GKE 上使用 V100 失败

问题描述

我的 tfjs-node-gpu 代码在 GKE 上的 NVIDIA p4 上运行良好（并在浏览器中使用 WebGL），但在 v100 和 t4 上运行失败。

节点在我的预热中的第一个预测调用中崩溃。我正在使用 128x128 的小块来预测 4 倍图像的放大，使用理想的甘斯。 v100 初始化正常，显示为 nvidia_smi，显示为 TF 设备，NUMA 内容一切正常。它只是使我的节点快速服务器崩溃。我无法找到崩溃堆栈，因为这是在 Docker 容器中启动的，而我最后一次尝试从 stderr 记录崩溃失败。

我已经尝试过最新的 tfjs-node-gpu 3.0 和 2.8.5。 GKE 配置为安装 NV 驱动程序，目前为 410.104 和 CUDA 10.0。

我尝试启用调试模式，并将 {verbose: true} 传递给我的预热函数中失败的 model.predict() 调用。都没有在预热调用中添加任何输出，这很奇怪，因为我确实在对 model.predict()

的实际非预热调用中看到了输出

关于如何进一步调试的任何建议？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

google-kubernetes-engine tensorflow tensorflow tensorflow tensorflow.js tfjs-node