@tensorflow/tfjs-node-gpu 适用于 NVIDIA P4,但在 GKE 上使用 V100 失败

问题描述

我的 tfjs-node-gpu 代码在 GKE 上的 NVIDIA p4 上运行良好(并在浏览器中使用 WebGL),但在 v100 和 t4 上运行失败。

节点在我的预热中的第一个预测调用中崩溃。我正在使用 128x128 的小块来预测 4 倍图像的放大,使用理想的甘斯。 v100 初始化正常,显示为 nvidia_smi,显示为 TF 设备,NUMA 内容一切正常。它只是使我的节点快速服务器崩溃。我无法找到崩溃堆栈,因为这是在 Docker 容器中启动的,而我最后一次尝试从 stderr 记录崩溃失败。

我已经尝试过最新的 tfjs-node-gpu 3.0 和 2.8.5。 GKE 配置为安装 NV 驱动程序,目前为 410.104 和 CUDA 10.0。

我尝试启用调试模式,并将 {verbose: true} 传递给我的预热函数中失败的 model.predict() 调用。都没有在预热调用添加任何输出,这很奇怪,因为我确实在对 model.predict()

的实际非预热调用中看到了输出

关于如何进一步调试的任何建议?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)