如何为 TFX+GPU 支持构建 Docker 镜像?

问题描述

我正在尝试通过 TFX+Kubeflow(管道服务)在 Cloud AI Platform 的训练作业上训练 ML 模型。

每当触发 Trainer 作业时,我都会看到抱怨 CUDA 的日志消息。

2021-02-14 23:39:45.470214: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] 无法加载动态库“libcudart.so.11.0”; dlerror: libcudart.so.11.0: 无法打开共享对象文件:没有那个文件或目录; LD_LIBRARY_PATH: /usr/local/lib

而且我没有看到任何 GPU(加速器)很忙。

我认为当我将 scaleTier 设置为喜欢 BASIC_GPU 时可以使用 CUDA。但是,我还需要TFXEntryPoint。我还没有看到任何用于构建 TFX+CUDA 映像的官方 Dockerfile

有什么建议吗? 反复试验...我不断失去 GCP 积分...

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...