问题描述
我正在尝试通过 TFX+Kubeflow(管道服务)在 Cloud AI Platform 的训练作业上训练 ML 模型。
每当触发 Trainer 作业时,我都会看到抱怨 CUDA 的日志消息。
2021-02-14 23:39:45.470214: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] 无法加载动态库“libcudart.so.11.0”; dlerror: libcudart.so.11.0: 无法打开共享对象文件:没有那个文件或目录; LD_LIBRARY_PATH: /usr/local/lib
而且我没有看到任何 GPU(加速器)很忙。
我认为当我将 scaleTier
设置为喜欢 BASIC_GPU
时可以使用 CUDA。但是,我还需要TFX
的EntryPoint
。我还没有看到任何用于构建 TFX+CUDA 映像的官方 Dockerfile
。
有什么建议吗? 反复试验...我不断失去 GCP 积分...
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)