实例化和关闭 Kubeflow Pod

问题描述

我正在学习 Kubernetes 和 Kubeflow,我想做一些事情,但我在互联网上找不到任何明确的答案(如果可能的话)或我应该采取的路线。

在训练我的机器学习模型时,我想使用大型机器在云上训练我的模型,但之后,我只想在小型实例上为模型提供服务。我希望大型机器仅在训练步骤时使用,然后关闭。可以用 Kubeflow 做到这一点吗?如果是这样,我将如何去做?

抱歉新手问题,我还在学习这个平台。

解决方法

实现此目的的一种方法是拥有两个独立的集群。一个用于训练的大型集群和另一个用于服务的较小集群。您可以在更大的集群上使用 Kubeflow Pipelines,训练模型,然后将模型文件放在分布式存储中。在较小的集群上,您只需运行 KFServing standalone 并将模型二进制文件从分布式存储加载到您的推理服务中。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...