安装
如何安装 Kubeflow Trainer 控制平面
本指南描述了如何在Kubernetes集群上安装Kubeflow Trainer控制平面。
如果Kubeflow平台已经通过清单或包分发进行了部署,则可以跳过这些步骤,因为它默认包含Kubeflow Trainer。
前提条件
以下是安装Kubeflow Trainer控制平面的最低要求:
- Kubernetes >= 1.28
kubectl>= 1.28
安装 Kubeflow Trainer Controller Manager
运行以下命令以部署 Kubeflow Trainer 控制器管理器:
kubectl apply --server-side -k "https://github.com/kubeflow/trainer.git/manifests/overlays/manager?ref=master"
确保 JobSet 和 Trainer 控制器管理器 pod 正在运行:
$ kubectl get pods -n kubeflow-system
NAME READY STATUS RESTARTS AGE
jobset-controller-manager-54968bd57b-88dk4 2/2 Running 0 65s
kubeflow-trainer-controller-manager-cc6468559-dblnw 1/1 Running 0 65s
安装 Kubeflow 训练运行时
运行以下命令以部署 Kubeflow 训练运行时:
kubectl apply --server-side -k "https://github.com/kubeflow/trainer.git/manifests/overlays/runtimes?ref=master"
接下来的步骤
Last modified February 11, 2025: 培训者:Kubeflow培训器V2的初始文档 (#3958) (10b7063)