Ray on Kubernetes#
概述#
在本节中,我们将介绍如何在Kubernetes集群上执行您的分布式Ray程序。
使用 KubeRay Operator 是推荐的方式。该操作符提供了一种原生的 Kubernetes 方式来管理 Ray 集群。每个 Ray 集群由一个头节点 pod 和一组工作节点 pod 组成。可选的自动扩展支持允许 KubeRay Operator 根据您的 Ray 工作负载的需求调整 Ray 集群的大小,根据需要添加和移除 Ray pod。KubeRay 支持异构计算节点(包括 GPU),以及在同一个 Kubernetes 集群中运行多个不同 Ray 版本的 Ray 集群。
KubeRay 引入了三种不同的 Kubernetes 自定义资源定义(CRD):RayCluster、RayJob 和 RayService。这些 CRD 帮助用户高效管理针对各种用例定制的 Ray 集群。
请参阅 入门指南 以了解 KubeRay 的基础知识,并按照快速入门指南在 Kubernetes 上使用 KubeRay 运行您的第一个 Ray 应用程序。
了解更多#
Ray 文档提供了您在 Kubernetes 上开始运行 Ray 工作负载所需的所有信息。
入门指南
学习如何在Kubernetes上启动Ray集群并部署Ray应用程序。
用户指南
学习在 Kubernetes 上配置 Ray 集群的最佳实践。
示例
在 Kubernetes 上尝试 Ray 工作负载示例。
生态系统
将 KubeRay 与第三方 Kubernetes 生态系统工具集成。
基准测试
查看 KubeRay 基准测试结果。
故障排除
查阅 KubeRay 故障排除指南。
关于 KubeRay#
Ray 的 Kubernetes 支持在 KubeRay GitHub 仓库 中开发,属于更广泛的 Ray 项目。KubeRay 被多家公司用于运行生产环境的 Ray 部署。
访问 KubeRay GitHub 仓库 以跟踪进度、报告错误、提议新功能或为项目做出贡献。