Horovod 文档¶
Horovod 提升了深度学习训练的速度、规模和资源利用率。
开始使用¶
选择您的深度学习框架以了解如何开始使用Horovod。
在您的笔记本电脑上使用 Horovod 与 TensorFlow:
- 安装 Open MPI 3.1.2 或 4.0.0,或其他 MPI 实现。
-
如果您从 PyPI 安装了 TensorFlow,请确保安装了
g++-5或更高版本。
如果您从 Conda 安装了 TensorFlow,请确保安装了gxx_linux-64Conda 包。 - 安装 Horovod pip 包:
pip install horovod - 阅读 Horovod with TensorFlow 以获取最佳实践和示例。
在您的笔记本电脑上使用 Horovod 与 Keras:
- 安装 Open MPI 3.1.2 或 4.0.0,或其他 MPI 实现。
-
如果您从 PyPI 安装了 TensorFlow,请确保安装了
g++-5或更高版本。
如果您从 Conda 安装了 TensorFlow,请确保安装了gxx_linux-64Conda 包。 - 安装 Horovod pip 包:
pip install horovod - 阅读 Horovod with Keras 以获取最佳实践和示例。
要在您的笔记本电脑上使用Horovod与PyTorch:
- 安装Open MPI 3.1.2或4.0.0,或其他MPI实现。
-
如果您从PyPI安装了PyTorch,请确保安装了
g++-5或更高版本。
如果您从Conda安装了PyTorch,请确保安装了gxx_linux-64Conda包。 - 安装Horovod pip包:
pip install horovod - 阅读Horovod with PyTorch以获取最佳实践和示例。
要在您的笔记本电脑上使用 Horovod 与 Apache MXNet:
- 安装 Open MPI 3.1.2 或 4.0.0,或其他 MPI 实现。
- 安装 Horovod pip 包:
pip install horovod - 阅读 Horovod with MXNet 以获取最佳实践和示例。
指南¶
- 概述
- 概念
- Horovod Installation Guide
- API
- Horovod with TensorFlow
- Tensorflow 中使用 XLA 的 Horovod
- Horovod with Keras
- Horovod with PyTorch
- Horovod with MXNet
- 运行 Horovod
- Elastic Horovod
- 基准测试
- 推理
- Horovod on GPU
- Horovod with MPI
- Horovod with Intel(R) oneCCL
- 为 Horovod 构建支持 GPU 的 Conda 环境
- Horovod in Docker
- Horovod on Spark
- Horovod on Ray
- LSF中的Horovod
- Tensor Fusion
- AdaSum with Horovod
- 分析性能
- 分布式超参数搜索
- 自动调优:自动化性能调优
- 进程集:并发运行的集合操作
- 故障排除
- 安装过程中导入TensorFlow失败
- 安装过程中未找到MPI
- 安装过程中出错:从‘const void*’到‘void*’的无效转换 [-fpermissive]
- 安装过程中出错:致命错误:pyconfig.h:没有这样的文件或目录
- 安装过程中未找到NCCL 2
- Pip 安装:没有这样的选项:–no-cache-dir
- ncclAllReduce 失败:无效数据类型
- transport/p2p.cu:431 警告 无法打开CUDA IPC句柄:30 未知错误
- 内存不足
- libcudart.so.X.Y: 无法打开共享对象文件:没有这样的文件或目录
- 强制终止于 数据解包将读取超过缓冲区末尾
- 使用 TensorFlow 1.14 或更高版本时出现段错误,提及 hwloc
- bash: orted: 命令未找到
- 贡献者指南