Horovod 在 LSF 中

本页面包含在LSF集群中运行Horovod的示例。 horovodrun 将自动检测您的LSF作业的主机名和GPU。 如果LSF集群支持jsrunhorovodrun 将使用它作为启动器 否则将默认使用mpirun

在LSF批处理文件内或交互式会话中,您只需使用:

horovodrun python train.py

在这里,Horovod将在LSF作业的所有主机上为每个GPU启动一个进程。

你也可以将运行限制在作业资源的一个子集内。例如,仅使用6个GPU:

horovodrun -np 6 python train.py

你仍然可以向 horovodrun 传递额外参数。例如,要触发 CUDA-Aware MPI:

horovodrun --mpi-args="-gpu" python train.py