Horovod 在 LSF 中¶
本页面包含在LSF集群中运行Horovod的示例。
horovodrun 将自动检测您的LSF作业的主机名和GPU。
如果LSF集群支持jsrun,horovodrun 将使用它作为启动器
否则将默认使用mpirun。
在LSF批处理文件内或交互式会话中,您只需使用:
horovodrun python train.py
在这里,Horovod将在LSF作业的所有主机上为每个GPU启动一个进程。
你也可以将运行限制在作业资源的一个子集内。例如,仅使用6个GPU:
horovodrun -np 6 python train.py
你仍然可以向 horovodrun 传递额外参数。例如,要触发 CUDA-Aware MPI:
horovodrun --mpi-args="-gpu" python train.py