Shortcuts

误差传播

分布式 PyTorch 作业中的每个主机都运行一个 TorchElastic 代理,以及多个工作进程(作为 TorchElastic 代理的子进程)。由于工作进程是由用户提供的(您的 PyTorch 脚本/作业),TorchElastic 有一种方法可以通过代理将训练器上的错误传播到调度器,最终通知最终用户作业的状态并应用任何重试策略。

TorchElastic 将错误分为 3 类:

类别

子类别

描述

用户错误

输入错误

TorchElastic API 的无效输入(例如 min > max nodes)

工作节点故障

工作子进程中的任何失败

平台错误

不适用

由代理引起的故障

基础设施错误

不适用

代理和工作者领域之外的故障(例如主机故障)

除“Worker Failure”之外的所有错误,要么是从代理进程中规范地引发,要么是隐式或显式地导致代理进程崩溃。因此,标准语言(python)提供的异常处理策略适用。

工作线程失败是特殊的,因为异常/失败源自与代理不同的进程,因此错误需要在进程间传播(例如,代理不能简单地try-catch在工作进程上引发的异常)。

TorchElastic 代理使用 torch.distributed.elastic.multiprocessing.start_processes() 来启动具有内置基于文件的进程间错误传播的工人。

任何使用 record() 装饰的函数或二进制入口点, 都会将未捕获的异常(带有跟踪信息)写入由环境变量 TORCHELASTIC_ERROR_FILE 指定的文件中。父进程(例如代理) 在启动每个子进程时设置此环境变量,然后聚合所有子进程的错误文件,并传播具有 最小 时间戳的文件(例如 第一个 错误)。

方法和类

torch.distributed.elastic.multiprocessing.errors.record(fn, error_handler=None)[源代码]

使用提供的 error_handler 记录装饰函数中发生的错误/异常的语法糖。

使用这个装饰器相当于:

error_handler = get_error_handler()
error_handler.initialize()
try:
   foobar()
except ChildFailedError as e:
   _, failure = e.get_first_failure()
   error_handler.dump_error_file(failure.error_file, failure.exitcode)
   raise
except Exception as e:
   error_handler.record(e)
   raise

重要

在进程的顶层方法中使用此装饰器一次,通常这是主方法。

示例

@record
def main():
    pass

if __name__=="__main__":
   main()
Return type

可调用[[…], T]

class torch.distributed.elastic.multiprocessing.errors.ChildFailedError(name, failures)[源代码]

特殊异常类型,可以从使用@record装饰器注解的函数中引发,以使子进程的(根异常)按原样向上传播(例如,不会被父进程的回溯包裹)。

在父进程是一个简单的守护进程,而子进程(工作进程)实际上在进行有意义的计算的情况下非常有用。在这种情况下,错误通常发生在子进程上,因为父进程没有进行任何非平凡的操作,子进程的错误应该传播到调度器以进行准确的根因诊断。

注意

传播依赖于错误文件而不是异常处理,以支持函数和二进制启动。

示例:

# 在主机(容器)上的进程树
0: scheduler-init-process:
           |- 1: torchelastic_agent:
                    |- 2: trainer_0 (ok)
                    |- 3: trainer_1 (fail) -> error.json
                    |- ...
                    |- n+2: trainer_n (ok)
           |- n+3: 其他进程
           |- ...

在上面的示例中,训练器1的失败(写入error.json)是根本原因,应报告给调度器的初始化进程。 torchelastic代理在检测到训练器1的失败时会引发ChildFailedError("trainer", {1: "trainer_1/error.json"}), 这将把训练器1的错误文件内容传播到调度器的初始化进程。

class torch.distributed.elastic.multiprocessing.errors.ErrorHandler[源代码]

将提供的异常对象与有关错误的其他一些元数据以结构化的方式写入由环境变量指定的错误文件中:TORCHELASTIC_ERROR_FILE。如果未设置此环境变量,则仅记录将写入错误文件的内容。

此处理程序可以被子类化以自定义错误处理。子类应重写initialize()record_exception()

class torch.distributed.elastic.multiprocessing.errors.ProcessFailure(local_rank, pid, exitcode, error_file)[源代码]

表示失败的进程结果。当工作进程失败时,它可能会将失败的根本原因记录到文件中。

尝试从提供的 error_file 中读取失败时间戳, 如果 error_file 不存在,则时间戳为当前时间戳(自纪元以来的秒数)。

The message 字段是失败的简要说明。如果错误文件存在,则消息从错误文件中获取。否则,将根据失败签名生成一个消息。

注意

假设 error_file 是由 torch.distributed.elastic.multiprocessing.errors.error_handler.ErrorHandler 编写的。 否则行为是未定义的。