框架.中间件.ckpt_handler¶ ckpt_handler¶ CkptSaver¶ class ding.framework.middleware.ckpt_handler.CkptSaver(*args, **kwargs)[source]¶ Overview:用于保存检查点数据的类。 __call__(ctx: OnlineRLContext | OfflineRLContext) → None[source]¶ Overview:用于保存检查点数据的方法。检查点数据将在以下三种情况下保存到文件中: - 当自训练开始以来,迭代次数达到self.train_freq的倍数时; - 当评估回合的回报是迄今为止最好的时; - 当task.finish为True时。 Input of ctx: train_iter (int): 训练迭代次数,即更新策略相关网络的次数。 eval_value (float): 当前迭代的回合回报。 __init__(policy: Policy, save_dir: str, train_freq: int | None = None, save_finish: bool = True)[源代码]¶ Overview:初始化 CkptSaver。 Arguments: 策略 (Policy): 用于保存检查点的策略。 save_dir (str): 保存检查点的目录路径。 train_freq (int): 每次保存检查点数据之间的训练迭代次数。 save_finish (bool): 当 task.finish = True 时是否保存最终的检查点。