Shortcuts

框架.中间件.ckpt_handler

ckpt_handler

CkptSaver

class ding.framework.middleware.ckpt_handler.CkptSaver(*args, **kwargs)[source]
Overview:

用于保存检查点数据的类。

__call__(ctx: OnlineRLContext | OfflineRLContext) None[source]
Overview:

用于保存检查点数据的方法。检查点数据将在以下三种情况下保存到文件中: - 当自训练开始以来,迭代次数达到self.train_freq的倍数时; - 当评估回合的回报是迄今为止最好的时; - 当task.finish为True时。

Input of ctx:
  • train_iter (int): 训练迭代次数,即更新策略相关网络的次数。

  • eval_value (float): 当前迭代的回合回报。

__init__(policy: Policy, save_dir: str, train_freq: int | None = None, save_finish: bool = True)[源代码]
Overview:

初始化 CkptSaver

Arguments:
  • 策略 (Policy): 用于保存检查点的策略。

  • save_dir (str): 保存检查点的目录路径。

  • train_freq (int): 每次保存检查点数据之间的训练迭代次数。

  • save_finish (bool): 当 task.finish = True 时是否保存最终的检查点。