ray.rllib.core.learner.learner.Learner.after_gradient_based_update#

Learner.after_gradient_based_update(*, timesteps: Dict[str, Any]) None[源代码]#

在基于梯度的更新完成后调用。

应在基于梯度的更新完成后,重写以实现自定义的清理、日志记录或非基于梯度的学习者/RL模块更新逻辑。

参数:

timesteps – 时间步长字典,必须包含键 NUM_ENV_STEPS_SAMPLED_LIFETIME。 # TODO (sven): 将其改为更正式的结构,并定义自己的类型。