Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.core.learner.learner.Learner.after_gradient_based_update#

Learner.after_gradient_based_update(*, timesteps: Dict[str, Any]) → None[源代码]#

在基于梯度的更新完成后调用。

应在基于梯度的更新完成后，重写以实现自定义的清理、日志记录或非基于梯度的学习者/RL模块更新逻辑。

参数:: timesteps – 时间步长字典，必须包含键 NUM_ENV_STEPS_SAMPLED_LIFETIME。 # TODO (sven): 将其改为更正式的结构，并定义自己的类型。

优云智算