ray.rllib.core.learner.learner.Learner.after_gradient_based_update# Learner.after_gradient_based_update(*, timesteps: Dict[str, Any]) → None[源代码]# 在基于梯度的更新完成后调用。 应在基于梯度的更新完成后,重写以实现自定义的清理、日志记录或非基于梯度的学习者/RL模块更新逻辑。 参数: timesteps – 时间步长字典,必须包含键 NUM_ENV_STEPS_SAMPLED_LIFETIME。 # TODO (sven): 将其改为更正式的结构,并定义自己的类型。