Shortcuts

框架.中间件.学习者

学习者

OffPolicyLearner

class ding.framework.middleware.learner.OffPolicyLearner(*args, **kwargs)[source]
Overview:

离策略学习器的类,包括数据获取和模型训练。使用__call__方法来执行整个学习过程。

__call__(ctx: OnlineRLContext) None[source]
Output of ctx:
  • train_output (Deque): 训练输出在deque中。

__init__(cfg: EasyDict, policy: Policy, buffer_: Buffer | List[Tuple[Buffer, float]] | Dict[str, Buffer], reward_model: BaseRewardModel | None = None, log_freq: int = 100) None[source]
Arguments:
  • cfg (EasyDict): 配置。

  • policy (Policy): 要训练的策略。

  • buffer (Buffer): 用于存储训练数据的回放缓冲区。

  • reward_model (BaseRewardModel): 额外的奖励估计器,如RND、ICM等。默认为None。

  • log_freq (int): 显示日志的频率(迭代次数)。

HERLearner

class ding.framework.middleware.learner.HERLearner(cfg: EasyDict, policy, buffer_: Buffer | List[Tuple[Buffer, float]] | Dict[str, Buffer], her_reward_model)[source]
Overview:

使用Hindsight Experience Replay (HER)的学习者类。使用__call__方法来执行数据获取和训练过程。

__call__(ctx: OnlineRLContext) None[source]
Output of ctx:
  • train_output (Deque): 训练输出的双端队列。

__init__(cfg: EasyDict, policy, buffer_: Buffer | List[Tuple[Buffer, float]] | Dict[str, Buffer], her_reward_model) None[source]
Arguments:
  • cfg (EasyDict): 配置。

  • policy (Policy): 要训练的策略。

  • buffer_ (Buffer): 用于存储训练数据的回放缓冲区。

  • her_reward_model (HerRewardModel): HER 奖励模型。