框架.中间件.学习者¶

学习者¶

OffPolicyLearner¶

class ding.framework.middleware.learner.OffPolicyLearner(*args, **kwargs)[source]¶

Overview:: 离策略学习器的类，包括数据获取和模型训练。使用__call__方法来执行整个学习过程。

__call__(ctx: OnlineRLContext) → None[source]¶

Output of ctx:

train_output (Deque): 训练输出在deque中。

__init__(cfg: EasyDict, policy: Policy, buffer_: Buffer | List[Tuple[Buffer, float]] | Dict[str, Buffer], reward_model: BaseRewardModel | None = None, log_freq: int = 100) → None[source]¶

Arguments:

cfg (EasyDict): 配置。
policy (Policy): 要训练的策略。
buffer (Buffer): 用于存储训练数据的回放缓冲区。
reward_model (BaseRewardModel): 额外的奖励估计器，如RND、ICM等。默认为None。
log_freq (int): 显示日志的频率（迭代次数）。

HERLearner¶

class ding.framework.middleware.learner.HERLearner(cfg: EasyDict, policy, buffer_: Buffer | List[Tuple[Buffer, float]] | Dict[str, Buffer], her_reward_model)[source]¶

Overview:: 使用Hindsight Experience Replay (HER)的学习者类。使用__call__方法来执行数据获取和训练过程。

__call__(ctx: OnlineRLContext) → None[source]¶

Output of ctx:

train_output (Deque): 训练输出的双端队列。

__init__(cfg: EasyDict, policy, buffer_: Buffer | List[Tuple[Buffer, float]] | Dict[str, Buffer], her_reward_model) → None[source]¶

Arguments:

cfg (EasyDict): 配置。
policy (Policy): 要训练的策略。
buffer_ (Buffer): 用于存储训练数据的回放缓冲区。
her_reward_model (HerRewardModel): HER 奖励模型。