框架.中间件.学习者¶
学习者¶
OffPolicyLearner¶
- class ding.framework.middleware.learner.OffPolicyLearner(*args, **kwargs)[source]¶
- Overview:
离策略学习器的类,包括数据获取和模型训练。使用__call__方法来执行整个学习过程。
- __init__(cfg: EasyDict, policy: Policy, buffer_: Buffer | List[Tuple[Buffer, float]] | Dict[str, Buffer], reward_model: BaseRewardModel | None = None, log_freq: int = 100) None[source]¶
- Arguments:
cfg (
EasyDict): 配置。policy (
Policy): 要训练的策略。buffer (
Buffer): 用于存储训练数据的回放缓冲区。reward_model (
BaseRewardModel): 额外的奖励估计器,如RND、ICM等。默认为None。log_freq (
int): 显示日志的频率(迭代次数)。