代理

class lzero.agent.alphazero.AlphaZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]

基类：object

概述：: 用于执行AlphaZero算法的代理类，包括训练、部署和批量评估的方法。
接口：: __init__, train, deploy, batch_evaluate
属性：: best

备注

这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的（例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-AlphaZero），

并提供了诸如“训练”和“部署”的方法。

__init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) → None[源代码]

概述：: 使用环境参数、模型和配置初始化 AlphaZeroAgent 实例。

参数:

env_id (-) – 要使用的环境的标识符，在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None，则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None，将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供，状态字典将被加载。默认为 None。

备注

如果未指定 env_id，则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。

batch_evaluate(n_evaluator_episode: int = None) → EvalReturn[源代码]

概述：: 对代理在指定数量的回合上执行批量评估：n_evaluator_episode。

参数:

n_evaluator_episode (-) – 运行评估的集数。如果为 None，则使用配置中的默认值。默认为 None。

返回:

一个包含评估结果的 EvalReturn 对象，例如回报的均值和标准差。

备注

此方法评估代理在多个回合中的表现，以衡量其有效性。

property best

概述：: 根据评估指标提供最佳模型的访问权限。

返回:

加载了最佳模型的代理。

备注

最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时，代理实例将加载最佳模型状态。

deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) → EvalReturn[源代码]

概述：: 在环境中部署代理以进行评估，并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True，回放视频将保存在指定的 replay_save_path 中。

参数:

enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None，这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。

返回:

一个包含评估指标的 EvalReturn 对象，如回报的平均值和标准差。

supported_env_list = ['Gomoku-play-with-bot', 'TicTacToe-play-with-bot']

train(step: int = 10000000) → TrainingReturn[源代码]

概述：: 通过与环境的交互来训练代理。

参数:

step (-) – 训练所需的环境步数总数。默认为1000万（1e7）。

返回:

包含训练信息的 TrainingReturn 对象，例如日志和可能指向训练仪表板的URL。

备注

该方法涉及与环境交互、收集经验并优化模型。

class lzero.agent.muzero.MuZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]

基类：object

概述：: 用于执行包含训练、部署和批量评估方法的MuZero算法的代理类。
接口：: __init__, train, deploy, batch_evaluate
属性：: best

备注

这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的（例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-MuZero）。

并提供了诸如“训练”和“部署”的方法。

__init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) → None[源代码]

概述：: 使用环境参数、模型和配置初始化 MuZeroAgent 实例。

参数:

env_id (-) – 要使用的环境的标识符，在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None，则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None，将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供，状态字典将被加载。默认为 None。

备注

如果未指定 env_id，则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。

batch_evaluate(n_evaluator_episode: int = None) → EvalReturn[源代码]

概述：: 对代理在指定数量的回合上执行批量评估：n_evaluator_episode。

参数:

n_evaluator_episode (-) – 运行评估的集数。如果为 None，则使用配置中的默认值。默认为 None。

返回:

一个包含评估结果的 EvalReturn 对象，例如回报的均值和标准差。

备注

此方法评估代理在多个回合中的表现，以衡量其有效性。

property best

概述：: 根据评估指标提供最佳模型的访问权限。

返回:

加载了最佳模型的代理。

备注

最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时，代理实例将加载最佳模型状态。

deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) → EvalReturn[源代码]

概述：: 在环境中部署代理以进行评估，并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True，回放视频将保存在指定的 replay_save_path 中。

参数:

enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None，这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。

返回:

一个包含评估指标的 EvalReturn 对象，如回报的平均值和标准差。

supported_env_list = ['Gomoku-play-with-bot', 'BreakoutNoFrameskip-v4', 'CartPole-v0', 'LunarLander-v2', 'MsPacmanNoFrameskip-v4', 'Pendulum-v1', 'PongNoFrameskip-v4', 'TicTacToe-play-with-bot']

train(step: int = 10000000) → TrainingReturn[源代码]

概述：: 通过与环境的交互来训练代理。

参数:

step (-) – 训练所需的环境步数总数。默认为1000万（1e7）。

返回:

包含训练信息的 TrainingReturn 对象，例如日志和可能指向训练仪表板的URL。

备注

该方法涉及与环境交互、收集经验并优化模型。

class lzero.agent.efficientzero.EfficientZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]

基类：object

概述：: 用于执行EfficientZero算法的代理类，包括训练、部署和批量评估的方法。
接口：: __init__, train, deploy, batch_evaluate
属性：: best

备注

这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的（例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-EfficientZero），

并提供了诸如“训练”和“部署”的方法。

__init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) → None[源代码]

概述：: 使用环境参数、模型和配置初始化 EfficientZeroAgent 实例。

参数:

env_id (-) – 要使用的环境的标识符，在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None，则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None，将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供，状态字典将被加载。默认为 None。

备注

如果未指定 env_id，则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。

batch_evaluate(n_evaluator_episode: int = None) → EvalReturn[源代码]

概述：: 对代理在指定数量的回合上执行批量评估：n_evaluator_episode。

参数:

n_evaluator_episode (-) – 运行评估的集数。如果为 None，则使用配置中的默认值。默认为 None。

返回:

一个包含评估结果的 EvalReturn 对象，例如回报的均值和标准差。

备注

此方法评估代理在多个回合中的表现，以衡量其有效性。

property best

概述：: 根据评估指标提供最佳模型的访问权限。

返回:

加载了最佳模型的代理。

备注

最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时，代理实例将加载最佳模型状态。

deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) → EvalReturn[源代码]

概述：: 在环境中部署代理以进行评估，并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True，回放视频将保存在指定的 replay_save_path 中。

参数:

enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None，这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。

返回:

一个包含评估指标的 EvalReturn 对象，如回报的平均值和标准差。

supported_env_list = ['BreakoutNoFrameskip-v4', 'CartPole-v0', 'LunarLander-v2', 'MsPacmanNoFrameskip-v4', 'Pendulum-v1', 'PongNoFrameskip-v4']

train(step: int = 10000000) → TrainingReturn[源代码]

概述：: 通过与环境的交互来训练代理。

参数:

step (-) – 训练所需的环境步数总数。默认为1000万（1e7）。

返回:

包含训练信息的 TrainingReturn 对象，例如日志和可能指向训练仪表板的URL。

备注

该方法涉及与环境交互、收集经验并优化模型。

class lzero.agent.gumbel_muzero.GumbelMuZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]

基类：object

概述：: 用于执行Gumbel MuZero算法的代理类，包括训练、部署和批量评估的方法。
接口：: __init__, train, deploy, batch_evaluate
属性：: best

备注

这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的（例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-GumbelMuZero），

并提供了诸如“训练”和“部署”的方法。

__init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) → None[源代码]

概述：: 使用环境参数、模型和配置初始化 GumbelMuZeroAgent 实例。

参数:

env_id (-) – 要使用的环境的标识符，在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None，则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None，将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供，状态字典将被加载。默认为 None。

备注

如果未指定 env_id，则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。

batch_evaluate(n_evaluator_episode: int = None) → EvalReturn[源代码]

概述：: 对代理在指定数量的回合上执行批量评估：n_evaluator_episode。

参数:

n_evaluator_episode (-) – 运行评估的集数。如果为 None，则使用配置中的默认值。默认为 None。

返回:

一个包含评估结果的 EvalReturn 对象，例如回报的均值和标准差。

备注

此方法评估代理在多个回合中的表现，以衡量其有效性。

property best

概述：: 根据评估指标提供最佳模型的访问权限。

返回:

加载了最佳模型的代理。

备注

最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时，代理实例将加载最佳模型状态。

deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) → EvalReturn[源代码]

概述：: 在环境中部署代理以进行评估，并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True，回放视频将保存在指定的 replay_save_path 中。

参数:

enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None，这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。

返回:

一个包含评估指标的 EvalReturn 对象，如回报的平均值和标准差。

supported_env_list = ['Gomoku-play-with-bot', 'CartPole-v0', 'TicTacToe-play-with-bot']

train(step: int = 10000000) → TrainingReturn[源代码]

概述：: 通过与环境的交互来训练代理。

参数:

step (-) – 训练所需的环境步数总数。默认为1000万（1e7）。

返回:

包含训练信息的 TrainingReturn 对象，例如日志和可能指向训练仪表板的URL。

备注

该方法涉及与环境交互、收集经验并优化模型。

class lzero.agent.sampled_efficientzero.SampledEfficientZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]

基类：object

概述：: 用于执行 Sampled EfficientZero 算法的代理类，包括训练、部署和批量评估的方法。
接口：: __init__, train, deploy, batch_evaluate
属性：: best

备注

这个代理类是为与 HuggingFace 模型动物园中的 LightZero 一起使用而定制的（例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-SampledEfficientZero），

并提供了诸如“训练”和“部署”的方法。

__init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) → None[源代码]

概述：: 使用环境参数、模型和配置初始化 SampledEfficientZeroAgent 实例。

参数:

env_id (-) – 要使用的环境的标识符，在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None，则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None，将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供，状态字典将被加载。默认为 None。

备注

如果未指定 env_id，则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。

batch_evaluate(n_evaluator_episode: int = None) → EvalReturn[源代码]

概述：: 对代理在指定数量的回合上执行批量评估：n_evaluator_episode。

参数:

n_evaluator_episode (-) – 运行评估的集数。如果为 None，则使用配置中的默认值。默认为 None。

返回:

一个包含评估结果的 EvalReturn 对象，例如回报的均值和标准差。

备注

此方法评估代理在多个回合中的表现，以衡量其有效性。

property best

概述：: 根据评估指标提供最佳模型的访问权限。

返回:

加载了最佳模型的代理。

备注

最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时，代理实例将加载最佳模型状态。

deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) → EvalReturn[源代码]

概述：: 在环境中部署代理以进行评估，并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True，回放视频将保存在指定的 replay_save_path 中。

参数:

enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None，这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。

返回:

一个包含评估指标的 EvalReturn 对象，如回报的平均值和标准差。

supported_env_list = ['BreakoutNoFrameskip-v4', 'CartPole-v0', 'LunarLanderContinuous-v2', 'MsPacmanNoFrameskip-v4', 'Pendulum-v1', 'PongNoFrameskip-v4']

train(step: int = 10000000) → TrainingReturn[源代码]

概述：: 通过与环境的交互来训练代理。

参数:

step (-) – 训练所需的环境步数总数。默认为1000万（1e7）。

返回:

包含训练信息的 TrainingReturn 对象，例如日志和可能指向训练仪表板的URL。

备注

该方法涉及与环境交互、收集经验并优化模型。

class lzero.agent.sampled_alphazero.SampledAlphaZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]

基类：object

概述：: 用于执行AlphaZero算法的代理类，包括训练、部署和批量评估的方法。
接口：: __init__, train, deploy, batch_evaluate
属性：: best

备注

这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的（例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-AlphaZero），

并提供了诸如“训练”和“部署”的方法。

__init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) → None[源代码]

概述：: 使用环境参数、模型和配置初始化 SampledAlphaZeroAgent 实例。

参数:

env_id (-) – 要使用的环境的标识符，在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None，则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None，将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供，状态字典将被加载。默认为 None。

备注

如果未指定 env_id，则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。

batch_evaluate(n_evaluator_episode: int = None) → EvalReturn[源代码]

概述：: 对代理在指定数量的回合上执行批量评估：n_evaluator_episode。

参数:

n_evaluator_episode (-) – 运行评估的集数。如果为 None，则使用配置中的默认值。默认为 None。

返回:

一个包含评估结果的 EvalReturn 对象，例如回报的均值和标准差。

备注

此方法评估代理在多个回合中的表现，以衡量其有效性。

property best

概述：: 根据评估指标提供最佳模型的访问权限。

返回:

加载了最佳模型的代理。

备注

最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时，代理实例将加载最佳模型状态。

deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) → EvalReturn[源代码]

概述：: 在环境中部署代理以进行评估，并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True，回放视频将保存在指定的 replay_save_path 中。

参数:

enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None，这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。

返回:

一个包含评估指标的 EvalReturn 对象，如回报的平均值和标准差。

supported_env_list = ['Gomoku-play-with-bot', 'TicTacToe-play-with-bot']

train(step: int = 10000000) → TrainingReturn[源代码]

概述：: 通过与环境的交互来训练代理。

参数:

step (-) – 训练所需的环境步数总数。默认为1000万（1e7）。

返回:

包含训练信息的 TrainingReturn 对象，例如日志和可能指向训练仪表板的URL。

备注

该方法涉及与环境交互、收集经验并优化模型。