代理
- class lzero.agent.alphazero.AlphaZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]
基类:
object
- 概述:
用于执行AlphaZero算法的代理类,包括训练、部署和批量评估的方法。
- 接口:
__init__
,train
,deploy
,batch_evaluate
- 属性:
best
备注
这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的(例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-AlphaZero),
并提供了诸如“训练”和“部署”的方法。
- __init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) None [源代码]
- 概述:
使用环境参数、模型和配置初始化 AlphaZeroAgent 实例。
- 参数:
env_id (-) – 要使用的环境的标识符,在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None,则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None,将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供,状态字典将被加载。默认为 None。
备注
如果未指定 env_id,则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。
- batch_evaluate(n_evaluator_episode: int = None) EvalReturn [源代码]
- 概述:
对代理在指定数量的回合上执行批量评估:
n_evaluator_episode
。
- 参数:
n_evaluator_episode (-) – 运行评估的集数。如果为 None,则使用配置中的默认值。默认为 None。
- 返回:
一个包含评估结果的 EvalReturn 对象,例如回报的均值和标准差。
备注
此方法评估代理在多个回合中的表现,以衡量其有效性。
- property best
- 概述:
根据评估指标提供最佳模型的访问权限。
- 返回:
加载了最佳模型的代理。
备注
最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时,代理实例将加载最佳模型状态。
- deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) EvalReturn [源代码]
- 概述:
在环境中部署代理以进行评估,并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True,回放视频将保存在指定的 replay_save_path 中。
- 参数:
enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None,这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。
- 返回:
一个包含评估指标的 EvalReturn 对象,如回报的平均值和标准差。
- supported_env_list = ['Gomoku-play-with-bot', 'TicTacToe-play-with-bot']
- class lzero.agent.muzero.MuZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]
基类:
object
- 概述:
用于执行包含训练、部署和批量评估方法的MuZero算法的代理类。
- 接口:
__init__
,train
,deploy
,batch_evaluate
- 属性:
best
备注
这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的(例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-MuZero)。
并提供了诸如“训练”和“部署”的方法。
- __init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) None [源代码]
- 概述:
使用环境参数、模型和配置初始化 MuZeroAgent 实例。
- 参数:
env_id (-) – 要使用的环境的标识符,在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None,则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None,将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供,状态字典将被加载。默认为 None。
备注
如果未指定 env_id,则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。
- batch_evaluate(n_evaluator_episode: int = None) EvalReturn [源代码]
- 概述:
对代理在指定数量的回合上执行批量评估:
n_evaluator_episode
。
- 参数:
n_evaluator_episode (-) – 运行评估的集数。如果为 None,则使用配置中的默认值。默认为 None。
- 返回:
一个包含评估结果的 EvalReturn 对象,例如回报的均值和标准差。
备注
此方法评估代理在多个回合中的表现,以衡量其有效性。
- property best
- 概述:
根据评估指标提供最佳模型的访问权限。
- 返回:
加载了最佳模型的代理。
备注
最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时,代理实例将加载最佳模型状态。
- deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) EvalReturn [源代码]
- 概述:
在环境中部署代理以进行评估,并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True,回放视频将保存在指定的 replay_save_path 中。
- 参数:
enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None,这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。
- 返回:
一个包含评估指标的 EvalReturn 对象,如回报的平均值和标准差。
- supported_env_list = ['Gomoku-play-with-bot', 'BreakoutNoFrameskip-v4', 'CartPole-v0', 'LunarLander-v2', 'MsPacmanNoFrameskip-v4', 'Pendulum-v1', 'PongNoFrameskip-v4', 'TicTacToe-play-with-bot']
- class lzero.agent.efficientzero.EfficientZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]
基类:
object
- 概述:
用于执行EfficientZero算法的代理类,包括训练、部署和批量评估的方法。
- 接口:
__init__
,train
,deploy
,batch_evaluate
- 属性:
best
备注
这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的(例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-EfficientZero),
并提供了诸如“训练”和“部署”的方法。
- __init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) None [源代码]
- 概述:
使用环境参数、模型和配置初始化 EfficientZeroAgent 实例。
- 参数:
env_id (-) – 要使用的环境的标识符,在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None,则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None,将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供,状态字典将被加载。默认为 None。
备注
如果未指定 env_id,则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。
- batch_evaluate(n_evaluator_episode: int = None) EvalReturn [源代码]
- 概述:
对代理在指定数量的回合上执行批量评估:
n_evaluator_episode
。
- 参数:
n_evaluator_episode (-) – 运行评估的集数。如果为 None,则使用配置中的默认值。默认为 None。
- 返回:
一个包含评估结果的 EvalReturn 对象,例如回报的均值和标准差。
备注
此方法评估代理在多个回合中的表现,以衡量其有效性。
- property best
- 概述:
根据评估指标提供最佳模型的访问权限。
- 返回:
加载了最佳模型的代理。
备注
最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时,代理实例将加载最佳模型状态。
- deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) EvalReturn [源代码]
- 概述:
在环境中部署代理以进行评估,并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True,回放视频将保存在指定的 replay_save_path 中。
- 参数:
enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None,这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。
- 返回:
一个包含评估指标的 EvalReturn 对象,如回报的平均值和标准差。
- supported_env_list = ['BreakoutNoFrameskip-v4', 'CartPole-v0', 'LunarLander-v2', 'MsPacmanNoFrameskip-v4', 'Pendulum-v1', 'PongNoFrameskip-v4']
- class lzero.agent.gumbel_muzero.GumbelMuZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]
基类:
object
- 概述:
用于执行Gumbel MuZero算法的代理类,包括训练、部署和批量评估的方法。
- 接口:
__init__
,train
,deploy
,batch_evaluate
- 属性:
best
备注
这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的(例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-GumbelMuZero),
并提供了诸如“训练”和“部署”的方法。
- __init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) None [源代码]
- 概述:
使用环境参数、模型和配置初始化 GumbelMuZeroAgent 实例。
- 参数:
env_id (-) – 要使用的环境的标识符,在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None,则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None,将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供,状态字典将被加载。默认为 None。
备注
如果未指定 env_id,则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。
- batch_evaluate(n_evaluator_episode: int = None) EvalReturn [源代码]
- 概述:
对代理在指定数量的回合上执行批量评估:
n_evaluator_episode
。
- 参数:
n_evaluator_episode (-) – 运行评估的集数。如果为 None,则使用配置中的默认值。默认为 None。
- 返回:
一个包含评估结果的 EvalReturn 对象,例如回报的均值和标准差。
备注
此方法评估代理在多个回合中的表现,以衡量其有效性。
- property best
- 概述:
根据评估指标提供最佳模型的访问权限。
- 返回:
加载了最佳模型的代理。
备注
最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时,代理实例将加载最佳模型状态。
- deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) EvalReturn [源代码]
- 概述:
在环境中部署代理以进行评估,并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True,回放视频将保存在指定的 replay_save_path 中。
- 参数:
enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None,这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。
- 返回:
一个包含评估指标的 EvalReturn 对象,如回报的平均值和标准差。
- supported_env_list = ['Gomoku-play-with-bot', 'CartPole-v0', 'TicTacToe-play-with-bot']
- class lzero.agent.sampled_efficientzero.SampledEfficientZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]
基类:
object
- 概述:
用于执行 Sampled EfficientZero 算法的代理类,包括训练、部署和批量评估的方法。
- 接口:
__init__
,train
,deploy
,batch_evaluate
- 属性:
best
备注
这个代理类是为与 HuggingFace 模型动物园中的 LightZero 一起使用而定制的(例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-SampledEfficientZero),
并提供了诸如“训练”和“部署”的方法。
- __init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) None [源代码]
- 概述:
使用环境参数、模型和配置初始化 SampledEfficientZeroAgent 实例。
- 参数:
env_id (-) – 要使用的环境的标识符,在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None,则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None,将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供,状态字典将被加载。默认为 None。
备注
如果未指定 env_id,则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。
- batch_evaluate(n_evaluator_episode: int = None) EvalReturn [源代码]
- 概述:
对代理在指定数量的回合上执行批量评估:
n_evaluator_episode
。
- 参数:
n_evaluator_episode (-) – 运行评估的集数。如果为 None,则使用配置中的默认值。默认为 None。
- 返回:
一个包含评估结果的 EvalReturn 对象,例如回报的均值和标准差。
备注
此方法评估代理在多个回合中的表现,以衡量其有效性。
- property best
- 概述:
根据评估指标提供最佳模型的访问权限。
- 返回:
加载了最佳模型的代理。
备注
最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时,代理实例将加载最佳模型状态。
- deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) EvalReturn [源代码]
- 概述:
在环境中部署代理以进行评估,并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True,回放视频将保存在指定的 replay_save_path 中。
- 参数:
enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None,这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。
- 返回:
一个包含评估指标的 EvalReturn 对象,如回报的平均值和标准差。
- supported_env_list = ['BreakoutNoFrameskip-v4', 'CartPole-v0', 'LunarLanderContinuous-v2', 'MsPacmanNoFrameskip-v4', 'Pendulum-v1', 'PongNoFrameskip-v4']
- class lzero.agent.sampled_alphazero.SampledAlphaZeroAgent(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None)[源代码]
基类:
object
- 概述:
用于执行AlphaZero算法的代理类,包括训练、部署和批量评估的方法。
- 接口:
__init__
,train
,deploy
,batch_evaluate
- 属性:
best
备注
这个代理类是为与 HuggingFace Model Zoo for LightZero 一起使用而定制的(例如 https://huggingface.co/OpenDILabCommunity/CartPole-v0-AlphaZero),
并提供了诸如“训练”和“部署”的方法。
- __init__(env_id: str = None, seed: int = 0, exp_name: str = None, model: Module | None = None, cfg: EasyDict | dict | None = None, policy_state_dict: str = None) None [源代码]
- 概述:
使用环境参数、模型和配置初始化 SampledAlphaZeroAgent 实例。
- 参数:
env_id (-) – 要使用的环境的标识符,在 gym 中注册。
seed (-) – 用于可重复性的随机种子。默认为 0。
exp_name (-) – 实验的名称。默认为 None。
model (-) – 要使用的 PyTorch 模块作为模型。如果为 None,则创建一个默认模型。默认为 None。
cfg (-) – 代理的配置。如果为 None,将使用默认配置。默认为 None。
policy_state_dict (-) – 预训练模型状态字典的路径。如果提供,状态字典将被加载。默认为 None。
备注
如果未指定 env_id,则必须将其包含在 cfg 中。
supported_env_list 包含此代理支持的所有环境ID。
- batch_evaluate(n_evaluator_episode: int = None) EvalReturn [源代码]
- 概述:
对代理在指定数量的回合上执行批量评估:
n_evaluator_episode
。
- 参数:
n_evaluator_episode (-) – 运行评估的集数。如果为 None,则使用配置中的默认值。默认为 None。
- 返回:
一个包含评估结果的 EvalReturn 对象,例如回报的均值和标准差。
备注
此方法评估代理在多个回合中的表现,以衡量其有效性。
- property best
- 概述:
根据评估指标提供最佳模型的访问权限。
- 返回:
加载了最佳模型的代理。
备注
最佳模型保存在路径 ./exp_name/ckpt/ckpt_best.pth.tar 中。当访问此属性时,代理实例将加载最佳模型状态。
- deploy(enable_save_replay: bool = False, concatenate_all_replay: bool = False, replay_save_path: str = None, seed: int | List | None = None, debug: bool = False) EvalReturn [源代码]
- 概述:
在环境中部署代理以进行评估,并可选择保存回放。将评估代理的性能。将返回平均回报和回报的标准差。如果 enable_save_replay 为 True,回放视频将保存在指定的 replay_save_path 中。
- 参数:
enable_save_replay (-) – 启用保存回放视频的标志。默认为 False。
concatenate_all_replay (-) – 是否将所有回放视频合并为一个文件。默认为 False。
replay_save_path (-) – 保存回放视频的目录路径。默认为 None,这将设置一个默认路径。
seed (-) – 用于环境可重复性的种子或种子列表。默认为 None。
debug (-) – 是否启用调试模式。默认为 False。
- 返回:
一个包含评估指标的 EvalReturn 对象,如回报的平均值和标准差。
- supported_env_list = ['Gomoku-play-with-bot', 'TicTacToe-play-with-bot']