条目

class lzero.entry.train_alphazero.train_alphazero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]

基类:

概述:

AlphaZero 的训练条目。

参数:
  • input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。

  • seed (-) – 随机种子。

  • env_setting (-) – 包含3个元素的列表:BaseEnv 子类、收集器环境配置和评估器环境配置。

  • model (-) – torch.nn.Module 的实例。

  • model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar

  • max_train_iter (-) – 训练中的最大策略更新迭代次数。

  • max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

  • policy (Policy)

__init__(**kwargs)
class lzero.entry.eval_alphazero.eval_alphazero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, num_episodes_each_seed: int = 1, print_seed_details: int = False)[源代码]

基类:

概述:

AlphaZero 的评估条目。

参数:
  • input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。

  • seed (-) – 随机种子。

  • model (-) – torch.nn.Module 的实例。

  • model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar

  • max_train_iter (-) – 训练中的最大策略更新迭代次数。

  • max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

  • policy (Policy)

__init__(**kwargs)
class lzero.entry.train_muzero.train_muzero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]

基类:

概述:

MCTS+RL 算法的训练条目,包括 MuZero、EfficientZero、Sampled EfficientZero、Gumbel Muzero。

参数:
  • input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。

  • seed (-) – 随机种子。

  • model (-) – torch.nn.Module 的实例。

  • model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar

  • max_train_iter (-) – 训练中的最大策略更新迭代次数。

  • max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

  • policy (Policy)

__init__(**kwargs)
class lzero.entry.eval_muzero.eval_muzero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, num_episodes_each_seed: int = 1, print_seed_details: int = False)[源代码]

基类:

概述:

MCTS+RL 算法的评估条目,包括 MuZero、EfficientZero、Sampled EfficientZero、StochasticMuZero、GumbelMuZero、UniZero 等。

参数:
  • input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。

  • seed (-) – 随机种子。

  • model (-) – torch.nn.Module 的实例。

  • model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar

返回:

融合政策。

返回类型:

  • policy (Policy)

__init__(**kwargs)
class lzero.entry.train_muzero_with_gym_env.train_muzero_with_gym_env(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]

基类:

概述:

MCTS+RL 算法的训练条目,包括 MuZero、EfficientZero、Sampled EfficientZero。我们使用 env_id 参数创建一个 gym 环境,然后使用 LightZeroEnvWrapper 类将其转换为 LightZero 所需的格式。有关更多详细信息,请参阅 get_wrappered_env 方法。

参数:
  • input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。

  • seed (-) – 随机种子。

  • model (-) – torch.nn.Module 的实例。

  • model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar

  • max_train_iter (-) – 训练中的最大策略更新迭代次数。

  • max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

  • policy (Policy)

__init__(**kwargs)
class lzero.entry.eval_muzero_with_gym_env.eval_muzero_with_gym_env(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, num_episodes_each_seed: int = 1, print_seed_details: int = False)[源代码]

基类:

概述:

MCTS+RL 算法的评估条目,包括 MuZero、EfficientZero、Sampled EfficientZero。我们使用 env_id 参数创建一个 gym 环境,然后使用 LightZeroEnvWrapper 类将其转换为 LightZero 所需的格式。有关更多详细信息,请参阅 get_wrappered_env 方法。

参数:
  • input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。

  • seed (-) – 随机种子。

  • model (-) – torch.nn.Module 的实例。

  • model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar

返回:

融合政策。

返回类型:

  • policy (Policy)

__init__(**kwargs)
class lzero.entry.train_muzero_with_reward_model.train_muzero_with_reward_model(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]

基类:

概述:

MCTS+RL 算法增强的 reward_model 训练条目。

参数:
  • input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。

  • seed (-) – 随机种子。

  • model (-) – torch.nn.Module 的实例。

  • model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar

  • max_train_iter (-) – 训练中的最大策略更新迭代次数。

  • max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

  • policy (Policy)

__init__(**kwargs)