条目
- class lzero.entry.train_alphazero.train_alphazero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]
基类:
- 概述:
AlphaZero 的训练条目。
- 参数:
input_cfg (-) – 字典类型的配置。
Tuple[dict, dict]
类型表示 [用户配置, 创建配置]。seed (-) – 随机种子。
env_setting (-) – 包含3个元素的列表:
BaseEnv
子类、收集器环境配置和评估器环境配置。model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于
exp_name/ckpt/ckpt_best.pth.tar
。max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。
- 返回:
融合政策。
- 返回类型:
policy (
Policy
)
- __init__(**kwargs)
- class lzero.entry.eval_alphazero.eval_alphazero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, num_episodes_each_seed: int = 1, print_seed_details: int = False)[源代码]
基类:
- 概述:
AlphaZero 的评估条目。
- 参数:
input_cfg (-) – 字典类型的配置。
Tuple[dict, dict]
类型表示 [用户配置, 创建配置]。seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于
exp_name/ckpt/ckpt_best.pth.tar
。max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。
- 返回:
融合政策。
- 返回类型:
policy (
Policy
)
- __init__(**kwargs)
- class lzero.entry.train_muzero.train_muzero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]
基类:
- 概述:
MCTS+RL 算法的训练条目,包括 MuZero、EfficientZero、Sampled EfficientZero、Gumbel Muzero。
- 参数:
input_cfg (-) – 字典类型的配置。
Tuple[dict, dict]
类型表示 [用户配置, 创建配置]。seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于
exp_name/ckpt/ckpt_best.pth.tar
。max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。
- 返回:
融合政策。
- 返回类型:
policy (
Policy
)
- __init__(**kwargs)
- class lzero.entry.eval_muzero.eval_muzero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, num_episodes_each_seed: int = 1, print_seed_details: int = False)[源代码]
基类:
- 概述:
MCTS+RL 算法的评估条目,包括 MuZero、EfficientZero、Sampled EfficientZero、StochasticMuZero、GumbelMuZero、UniZero 等。
- 参数:
input_cfg (-) – 字典类型的配置。
Tuple[dict, dict]
类型表示 [用户配置, 创建配置]。seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于
exp_name/ckpt/ckpt_best.pth.tar
。
- 返回:
融合政策。
- 返回类型:
policy (
Policy
)
- __init__(**kwargs)
- class lzero.entry.train_muzero_with_gym_env.train_muzero_with_gym_env(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]
基类:
- 概述:
MCTS+RL 算法的训练条目,包括 MuZero、EfficientZero、Sampled EfficientZero。我们使用 env_id 参数创建一个 gym 环境,然后使用 LightZeroEnvWrapper 类将其转换为 LightZero 所需的格式。有关更多详细信息,请参阅 get_wrappered_env 方法。
- 参数:
input_cfg (-) – 字典类型的配置。
Tuple[dict, dict]
类型表示 [用户配置, 创建配置]。seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于
exp_name/ckpt/ckpt_best.pth.tar
。max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。
- 返回:
融合政策。
- 返回类型:
policy (
Policy
)
- __init__(**kwargs)
- class lzero.entry.eval_muzero_with_gym_env.eval_muzero_with_gym_env(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, num_episodes_each_seed: int = 1, print_seed_details: int = False)[源代码]
基类:
- 概述:
MCTS+RL 算法的评估条目,包括 MuZero、EfficientZero、Sampled EfficientZero。我们使用 env_id 参数创建一个 gym 环境,然后使用 LightZeroEnvWrapper 类将其转换为 LightZero 所需的格式。有关更多详细信息,请参阅 get_wrappered_env 方法。
- 参数:
input_cfg (-) – 字典类型的配置。
Tuple[dict, dict]
类型表示 [用户配置, 创建配置]。seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于
exp_name/ckpt/ckpt_best.pth.tar
。
- 返回:
融合政策。
- 返回类型:
policy (
Policy
)
- __init__(**kwargs)
- class lzero.entry.train_muzero_with_reward_model.train_muzero_with_reward_model(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]
基类:
- 概述:
MCTS+RL 算法增强的 reward_model 训练条目。
- 参数:
input_cfg (-) – 字典类型的配置。
Tuple[dict, dict]
类型表示 [用户配置, 创建配置]。seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径,应指向预训练模型的ckpt文件,建议使用绝对路径。在LightZero中,路径通常类似于
exp_name/ckpt/ckpt_best.pth.tar
。max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。
- 返回:
融合政策。
- 返回类型:
policy (
Policy
)
- __init__(**kwargs)