条目

class lzero.entry.train_alphazero.train_alphazero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]

基类：

概述：: AlphaZero 的训练条目。

参数:

input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。
seed (-) – 随机种子。
env_setting (-) – 包含3个元素的列表：BaseEnv 子类、收集器环境配置和评估器环境配置。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径，应指向预训练模型的ckpt文件，建议使用绝对路径。在LightZero中，路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar。
max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

policy (Policy)

__init__(**kwargs)

class lzero.entry.eval_alphazero.eval_alphazero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, num_episodes_each_seed: int = 1, print_seed_details: int = False)[源代码]

基类：

概述：: AlphaZero 的评估条目。

参数:

input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。
seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径，应指向预训练模型的ckpt文件，建议使用绝对路径。在LightZero中，路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar。
max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

policy (Policy)

__init__(**kwargs)

class lzero.entry.train_muzero.train_muzero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]

基类：

概述：: MCTS+RL 算法的训练条目，包括 MuZero、EfficientZero、Sampled EfficientZero、Gumbel Muzero。

参数:

input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。
seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径，应指向预训练模型的ckpt文件，建议使用绝对路径。在LightZero中，路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar。
max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

policy (Policy)

__init__(**kwargs)

class lzero.entry.eval_muzero.eval_muzero(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, num_episodes_each_seed: int = 1, print_seed_details: int = False)[源代码]

基类：

概述：: MCTS+RL 算法的评估条目，包括 MuZero、EfficientZero、Sampled EfficientZero、StochasticMuZero、GumbelMuZero、UniZero 等。

参数:

input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。
seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径，应指向预训练模型的ckpt文件，建议使用绝对路径。在LightZero中，路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar。

返回:

融合政策。

返回类型:

policy (Policy)

__init__(**kwargs)

class lzero.entry.train_muzero_with_gym_env.train_muzero_with_gym_env(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]

基类：

概述：: MCTS+RL 算法的训练条目，包括 MuZero、EfficientZero、Sampled EfficientZero。我们使用 env_id 参数创建一个 gym 环境，然后使用 LightZeroEnvWrapper 类将其转换为 LightZero 所需的格式。有关更多详细信息，请参阅 get_wrappered_env 方法。

参数:

input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。
seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径，应指向预训练模型的ckpt文件，建议使用绝对路径。在LightZero中，路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar。
max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

policy (Policy)

__init__(**kwargs)

class lzero.entry.eval_muzero_with_gym_env.eval_muzero_with_gym_env(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, num_episodes_each_seed: int = 1, print_seed_details: int = False)[源代码]

基类：

概述：: MCTS+RL 算法的评估条目，包括 MuZero、EfficientZero、Sampled EfficientZero。我们使用 env_id 参数创建一个 gym 环境，然后使用 LightZeroEnvWrapper 类将其转换为 LightZero 所需的格式。有关更多详细信息，请参阅 get_wrappered_env 方法。

参数:

input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。
seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径，应指向预训练模型的ckpt文件，建议使用绝对路径。在LightZero中，路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar。

返回:

融合政策。

返回类型:

policy (Policy)

__init__(**kwargs)

class lzero.entry.train_muzero_with_reward_model.train_muzero_with_reward_model(input_cfg: Tuple[dict, dict], seed: int = 0, model: Module | None = None, model_path: str | None = None, max_train_iter: int | None = 10000000000, max_env_step: int | None = 10000000000)[源代码]

基类：

概述：: MCTS+RL 算法增强的 reward_model 训练条目。

参数:

input_cfg (-) – 字典类型的配置。Tuple[dict, dict] 类型表示 [用户配置, 创建配置]。
seed (-) – 随机种子。
model (-) – torch.nn.Module 的实例。
model_path (-) – 预训练模型路径，应指向预训练模型的ckpt文件，建议使用绝对路径。在LightZero中，路径通常类似于 exp_name/ckpt/ckpt_best.pth.tar。
max_train_iter (-) – 训练中的最大策略更新迭代次数。
max_env_step (-) – 最大收集环境交互步数。

返回:

融合政策。

返回类型:

policy (Policy)

__init__(**kwargs)