环境

class lzero.envs.wrappers.lightzero_env_wrapper.LightZeroEnvWrapper(env: Env, cfg: EasyDict)[源代码]

基类:Wrapper

概述:

将 classic_control 和 box2d 环境打包为 LightZero 所需的格式。将 obs 包装为一个字典,包含键:obs、action_mask 和 to_play。

接口:

__init__resetstep

属性:
  • env (gym.Env): the environment to wrap.

__init__(env: Env, cfg: EasyDict) None[源代码]
概述:

初始化 self. 查看 help(type(self)) 以获取准确的签名;根据运行均值和标准差设置属性。

参数:

env (-) – 要包装的环境。

_is_protocol = False
property _np_random
property action_space: Space[ActType]

返回环境的动作空间。

classmethod class_name()

返回包装器的类名。

close()

关闭环境。

property metadata: dict

返回环境元数据。

property np_random: RandomNumberGenerator

返回环境 np_random。

property observation_space: Space

返回环境的观察空间。

render(*args: Tuple[Any], **kwargs: Dict[str, Any]) RenderFrame | List[RenderFrame] | None
property render_mode: str | None

返回环境渲染模式。

reset(**kwargs)[源代码]
概述:

重置环境的状态和重置属性。

参数:

kwargs (-) – 使用此键参数重置

返回:

重置后的新观察

返回类型:

  • observation (Any)

property reward_range: Tuple[SupportsFloat, SupportsFloat]

返回环境的奖励范围。

seed(seed=None)

初始化环境。

property spec

返回环境规范。

step(action)[源代码]
概述:

使用给定的动作来操作环境。重复动作,累加奖励,并更新 data_count,同时在整合输入 action 后更新 self.rms 属性一次。

参数:

action (-) – 给定的动作来逐步执行。

返回:

normalized observation after the input action and updated self.rms - reward (Any) : amount of reward returned after previous action - done (Bool) : whether the episode has ended, in which case further step() calls will return undefined results - info (Dict) : contains auxiliary diagnostic information (helpful for debugging, and sometimes learning)

返回类型:

  • self.observation(observation)

property unwrapped: Env

返回包装器的基环境。

class lzero.envs.wrappers.action_discretization_env_wrapper.ActionDiscretizationEnvWrapper(env: Env, cfg: EasyDict)[源代码]

基类:Wrapper

概述:

经过修改的环境,手动离散化的动作空间。对于每个维度,将原始连续动作等分为 each_dim_disc_size 个区间,并使用它们的笛卡尔积来获得手工制作的离散动作。

接口:

__init__resetstep

属性:
  • env (gym.Env): the environment to wrap.

__init__(env: Env, cfg: EasyDict) None[源代码]
概述:

初始化 self. 查看 help(type(self)) 以获取准确的签名;根据运行均值和标准差设置属性。

参数:

env (-) – 要包装的环境。

_is_protocol = False
property _np_random
property action_space: Space[ActType]

返回环境的动作空间。

classmethod class_name()

返回包装器的类名。

close()

关闭环境。

property metadata: dict

返回环境元数据。

property np_random: RandomNumberGenerator

返回环境 np_random。

property observation_space: Space

返回环境的观察空间。

render(*args: Tuple[Any], **kwargs: Dict[str, Any]) RenderFrame | List[RenderFrame] | None
property render_mode: str | None

返回环境渲染模式。

reset(**kwargs)[源代码]
概述:

重置环境的状态和重置属性。

参数:

kwargs (-) – 使用此键参数重置

返回:

重置后的新观察

返回类型:

  • observation (Any)

property reward_range: Tuple[SupportsFloat, SupportsFloat]

返回环境的奖励范围。

seed(seed=None)

初始化环境。

property spec

返回环境规范。

step(action)[源代码]
概述:

使用给定的动作来操作环境。重复动作,累加奖励,并更新 data_count,同时在整合输入 action 后更新 self.rms 属性一次。

参数:

action (-) – 给定的动作来逐步执行。

返回:

normalized observation after the input action and updated self.rms - reward (Any) : amount of reward returned after previous action - done (Bool) : whether the episode has ended, in which case further step() calls will return undefined results - info (Dict) : contains auxiliary diagnostic information (helpful for debugging, and sometimes learning)

返回类型:

  • self.observation(observation)

property unwrapped: Env

返回包装器的基环境。