功能性環境

class gymnasium.experimental.functional.FuncEnv(options: dict[str, Any] | None = None)[source]

功能性環境的基礎類別(模板)。

此 API 旨在以無狀態方式使用,環境狀態會顯式地傳遞。話雖如此,這裡沒有任何東西阻止使用者以有狀態方式使用環境,只是不建議這樣做。功能性環境包含以下函數(在本例中為實例方法)

  • initial:返回 POMDP 的初始狀態

  • observation:返回給定狀態下的觀察

  • transition:返回在給定狀態下採取動作後的下一個狀態

  • reward:返回給定 (state, action, next_state) 元組的獎勵

  • terminal:返回給定狀態是否為終端狀態

  • state_info:可選,返回關於給定狀態的資訊字典

  • step_info:可選,返回關於給定 (state, action, next_state) 元組的資訊字典

基於類別的結構旨在允許在類別中定義環境常數,然後在程式碼本身中按名稱使用它們。

目前,這主要供內部使用。此 API 可能會更改,但在未來我們打算充實它並正式向終端使用者公開。

初始化環境常數。

transform(func: Callable[[Callable], Callable])[source]

功能性轉換。

initial(rng: Any, params: Params | None = None) StateType[source]

使用隨機數生成器生成環境的初始狀態。

transition(state: StateType, action: ActType, rng: Any, params: Params | None = None) StateType[source]

使用動作和隨機數生成器更新(轉換)狀態。

observation(state: StateType, rng: Any, params: Params | None = None) ObsType[source]

為給定環境狀態生成觀察。

reward(state: StateType, action: ActType, next_state: StateType, rng: Any, params: Params | None = None) RewardType[source]

計算給定 `state`、`action` 到 `next_state` 之間轉換的獎勵。

terminal(state: StateType, rng: Any, params: Params | None = None) TerminalType[source]

返回狀態是否為最終終端狀態。

state_info(state: StateType, params: Params | None = None) dict[source]

關於單一狀態的資訊字典。

transition_info(state: StateType, action: ActType, next_state: StateType, params: Params | None = None) dict[source]

關於完整轉換的資訊字典。

render_init(params: Params | None = None, **kwargs) RenderStateType[source]

初始化渲染狀態。

render_image(state: StateType, render_state: RenderStateType, params: Params | None = None) tuple[RenderStateType, np.ndarray][source]

顯示狀態。

render_close(render_state: RenderStateType, params: Params | None = None)[source]

關閉渲染狀態。

將基於 Jax 的功能性環境轉換為標準環境

class gymnasium.envs.functional_jax_env.FunctionalJaxEnv(func_env: FuncEnv, metadata: dict[str, Any] | None = None, render_mode: str | None = None, spec: EnvSpec | None = None)[source]

jax 基礎環境的轉換層。

從 FuncEnv 初始化環境。

reset(*, seed: int | None = None, options: dict | None = None)[source]

使用種子重置環境。

step(action: ActType)[source]

使用動作逐步執行環境。

render()[source]

如果 `render_mode` 為 “rgb_array”,則返回渲染狀態。