功能性環境¶
- class gymnasium.experimental.functional.FuncEnv(options: dict[str, Any] | None = None)[source]¶
功能性環境的基礎類別(模板)。
此 API 旨在以無狀態方式使用,環境狀態會顯式地傳遞。話雖如此,這裡沒有任何東西阻止使用者以有狀態方式使用環境,只是不建議這樣做。功能性環境包含以下函數(在本例中為實例方法)
initial:返回 POMDP 的初始狀態
observation:返回給定狀態下的觀察
transition:返回在給定狀態下採取動作後的下一個狀態
reward:返回給定 (state, action, next_state) 元組的獎勵
terminal:返回給定狀態是否為終端狀態
state_info:可選,返回關於給定狀態的資訊字典
step_info:可選,返回關於給定 (state, action, next_state) 元組的資訊字典
基於類別的結構旨在允許在類別中定義環境常數,然後在程式碼本身中按名稱使用它們。
目前,這主要供內部使用。此 API 可能會更改,但在未來我們打算充實它並正式向終端使用者公開。
初始化環境常數。
- transition(state: StateType, action: ActType, rng: Any, params: Params | None = None) StateType [source]¶
使用動作和隨機數生成器更新(轉換)狀態。
- observation(state: StateType, rng: Any, params: Params | None = None) ObsType [source]¶
為給定環境狀態生成觀察。
- reward(state: StateType, action: ActType, next_state: StateType, rng: Any, params: Params | None = None) RewardType [source]¶
計算給定 `state`、`action` 到 `next_state` 之間轉換的獎勵。
- terminal(state: StateType, rng: Any, params: Params | None = None) TerminalType [source]¶
返回狀態是否為最終終端狀態。
- transition_info(state: StateType, action: ActType, next_state: StateType, params: Params | None = None) dict [source]¶
關於完整轉換的資訊字典。