Hopper¶

此環境是 Mujoco 環境的一部分，其中包含關於環境的一般資訊。


Action Space	`Box(-1.0, 1.0, (3,), float32)`
Observation Space	`Box(-inf, inf, (11,), float64)`
import	`gymnasium.make("Hopper-v5")`

描述¶

此環境基於 Erez、Tassa 和 Todorov 在 “非線性週期性任務的無限時域模型預測控制” 中的工作。此環境旨在增加相較於經典控制環境的獨立狀態和控制變數數量。Hopper 是一個二維單腿 figures，由四個主要身體部分組成 - 頂部的軀幹、中間的大腿、底部的腿，以及支撐整個身體的單腳。目標是透過對連接四個身體部分的三个關節施加扭矩，使跳躍動作朝向前（右）方向移動。

Action Space¶

Action space 是 Box(-1, 1, (3,), float32)。Action 代表施加在關節的扭矩。

編號	Action	控制最小值	控制最大值	名稱 (在對應的 XML 檔案中)	關節	類型 (單位)
0	施加在大腿轉子上的扭矩	-1	1	thigh_joint	hinge	扭矩 (N m)
1	施加在小腿轉子上的扭矩	-1	1	leg_joint	hinge	扭矩 (N m)
2	施加在腳部轉子上的扭矩	-1	1	foot_joint	hinge	扭矩 (N m)

Observation Space¶

Observation space 由以下部分組成 (依序)

qpos (預設 5 個元素): 機器人身體部位的位置值。
qvel (6 個元素): 這些個別身體部位的速度 (它們的導數)。

預設情況下，observation 不包含機器人的 x 座標 (rootx)。可以透過在建構期間傳遞 exclude_current_positions_from_observation=False 來包含它。在這種情況下，observation space 將會是 Box(-Inf, Inf, (12,), float64)，其中第一個 observation 元素是機器人的 x 座標。無論 exclude_current_positions_from_observation 設定為 True 或 False，x 和 y 座標都會在 info 中傳回，鍵分別為 "x_position" 和 "y_position"。

但是，預設情況下，observation space 是 Box(-Inf, Inf, (11,), float64)，其中的元素如下

編號	Observation	最小值	最大值	名稱 (在對應的 XML 檔案中)	關節	類型 (單位)
0	軀幹的 z 座標 (Hopper 的高度)	-Inf	Inf	rootz	slide	位置 (m)
1	軀幹的角度	-Inf	Inf	rooty	hinge	角度 (rad)
2	大腿關節的角度	-Inf	Inf	thigh_joint	hinge	角度 (rad)
3	小腿關節的角度	-Inf	Inf	leg_joint	hinge	角度 (rad)
4	腳部關節的角度	-Inf	Inf	foot_joint	hinge	角度 (rad)
5	軀幹 x 座標的速度	-Inf	Inf	rootx	slide	速度 (m/s)
6	軀幹 z 座標 (高度) 的速度	-Inf	Inf	rootz	slide	速度 (m/s)
7	軀幹角度的角速度	-Inf	Inf	rooty	hinge	角速度 (rad/s)
8	大腿關節的角速度	-Inf	Inf	thigh_joint	hinge	角速度 (rad/s)
9	小腿關節的角速度	-Inf	Inf	leg_joint	hinge	角速度 (rad/s)
10	腳部關節的角速度	-Inf	Inf	foot_joint	hinge	角速度 (rad/s)
排除	軀幹的 x 座標	-Inf	Inf	rootx	slide	位置 (m)

獎勵¶

總獎勵為：reward = healthy_reward + forward_reward - ctrl_cost。

healthy_reward：Hopper 每一個時間步都是健康的（請參閱「Episode End」部分中的定義），它都會獲得固定值 healthy_reward 的獎勵（預設值為 \(1\)）。
forward_reward：向前移動的獎勵，如果 Hopper 向前移動（在正 \(x\) 方向 / 向右方向），則此獎勵為正值。\(w_{forward} \times \frac{dx}{dt}\)，其中 \(dx\) 是「軀幹」的位移 (\(x_{after-action} - x_{before-action}\))，\(dt\) 是動作之間的時間，這取決於 frame_skip 參數（預設值為 \(4\)），以及 frametime，即 \(0.002\) - 因此預設值為 \(dt = 4 \times 0.002 = 0.008\)，\(w_{forward}\) 是 forward_reward_weight（預設值為 \(1\)）。
ctrl_cost：懲罰 Hopper 採取過大動作的負獎勵。\(w_{control} \times \|action\|_2^2\)，其中 \(w_{control}\) 是 ctrl_cost_weight（預設值為 \(10^{-3}\)）。

info 包含個別的獎勵項目。

起始狀態¶

初始位置狀態為 \([0, 1.25, 0, 0, 0, 0] + \mathcal{U}_{[-reset\_noise\_scale \times I_{6}, reset\_noise\_scale \times I_{6}]}\)。初始速度狀態為 \(\mathcal{U}_{[-reset\_noise\_scale \times I_{6}, reset\_noise\_scale \times I_{6}]}\)。

其中 \(\mathcal{U}\) 是多元均勻連續分佈。

請注意，z 座標是非零的，以便 Hopper 可以立即站立。

Episode End¶

終止¶

如果 terminate_when_unhealthy is True (預設值)，當 Hopper 不健康時，環境會終止。如果發生以下任何一種情況，Hopper 則為不健康

observation[1:] 的元素（如果 exclude_current_positions_from_observation=True，否則為 observation[2:]）不再包含在 healthy_state_range 參數指定的閉區間中（預設值為 \([-100, 100]\)）。
Hopper 的高度（如果 exclude_current_positions_from_observation=True，則為 observation[0]，否則為 observation[1]）不再包含在 healthy_z_range 參數指定的閉區間中（預設值為 \([0.7, +\infty]\)）（通常表示它已跌倒）。
軀幹的角度（如果 exclude_current_positions_from_observation=True，則為 observation[1]，否則為 observation[2]）不再包含在 healthy_angle_range 參數指定的閉區間中（預設值為 \([-0.2, 0.2]\)）。

截斷¶

Episode 的預設持續時間為 1000 個時間步。

參數¶

Hopper 提供了各種參數來修改 observation space、獎勵函數、初始狀態和終止條件。這些參數可以在 gymnasium.make 期間以以下方式應用

import gymnasium as gym
env = gym.make('Hopper-v5', ctrl_cost_weight=1e-3, ....)

參數	類型	預設值	描述
`xml_file`	str	`"hopper.xml"`	MuJoCo 模型的路徑
`forward_reward_weight`	float	`1`	forward_reward 項的權重 (請參閱 `Rewards` 章節)
`ctrl_cost_weight`	float	`1e-3`	ctrl_cost 獎勵的權重 (請參閱 `Rewards` 章節)
`healthy_reward`	float	`1`	healthy_reward 獎勵的權重 (請參閱 `Rewards` 章節)
`terminate_when_unhealthy`	bool	`True`	如果 `True`，則在不健康時發出 `terminated` 信號 (請參閱 `Episode End` 章節)
`healthy_state_range`	tuple	`(-100, 100)`	`observation[1:]` 的元素（如果 `exclude_current_positions_from_observation=True`，否則為 `observation[2:]`）必須在此範圍內，Hopper 才被視為健康 (請參閱 `Episode End` 章節)
`healthy_z_range`	tuple	`(0.7, float("inf"))`	z 座標必須在此範圍內，Hopper 才被視為健康 (請參閱 `Episode End` 章節)
`healthy_angle_range`	tuple	`(-0.2, 0.2)`	`observation[1]` 給定的角度（如果 `exclude_current_positions_from_observation=True`，否則為 `observation[2]`）必須在此範圍內，Hopper 才被視為健康 (請參閱 `Episode End` 章節)
`reset_noise_scale`	float	`5e-3`	初始位置和速度的隨機擾動的比例 (請參閱 `Starting State` 章節)
`exclude_current_positions_from_observation`	bool	`True`	是否從 observation 中省略 x 座標。排除位置可以作為歸納偏置，以誘導策略中與位置無關的行為 (請參閱 `Observation Space` 章節)

版本歷史¶

v5
- 最低 mujoco 版本現在為 2.3.3。
- 新增了對完全自訂/第三方 mujoco 模型的支援，使用 xml_file 參數（先前只能對現有模型進行少量更改）。
- 新增了 default_camera_config 參數，這是一個用於設定 mj_camera 屬性的字典，主要用於自訂環境。
- 新增了 env.observation_structure，這是一個用於指定 observation space 組成的字典（例如 qpos、qvel），對於為 MuJoCo 環境建立工具和 wrappers 非常有用。
- 使用 reset() 回傳非空的 info，先前回傳的是空字典，新的鍵與 step() 的狀態資訊相同。
- 新增了 frame_skip 參數，用於設定 dt（step() 的持續時間），預設值因環境而異，請查看環境文件頁面。
- 修正錯誤：healthy_reward 在每個步驟都會給予（即使 Hopper 不健康），現在僅在 Hopper 健康時給予。info["reward_survive"] 會隨著此變更而更新（相關 GitHub issue）。
- 恢復了 xml_file 參數（在 v4 中已移除）。
- 在 info 中新增了個別獎勵項目（info["reward_forward"]、info["reward_ctrl"]、info["reward_survive"]）。
- 新增了 info["z_distance_from_origin"]，它等於「軀幹」身體與其初始位置的垂直距離。
v4：所有 MuJoCo 環境現在都使用 mujoco >= 2.1.3 中的 MuJoCo bindings。
v3：支援 gymnasium.make kwargs，例如 xml_file、ctrl_cost_weight、reset_noise_scale 等。rgb 渲染來自追蹤相機（因此 agent 不會從螢幕中跑掉）
v2：所有連續控制環境現在都使用 mujoco-py >= 1.50。
v1：機器人基礎任務的最大時間步數提高到 1000。為環境新增了 reward_threshold。
v0：初始版本發布。