Humanoid¶

此環境是 Mujoco 環境的一部分，其中包含有關環境的一般資訊。


Action Space	`Box(-0.4, 0.4, (17,), float32)`
Observation Space	`Box(-inf, inf, (348,), float64)`
import	`gymnasium.make("Humanoid-v5")`

Description¶

此環境基於 Tassa、Erez 和 Todorov 在「透過線上軌跡最佳化合成和穩定複雜行為」中介紹的環境。 3D 雙足機器人旨在模擬人類。它有一個軀幹（腹部），帶有一對腿和手臂，以及一對連接臀部和膝蓋的肌腱。腿部各由三個身體部位（大腿、小腿、腳）組成，手臂由兩個身體部位（上臂、前臂）組成。環境的目標是以盡可能快的速度向前行走而不會摔倒。

Action Space¶

動作空間為 Box(-0.4, 0.4, (17,), float32)。動作表示在鉸鏈關節處施加的扭矩。

Num	Action	Control Min	Control Max	Name (在相應的 XML 檔案中)	Joint	Type (Unit)
0	在腹部的 y 坐標中，施加在鉸鏈上的扭矩	-0.4	0.4	abdomen_y	hinge	torque (N m)
1	在腹部的 z 坐標中，施加在鉸鏈上的扭矩	-0.4	0.4	abdomen_z	hinge	torque (N m)
2	在腹部的 x 坐標中，施加在鉸鏈上的扭矩	-0.4	0.4	abdomen_x	hinge	torque (N m)
3	在軀幹/腹部和右髖部（x 坐標）之間的轉子上施加的扭矩	-0.4	0.4	right_hip_x (right_thigh)	hinge	torque (N m)
4	在軀幹/腹部和右髖部（z 坐標）之間的轉子上施加的扭矩	-0.4	0.4	right_hip_z (right_thigh)	hinge	torque (N m)
5	在軀幹/腹部和右髖部（y 坐標）之間的轉子上施加的扭矩	-0.4	0.4	right_hip_y (right_thigh)	hinge	torque (N m)
6	在右髖部/大腿和右小腿之間的轉子上施加的扭矩	-0.4	0.4	right_knee	hinge	torque (N m)
7	在軀幹/腹部和左髖部（x 坐標）之間的轉子上施加的扭矩	-0.4	0.4	left_hip_x (left_thigh)	hinge	torque (N m)
8	在軀幹/腹部和左髖部（z 坐標）之間的轉子上施加的扭矩	-0.4	0.4	left_hip_z (left_thigh)	hinge	torque (N m)
9	在軀幹/腹部和左髖部（y 坐標）之間的轉子上施加的扭矩	-0.4	0.4	left_hip_y (left_thigh)	hinge	torque (N m)
10	在左髖部/大腿和左小腿之間的轉子上施加的扭矩	-0.4	0.4	left_knee	hinge	torque (N m)
11	在軀幹和右上臂（坐標 -1）之間的轉子上施加的扭矩	-0.4	0.4	right_shoulder1	hinge	torque (N m)
12	在軀幹和右上臂（坐標 -2）之間的轉子上施加的扭矩	-0.4	0.4	right_shoulder2	hinge	torque (N m)
13	在右上臂和右下臂之間的轉子上施加的扭矩	-0.4	0.4	right_elbow	hinge	torque (N m)
14	在軀幹和左上臂（坐標 -1）之間的轉子上施加的扭矩	-0.4	0.4	left_shoulder1	hinge	torque (N m)
15	在軀幹和左上臂（坐標 -2）之間的轉子上施加的扭矩	-0.4	0.4	left_shoulder2	hinge	torque (N m)
16	在左上臂和左下臂之間的轉子上施加的扭矩	-0.4	0.4	left_elbow	hinge	torque (N m)

Observation Space¶

觀察空間由以下部分組成（依序）

qpos (預設為 22 個元素)： 機器人身體部位的位置值。
qvel (23 個元素)： 這些個別身體部位的速度（它們的導數）。
cinert (130 個元素)： 剛性身體部位相對於質心的質量和慣性（這是過渡的中間結果）。它的形狀為 13*10 (nbody * 10)。 (cinert - 慣性矩陣和身體質量偏移量以及身體質量)
cvel (78 個元素)： 基於質心的速度。它的形狀為 13 * 6 (nbody * 6)。 (com 速度 - 速度 x、y、z 和角速度 x、y、z)
qfrc_actuator (17 個元素)： 在每個關節處作為致動器力產生的約束力。此形狀為 (17,) (nv * 1)。
cfrc_ext (78 個元素)： 這是基於質心的身體部位外部力。它的形狀為 13 * 6 (nbody * 6)，因此為觀察空間增加了另外 78 個元素。 (外力 - 力 x、y、z 和扭矩 x、y、z)

其中 nbody 是機器人中的身體數量，而 nv 是自由度數量 (= dim(qvel))。

依預設，觀察不包括軀幹的 x 和 y 坐標。這些可以透過在建構期間傳遞 exclude_current_positions_from_observation=False 來包含在內。在這種情況下，觀察空間將是 Box(-Inf, Inf, (350,), float64)，其中前兩個觀察是軀幹的 x 和 y 坐標。無論 exclude_current_positions_from_observation 設定為 True 還是 False，x 和 y 坐標都會在 info 中傳回，索引鍵分別為 "x_position" 和 "y_position"。

但是，依預設，觀察空間是 Box(-Inf, Inf, (348,), float64)，其中位置和速度元素如下

Num	Observation	Min	Max	Name (在相應的 XML 檔案中)	Joint	Type (Unit)
0	軀幹的 z 坐標（中心）	-Inf	Inf	root	free	位置 (m)
1	軀幹的 w 方向（中心）	-Inf	Inf	root	free	角度 (rad)
2	軀幹的 x 方向（中心）	-Inf	Inf	root	free	角度 (rad)
3	軀幹的 y 方向（中心）	-Inf	Inf	root	free	角度 (rad)
4	軀幹的 z 方向（中心）	-Inf	Inf	root	free	角度 (rad)
5	腹部的 z 角度（在 lower_waist 中）	-Inf	Inf	abdomen_z	hinge	角度 (rad)
6	腹部的 y 角度（在 lower_waist 中）	-Inf	Inf	abdomen_y	hinge	角度 (rad)
7	腹部的 x 角度（在 pelvis 中）	-Inf	Inf	abdomen_x	hinge	角度 (rad)
8	骨盆和右髖部之間角度的 x 坐標（在 right_thigh 中）	-Inf	Inf	right_hip_x	hinge	角度 (rad)
9	骨盆和右髖部之間角度的 z 坐標（在 right_thigh 中）	-Inf	Inf	right_hip_z	hinge	角度 (rad)
10	骨盆和右髖部之間角度的 y 坐標（在 right_thigh 中）	-Inf	Inf	right_hip_y	hinge	角度 (rad)
11	右髖部和右小腿之間的角度（在 right_knee 中）	-Inf	Inf	right_knee	hinge	角度 (rad)
12	骨盆和左髖部之間角度的 x 坐標（在 left_thigh 中）	-Inf	Inf	left_hip_x	hinge	角度 (rad)
13	骨盆和左髖部之間角度的 z 坐標（在 left_thigh 中）	-Inf	Inf	left_hip_z	hinge	角度 (rad)
14	骨盆和左髖部之間角度的 y 坐標（在 left_thigh 中）	-Inf	Inf	left_hip_y	hinge	角度 (rad)
15	左髖部和左小腿之間的角度（在 left_knee 中）	-Inf	Inf	left_knee	hinge	角度 (rad)
16	軀幹和右臂之間（在 right_upper_arm 中）的坐標 -1（多軸）角度	-Inf	Inf	right_shoulder1	hinge	角度 (rad)
17	軀幹和右臂之間（在 right_upper_arm 中）的坐標 -2（多軸）角度	-Inf	Inf	right_shoulder2	hinge	角度 (rad)
18	右上臂和右下臂之間的角度	-Inf	Inf	right_elbow	hinge	角度 (rad)
19	軀幹和左臂之間（在 left_upper_arm 中）的坐標 -1（多軸）角度	-Inf	Inf	left_shoulder1	hinge	角度 (rad)
20	軀幹和左臂之間（在 left_upper_arm 中）的坐標 -2（多軸）角度	-Inf	Inf	left_shoulder2	hinge	角度 (rad)
21	左上臂和左下臂之間的角度	-Inf	Inf	left_elbow	hinge	角度 (rad)
22	軀幹的 x 坐標速度（中心）	-Inf	Inf	root	free	速度 (m/s)
23	軀幹的 y 坐標速度（中心）	-Inf	Inf	root	free	速度 (m/s)
24	軀幹的 z 坐標速度（中心）	-Inf	Inf	root	free	速度 (m/s)
25	軀幹的 x 坐標角速度（中心）	-Inf	Inf	root	free	角速度 (rad/s)
26	軀幹的 y 坐標角速度（中心）	-Inf	Inf	root	free	角速度 (rad/s)
27	軀幹的 z 坐標角速度（中心）	-Inf	Inf	root	free	角速度 (rad/s)
28	腹部的 z 坐標角速度（在 lower_waist 中）	-Inf	Inf	abdomen_z	hinge	角速度 (rad/s)
29	腹部的 y 坐標角速度（在 lower_waist 中）	-Inf	Inf	abdomen_y	hinge	角速度 (rad/s)
30	腹部的 x 坐標角速度（在 pelvis 中）	-Inf	Inf	abdomen_x	hinge	角速度 (rad/s)
31	骨盆和右髖部之間角度的角速度的 x 坐標（在 right_thigh 中）	-Inf	Inf	right_hip_x	hinge	角速度 (rad/s)
32	骨盆和右髖部之間角度的角速度的 z 坐標（在 right_thigh 中）	-Inf	Inf	right_hip_z	hinge	角速度 (rad/s)
33	骨盆和右髖部之間角度的角速度的 y 坐標（在 right_thigh 中）	-Inf	Inf	right_hip_y	hinge	角速度 (rad/s)
34	右髖部和右小腿之間角度的角速度（在 right_knee 中）	-Inf	Inf	right_knee	hinge	角速度 (rad/s)
35	骨盆和左髖部之間角度的角速度的 x 坐標（在 left_thigh 中）	-Inf	Inf	left_hip_x	hinge	角速度 (rad/s)
36	骨盆和左髖部之間角度的角速度的 z 坐標（在 left_thigh 中）	-Inf	Inf	left_hip_z	hinge	角速度 (rad/s)
37	骨盆和左髖部之間角度的角速度的 y 坐標（在 left_thigh 中）	-Inf	Inf	left_hip_y	hinge	角速度 (rad/s)
38	左髖部和左小腿之間角度的角速度（在 left_knee 中）	-Inf	Inf	left_knee	hinge	角速度 (rad/s)
39	軀幹和右臂之間角度的角速度的坐標 -1（多軸）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder1	hinge	角速度 (rad/s)
40	軀幹和右臂之間角度的角速度的坐標 -2（多軸）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder2	hinge	角速度 (rad/s)
41	右上臂和右下臂之間角度的角速度	-Inf	Inf	right_elbow	hinge	角速度 (rad/s)
42	軀幹和左臂之間角度的角速度的坐標 -1（多軸）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder1	hinge	角速度 (rad/s)
43	軀幹和左臂之間角度的角速度的坐標 -2（多軸）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder2	hinge	角速度 (rad/s)
44	左上臂和左下臂之間角度的角速度	-Inf	Inf	left_elbow	hinge	角速度 (rad/s)
excluded	軀幹的 x 坐標（中心）	-Inf	Inf	root	free	位置 (m)
excluded	軀幹的 y 坐標（中心）	-Inf	Inf	root	free	位置 (m)

身體部位為

身體部位	id (適用於 `v2`、`v3`、`v4)`	id (適用於 `v5`)
worldbody (注意：所有值皆為常數 0)	0	excluded
torso	1	0
lwaist	2	1
pelvis	3	2
right_thigh	4	3
right_sin	5	4
right_foot	6	5
left_thigh	7	6
left_sin	8	7
left_foot	9	8
right_upper_arm	10	9
right_lower_arm	11	10
left_upper_arm	12	11
left_lower_arm	13	12

關節為

joint	id (適用於 `v2`、`v3`、`v4)`	id (適用於 `v5`)
root (注意：所有值皆為常數 0)	0	excluded
root (注意：所有值皆為常數 0)	1	excluded
root (注意：所有值皆為常數 0)	2	excluded
root (注意：所有值皆為常數 0)	3	excluded
root (注意：所有值皆為常數 0)	4	excluded
root (注意：所有值皆為常數 0)	5	excluded
abdomen_z	6	0
abdomen_y	7	1
abdomen_x	8	2
right_hip_x	9	3
right_hip_z	10	4
right_hip_y	11	5
right_knee	12	6
left_hip_x	13	7
left_hiz_z	14	8
left_hip_y	15	9
left_knee	16	10
right_shoulder1	17	11
right_shoulder2	18	12
right_elbow	19	13
left_shoulder1	20	14
left_shoulder2	21	15
left_elfbow	22	16

(x,y,z) 坐標是平移自由度，而方向是表示為四元數的旋轉自由度。您可以在MuJoCo 文件中閱讀更多關於自由關節的資訊。

注意： 當使用 Humanoid-v3 或更早版本時，已報告當使用 mujoco-py 版本 > 2.0 時會發生問題，導致接觸力始終為 0。因此，建議使用 mujoco-py 版本 < 2.0，當您想要報告具有接觸力的結果時（如果在您的實驗中未使用接觸力，則可以使用版本 > 2.0）。

Rewards¶

總獎勵為：reward = healthy_reward + forward_reward - ctrl_cost - contact_cost。

healthy_reward：在 Humanoid 存活的每個時間步長（請參閱「Episode End」章節中的定義），它都會獲得固定值 healthy_reward 的獎勵（預設為 \(5\)）。
forward_reward：向前移動的獎勵，如果 Humanoid 向前移動（在正 \(x\) 方向/向右方向），則此獎勵為正數。 \(w_{forward} \times \frac{dx}{dt}\)，其中 \(dx\) 是質心的位移 (\(x_{after-action} - x_{before-action}\))，\(dt\) 是動作之間的時間，這取決於 frame_skip 參數（預設為 \(5\)），以及 frametime，即 \(0.001\) - 因此預設值為 \(dt = 5 \times 0.003 = 0.015\)，\(w_{forward}\) 是 forward_reward_weight（預設為 \(1.25\)）。
ctrl_cost：懲罰 Humanoid 採取過大動作的負獎勵。 \(w_{control} \times \|action\|_2^2\)，其中 \(w_{control}\) 是 ctrl_cost_weight（預設為 \(0.1\)）。
contact_cost：如果外部接觸力過大，則懲罰 Humanoid 的負獎勵。 \(w_{contact} \times clamp(contact\_cost\_range, \|F_{contact}\|_2^2)\)，其中 \(w_{contact}\) 是 contact_cost_weight（預設為 \(5\times10^{-7}\)），\(F_{contact}\) 是外部接觸力（請參閱觀察中的 cfrc_ext 章節）。

info 包含個別獎勵條款。

注意： Humanoid-v4 環境中存在一個錯誤，導致 contact_cost 始終為 0。

Starting State¶

初始位置狀態為 \([0.0, 0.0, 1.4, 1.0, 0.0, ... 0.0] + \mathcal{U}_{[-reset\_noise\_scale \times I_{24}, reset\_noise\_scale \times I_{24}]}\)。初始速度狀態為 \(\mathcal{U}_{[-reset\_noise\_scale \times I_{23}, reset\_noise\_scale \times I_{23}]}\)。

其中 \(\mathcal{U}\) 是多元均勻連續分佈。

請注意，z 和 x 坐標是非零的，因此 humanoid 可以立即站起來並面向前方（x 軸）。

Episode End¶

Termination¶

如果 terminate_when_unhealthy is True（預設值），則當 Humanoid 不健康時，環境會終止。如果發生以下任何一種情況，則稱 Humanoid 為不健康

軀幹的 z 坐標（高度）不在 healthy_z_range 參數給定的閉區間內（預設值為 \([1.0, 2.0]\)）。

Truncation¶

劇集的預設持續時間為 1000 個時間步長。

Arguments¶

Humanoid 提供一系列參數來修改觀察空間、獎勵函數、初始狀態和終止條件。這些參數可以在 gymnasium.make 中以以下方式應用

import gymnasium as gym
env = gym.make('Humanoid-v5', ctrl_cost_weight=0.1, ....)

Parameter	Type	Default	Description
`xml_file`	str	`"humanoid.xml"`	MuJoCo 模型的路徑
`forward_reward_weight`	float	`1.25`	forward_reward 項的權重（請參閱 `Rewards` 章節）
`ctrl_cost_weight`	float	`0.1`	ctrl_cost 項的權重（請參閱 `Rewards` 章節）
`contact_cost_weight`	float	`5e-7`	contact_cost 項的權重（請參閱 `Rewards` 章節）
`contact_cost_range`	float	`(-np.inf, 10.0)`	Clamp contact_cost 項（請參閱 `Rewards` 章節）
`healthy_reward`	float	`5.0`	healthy_reward 項的權重（請參閱 `Rewards` 章節）
`terminate_when_unhealthy`	bool	`True`	如果 `True`，則在不健康時發出 `terminated` 訊號（請參閱 `Episode End` 章節）
`healthy_z_range`	tuple	`(1.0, 2.0)`	如果軀幹的 z 坐標在此範圍內，則 humanoid 被視為健康（請參閱 `Episode End` 章節）
`reset_noise_scale`	float	`1e-2`	初始位置和速度的隨機擾動比例（請參閱 `Starting State` 章節）
`exclude_current_positions_from_observation`	bool	`True`	是否從觀察中省略 x 和 y 坐標。排除位置可以作為歸納偏差，以在策略中誘導位置不可知的行為（請參閱 `Observation State` 章節）
`include_cinert_in_observation`	bool	`True`	是否在觀察中包含 cinert 元素（請參閱 `Observation State` 章節）
`include_cvel_in_observation`	bool	`True`	是否在觀察中包含 cvel 元素（請參閱 `Observation State` 章節）
`include_qfrc_actuator_in_observation`	bool	`True`	是否在觀察中包含 qfrc_actuator 元素（請參閱 `Observation State` 章節）
`include_cfrc_ext_in_observation`	bool	`True`	是否在觀察中包含 cfrc_ext 元素（請參閱 `Observation State` 章節）

Version History¶

v5
- 最低 mujoco 版本現在為 2.3.3。
- 新增支援使用 xml_file 參數完全自訂/第三方 mujoco 模型（先前只能對現有模型進行少量變更）。
- 新增 default_camera_config 參數，這是一個用於設定 mj_camera 屬性的字典，主要用於自訂環境。
- 新增 env.observation_structure，這是一個用於指定觀察空間組成的字典（例如 qpos、qvel），適用於為 MuJoCo 環境建構工具和 wrappers。
- 傳回非空的 info 和 reset()，先前傳回的是空字典，新索引鍵與 step() 的狀態資訊相同。
- 新增 frame_skip 參數，用於設定 dt（step() 的持續時間），預設值因環境而異，請查看環境文件頁面。
- 修正錯誤：healthy_reward 在每個步驟都會給予（即使 Humanoid 不健康），現在僅在 Humanoid 健康時給予。 info["reward_survive"] 會隨著此變更而更新（相關的 GitHub issue）。
- 恢復 contact_cost 以及相應的 contact_cost_weight 和 contact_cost_range 參數，其預設值與 Humanoid-v3 中的相同（在 v4 中已移除）（相關的 GitHub issue）。
- 從觀察空間中排除 worldbody 和 root/freejoint qfrc_actuator 的 cinert & cvel & cfrc_ext，因為它始終為 0，因此沒有為智能體提供有用的資訊，從而稍微加快了訓練速度（相關的 GitHub issue）。
- 恢復 xml_file 參數（在 v4 中已移除）。
- 新增 include_cinert_in_observation、include_cvel_in_observation、include_qfrc_actuator_in_observation、include_cfrc_ext_in_observation 參數，以允許從觀察空間中排除觀察元素。
- 修正 info["x_position"] & info["y_position"] & info["distance_from_origin"] 傳回 xpos 而不是基於 qpos 的觀察（xpos 觀察比 mj_step() 落後 1 個 here）（相關的 GitHub issue #1 & GitHub issue #2）。
- 新增 info["tendon_length"] 和 info["tendon_velocity"]，其中包含 Humanoid 的 2 條肌腱（連接臀部和膝蓋）的觀察。
- 將 info["reward_alive"] 重新命名為 info["reward_survive"]，以與其他環境保持一致。
- 將 info["reward_linvel"] 重新命名為 info["reward_forward"]，以與其他環境保持一致。
- 將 info["reward_quadctrl"] 重新命名為 info["reward_ctrl"]，以與其他環境保持一致。
- 移除 info["forward_reward"]，因為它等同於 info["reward_forward"]。
v4：所有 MuJoCo 環境現在都使用 mujoco >= 2.1.3 中的 MuJoCo 綁定
v3：支援 gymnasium.make kwargs，例如 xml_file、ctrl_cost_weight、reset_noise_scale 等。 rgb 渲染來自追蹤相機（因此智能體不會從螢幕上跑掉）
- 注意：環境機器人模型在 gym==0.21.0 時略有變更，並且訓練結果與 gym<0.21 和 gym>=0.21 不具可比性（相關的 GitHub PR）
v2：所有連續控制環境現在都使用 mujoco-py >= 1.50
- 注意：環境機器人模型在 gym==0.21.0 時略有變更，並且訓練結果與 gym<0.21 和 gym>=0.21 不具可比性（相關的 GitHub PR）
v1：機器人基礎任務的最大時間步長增加到 1000。為環境新增了 reward_threshold。
v0：初始版本發佈