連續型山地車¶

此環境是經典控制環境的一部分,其中包含關於環境的通用資訊。
動作空間 |
|
觀察空間 |
|
導入 |
|
描述¶
山地車 MDP 是一個確定性 MDP,它由一輛隨機放置在正弦波山谷底部的汽車組成,唯一可能的動作是可以應用於汽車的任一方向的加速度。 MDP 的目標是策略性地加速汽車以到達右側山頂的目標狀態。 gymnasium 中山地車領域有兩個版本:一個具有離散動作,另一個具有連續動作。 此版本是具有連續動作的版本。
此 MDP 首次出現於 Andrew Moore 的博士論文 (1990)
@TECHREPORT{Moore90efficientmemory-based,
author = {Andrew William Moore},
title = {Efficient Memory-based Learning for Robot Control},
institution = {University of Cambridge},
year = {1990}
}
觀察空間¶
觀察是一個形狀為 (2,)
的 ndarray
,其中元素對應於以下內容
編號 |
觀察 |
最小值 |
最大值 |
單位 |
---|---|---|---|---|
0 |
汽車沿 x 軸的位置 |
-1.2 |
0.6 |
位置 (公尺) |
1 |
汽車的速度 |
-0.07 |
0.07 |
位置 (公尺) |
動作空間¶
動作是一個形狀為 (1,)
的 ndarray
,表示施加在汽車上的方向力。 動作被限制在 [-1,1]
範圍內,並乘以 0.0015 的冪。
轉移動力學:¶
給定一個動作,山地車遵循以下轉移動力學
velocityt+1 = velocityt+1 + force * self.power - 0.0025 * cos(3 * positiont)
positiont+1 = positiont + velocityt+1
其中 force 是被限制在 [-1,1]
範圍內的動作,而 power 是一個常數 0.0015。 兩端的碰撞是非彈性的,與牆壁碰撞時速度設定為 0。 位置被限制在 [-1.2, 0.6] 範圍內,速度被限制在 [-0.07, 0.07] 範圍內。
獎勵¶
在每個時間步都會收到 -0.1 * action2 的負獎勵,以懲罰採取大幅度的動作。 如果山地車到達目標,則會為該時間步的負獎勵增加 +100 的正獎勵。
起始狀態¶
汽車的位置被分配一個在 [-0.6 , -0.4]
範圍內的均勻隨機值。 汽車的起始速度始終設定為 0。
回合結束¶
如果發生以下任一情況,回合將結束
終止:汽車的位置大於或等於 0.45(右側山頂的目標位置)
截斷:回合長度為 999。
參數¶
連續型山地車對於 gymnasium.make
有兩個參數,分別是 render_mode
和 goal_velocity
。 在重置時,options
參數允許使用者更改用於確定新隨機狀態的邊界。
>>> import gymnasium as gym
>>> env = gym.make("MountainCarContinuous-v0", render_mode="rgb_array", goal_velocity=0.1) # default goal_velocity=0
>>> env
<TimeLimit<OrderEnforcing<PassiveEnvChecker<Continuous_MountainCarEnv<MountainCarContinuous-v0>>>>>
>>> env.reset(seed=123, options={"low": -0.7, "high": -0.5}) # default low=-0.6, high=-0.4
(array([-0.5635296, 0. ], dtype=float32), {})
版本歷史¶
v0:初始版本發佈