連續型山地車¶

../../../_images/mountain_car_continuous.gif

此環境是經典控制環境的一部分，其中包含關於環境的通用資訊。


動作空間	`Box(-1.0, 1.0, (1,), float32)`
觀察空間	`Box([-1.2 -0.07], [0.6 0.07], (2,), float32)`
導入	`gymnasium.make("MountainCarContinuous-v0")`

描述¶

山地車 MDP 是一個確定性 MDP，它由一輛隨機放置在正弦波山谷底部的汽車組成，唯一可能的動作是可以應用於汽車的任一方向的加速度。 MDP 的目標是策略性地加速汽車以到達右側山頂的目標狀態。 gymnasium 中山地車領域有兩個版本：一個具有離散動作，另一個具有連續動作。此版本是具有連續動作的版本。

此 MDP 首次出現於 Andrew Moore 的博士論文 (1990)

@TECHREPORT{Moore90efficientmemory-based,
    author = {Andrew William Moore},
    title = {Efficient Memory-based Learning for Robot Control},
    institution = {University of Cambridge},
    year = {1990}
}

觀察空間¶

觀察是一個形狀為 (2,) 的 ndarray，其中元素對應於以下內容

編號	觀察	最小值	最大值	單位
0	汽車沿 x 軸的位置	-1.2	0.6	位置 (公尺)
1	汽車的速度	-0.07	0.07	位置 (公尺)

動作空間¶

動作是一個形狀為 (1,) 的 ndarray，表示施加在汽車上的方向力。動作被限制在 [-1,1] 範圍內，並乘以 0.0015 的冪。

轉移動力學：¶

給定一個動作，山地車遵循以下轉移動力學

velocity_t+1 = velocity_t+1 + force * self.power - 0.0025 * cos(3 * position_t)

position_t+1 = position_t + velocity_t+1

其中 force 是被限制在 [-1,1] 範圍內的動作，而 power 是一個常數 0.0015。兩端的碰撞是非彈性的，與牆壁碰撞時速度設定為 0。位置被限制在 [-1.2, 0.6] 範圍內，速度被限制在 [-0.07, 0.07] 範圍內。

獎勵¶

在每個時間步都會收到 -0.1 * action² 的負獎勵，以懲罰採取大幅度的動作。如果山地車到達目標，則會為該時間步的負獎勵增加 +100 的正獎勵。

起始狀態¶

汽車的位置被分配一個在 [-0.6 , -0.4] 範圍內的均勻隨機值。汽車的起始速度始終設定為 0。

回合結束¶

如果發生以下任一情況，回合將結束

終止：汽車的位置大於或等於 0.45（右側山頂的目標位置）
截斷：回合長度為 999。

參數¶

連續型山地車對於 gymnasium.make 有兩個參數，分別是 render_mode 和 goal_velocity。在重置時，options 參數允許使用者更改用於確定新隨機狀態的邊界。

>>> import gymnasium as gym
>>> env = gym.make("MountainCarContinuous-v0", render_mode="rgb_array", goal_velocity=0.1)  # default goal_velocity=0
>>> env
<TimeLimit<OrderEnforcing<PassiveEnvChecker<Continuous_MountainCarEnv<MountainCarContinuous-v0>>>>>
>>> env.reset(seed=123, options={"low": -0.7, "high": -0.5})  # default low=-0.6, high=-0.4
(array([-0.5635296,  0.       ], dtype=float32), {})

版本歷史¶

v0：初始版本發佈