外部環境¶
第一方環境¶
Farama 基金會維護了許多其他專案,這些專案使用 Gymnasium API,環境包括:網格世界 (Minigrid)、機器人學 (Gymnasium-Robotics)、3D 導航 (Miniworld)、網頁互動 (MiniWoB++)、街機遊戲 (Arcade Learning Environment)、Doom (ViZDoom)、元目標機器人學 (Metaworld)、自動駕駛 (HighwayEnv)、復古遊戲 (stable-retro) 以及更多。
Farama 基金會還維護了 RL 的其他 API,包括:多智能體 RL (PettingZoo)、離線 RL (Minari)、多目標 RL (MO-Gymnasium)、目標 RL (Gymnasium-Robotics)。
使用 Gymnasium 的第三方環境¶
此頁面包含非 Farama 基金會維護的環境,因此無法保證其功能符合預期。
如果您想貢獻環境,請在 Discord 上聯繫,然後編輯此檔案提交 PR,更多說明可以在該檔案內找到
自動駕駛環境¶
自動駕駛車輛和交通管理。
-
用於空中交通管理任務的 Gymnasium 環境集合,允許民用和都市航空應用。建立於開源空中交通模擬器 BlueSky 之上。
gym-electric-motor:用於電動馬達模擬的 Gym 環境
用於模擬各種電動驅動器的環境,考量了不同類型的電動馬達和轉換器。
racecar_gym:使用 PyBullet 的迷你賽車環境
使用 PyBullet 物理引擎的迷你賽車 Gym 環境。
-
SUMO 交通模擬器中各種環境的 Gymnasium 封裝器。支援單智能體和多智能體設定 (使用 pettingzoo)。
生物 / 醫療環境¶
與生物系統互動。
-
ICU-Sepsis 是一個表格型強化學習環境,模擬加護病房 (ICU) 中敗血症的治療。在論文 ICU-Sepsis: A Benchmark MDP Built from Real Medical Data 中介紹,該環境輕量且易於使用,但對大多數強化學習演算法來說仍具挑戰性。
經濟 / 金融環境¶
所有與經濟相關的事物。
-
AnyTrading 是一個 Gym 環境的集合,用於基於強化學習的交易演算法,非常注重簡潔性、靈活性和全面性。
gym-mtsim:MetaTrader 5 平台的金融交易
MtSim 是 MetaTrader 5 交易平台的模擬器,用於基於強化學習的交易演算法。
-
Gym Trading Env 從歷史數據模擬股票 (或加密貨幣) 市場。它旨在快速且易於自訂。
電力 / 能源環境¶
管理電子的流動。
EV2Gym:用於電動車智慧充電的真實 EV-V2G-Gym 模擬器
EV2Gym 是一個完全可自訂且易於配置的環境,用於小型和大型規模的電動車 (EV) 智慧充電模擬。此外,還包括非 RL 基準實作,例如數學規劃、模型預測控制和啟發式方法。
遊戲環境¶
桌遊、電玩遊戲和所有其他互動式娛樂媒介。
-
Craftium 將 Minetest 遊戲引擎封裝到 Gymnasium API 中,提供一個現代且易於使用的平台,用於設計類似 Minecraft 的 RL 環境。
-
Flappy Bird 作為 Farama Gymnasium 環境。
flappy-bird-gymnasium:用於 Gymnasium 的 Flappy Bird 環境
一個簡單的環境,用於在 Flappy Bird (極受歡迎的街機風格手機遊戲) 的克隆版本上進行單智能體強化學習演算法。狀態和像素觀察環境均可用。
Generals.io 機器人:為 generals.io 開發您的智能體!
Generals.io 是一款快節奏的 2D 網格策略遊戲。我們透過 Gymnasium/PettingZoo API 使機器人開發變得容易上手。
pystk2-gymnasium:SuperTuxKart 賽車 gymnasium 封裝器
使用 python 封裝器 包裝 SuperTuxKart,允許存取世界狀態並控制比賽。
QWOP:Bennet Foddy 的遊戲 QWOP 的環境
QWOP 是一款關於在 100 公尺跑道上極速奔跑的遊戲。透過此 Gymnasium 環境,您可以訓練自己的智能體,並嘗試打破目前的世界紀錄 (人類為 5.0 秒,AI 為 4.7 秒)。
Tetris Gymnasium:完全可配置的 Gymnasium 相容 Tetris 環境
Tetris Gymnasium 是 Tetris 作為 Gymnasium 環境的清晰實作。它可以廣泛自訂 (例如,板尺寸、重力等),文件完善,並包含許多關於如何使用它的範例,例如提供訓練腳本。
-
tmrl 是一個分散式框架,用於在即時應用程式中訓練深度強化學習 AI。它在 TrackMania 2020 電玩遊戲中展示。
數學 / 計算¶
減少計算運算、證明數學定理等等。
spark-sched-sim:用於在 Apache Spark 中排程 DAG 作業的環境
spark-sched-sim 模擬 Spark 叢集,用於基於 RL 的作業排程演算法。Spark 作業被編碼為有向無環圖 (DAG),為在 RL 環境中實驗圖神經網路 (GNN) 提供了機會。
-
用於引導基於飽和演算法的自動定理證明器的環境 (例如 Vampire)。
機器人學環境¶
自主機器人。
-
BSK-RL 是一個 Python 套件,用於構建太空船任務問題的 Gymnasium 環境。它建立在 Basilisk 之上,Basilisk 是一個模組化且快速的太空船模擬框架,使模擬環境具有高保真度和計算效率。BSK-RL 還包含一系列用於處理這些環境的實用程式和範例
-
Connect-4-Gym 是一個旨在建立 AI 的環境,這些 AI 透過與自己對弈並為其分配 Elo 等級來學習。此環境可用於訓練和評估經典桌遊 Connect Four (四子棋) 上的強化學習智能體。
-
FlyCraft 是用於固定翼無人機任務的 Gymnasium 環境。預設情況下,FlyCraft 提供兩個任務:姿態控制和速度向量控制。這些任務的特點是其多目標和長程性質,對 RL 探索構成重大挑戰。此外,獎勵可以配置為馬可夫或非馬可夫,使 FlyCraft 適用於非馬可夫問題的研究。
-
JAX 中的 RL 環境,允許高度向量化的環境,並支援多種環境、Gym、MinAtari、bsuite 等。
-
gym-jiminy 提出了初始 Gym 的擴展,用於機器人學,使用 Jiminy,這是一個極其快速輕量級的模擬器,用於多關節系統,使用 Pinocchio 進行物理評估,並使用 Meshcat 進行基於 Web 的 3D 渲染。
gym-pybullet-drones:用於四旋翼飛行器控制的環境
一個簡單的環境,使用 PyBullet 模擬 Bitcraze Crazyflie 2.x 奈米四旋翼飛行器的動力學。
-
Itomori 是一個用於風險感知 UAV 飛行的環境,它提供了用於解決機率約束馬可夫決策過程 (CCMDP) 的工具。該環境允許模擬、視覺化和評估 UAV 在複雜且危險環境中的導航,整合了 GPS 不確定性、碰撞風險和自適應飛行規劃等變數。Itomori 旨在透過提供可調整的參數、詳細的視覺化效果以及對不確定環境中智能體行為的洞察,來支援 UAV 路徑規劃研究。
OmniIsaacGymEnvs:用於 NVIDIA Omniverse Isaac 的 Gym 環境
Omniverse Isaac 模擬器的強化學習環境。
panda-gym:使用 PyBullet 物理引擎的機器人學環境
基於 PyBullet 的機器手臂移動物體模擬。
-
一個用於在各種 UAV 上測試強化學習演算法的函式庫。它建立在 Bullet 物理引擎之上,提供靈活的渲染選項、時間離散步進物理、Python 綁定,並支援任何配置的自訂無人機,無論是雙翼機、四旋翼飛行器、火箭以及您能想到的任何東西。
safe-control-gym:評估 RL 演算法的安全性
透過基於 PyBullet 的 CartPole 和 Quadrotor 環境評估安全性、穩健性和泛化性,並使用 CasADi (符號) 先驗 動力學和約束。
Safety-Gymnasium:確保真實世界 RL 情境中的安全性
高度可擴展和可自訂的安全強化學習函式庫。
電信系統環境¶
互動和/或管理無線和/或有線電信系統。
-
一個開放、簡約的 Gymnasium 環境,用於無線行動網路中的自主協調。
其他¶
-
Buffalo-Gym 是一個多臂老虎機 (MAB) gymnasium,主要旨在協助偵錯 RL 實作。MAB 通常很容易推理智能體正在學習什麼以及是否正確。Buffalo-gym 包含老虎機、情境老虎機和具有別名的情境老虎機。
-
熱門強化學習環境的情境擴展,可實現泛化的訓練和測試分佈,例如具有可變桿長的 CartPole 或具有不同地面摩擦力的 Brax 機器人。
-
用於動態演算法配置的基準函式庫。其重點在於不同 DAC 方法的可重現性和可比較性,以及優化過程的簡易分析。
-
智能體透過變更其細胞狀態與細胞自動機互動的環境。
-
預設類別實作了「前往目標」,但它可以輕鬆自訂以用於不同任務,具有各種網格、獎勵、動力學和任務。它支援不同的觀察類型 (離散、座標、二元、像素、部分)。適用於快速測試和原型 RL 演算法,包括表格型和函數逼近。
-
一個輕鬆實作離散 MDP 作為 gym 環境的環境。將一組矩陣 (
P_0(s)
、P(s'| s, a)
和R(s', s, a)
) 轉換為代表由這些動力學支配的離散 MDP 的 gym 環境。 SimpleGrid:用於 Gymnasium 的簡單網格環境
SimpleGrid 是一個用於 Gymnasium 的超簡單且極簡的網格環境。它易於使用和自訂,旨在提供一個用於快速測試和原型化不同 RL 演算法的環境。
使用 Gym 的第三方環境¶
有大量第三方環境使用各種版本的 Gym。其中許多可以改編為與 gymnasium 一起使用 (請參閱與 Gym 的相容性),但不保證完全正常運作。
電玩遊戲環境¶
-
一個 3v3 MOBA 環境,您可以在其中訓練生物互相戰鬥。
SlimeVolleyGym:Slime Volleyball 遊戲的簡單環境
一個簡單的環境,用於在 Slime Volleyball 遊戲的克隆版本上基準測試單智能體和多智能體強化學習演算法。
-
用於 Unity 遊戲引擎的任意和預製環境的 Gym (和 PettingZoo) 封裝器。
-
使用 Open 3D Engine 進行 AI 模擬,並且可以與 Gym 互通操作。使用 PyBullet 物理引擎。
機器人學環境¶
-
Mars Explorer 是一個與 Gym 相容的環境,旨在作為初步嘗試,以彌合強大的深度強化學習方法與未知地形的探索/覆蓋問題之間的差距。
-
Robo-gym 提供了一系列強化學習環境,涉及適用於模擬和真實世界機器人學的機器人任務。
-
Gym 環境,可讓您透過網際網路控制實驗室中的真實機器人。
-
用於共同優化軟體機器人的設計和控制的大規模基準。
-
具有高品質逼真場景的模擬環境,使用 PyBullet 進行互動式物理模擬。
-
這是一個透過 Isaac Gym 提供雙靈巧手操作任務的函式庫。
自動駕駛環境¶
-
為 Duckietown 專案 (小型自駕車課程) 建立的車道跟隨模擬器。
-
一個 Gym,用於解決各種交通情境的運動規劃問題,與 CommonRoad 基準相容,提供可配置的獎勵、動作空間和觀察空間。
-
在模擬中訓練基於模型的 RL 智能體,並在不進行微調的情況下將其轉移到小型賽車。
-
一個用於自主賽車的開源強化學習環境。
其他環境¶
-
用於編譯器優化任務的強化學習環境,例如 LLVM 階段排序、GCC 標誌調整和 CUDA 迴圈巢狀程式碼產生。
-
該環境包含運輸謎題,玩家的目標是將所有箱子推到倉庫的儲存位置。
NLPGym:開發 RL 智能體以解決 NLP 任務的工具組
NLPGym 為標準 NLP 任務 (例如序列標記、問答和序列分類) 提供互動式環境。
-
ShinRL:從理論和實務角度評估 RL 演算法的函式庫 (Deep RL Workshop 2021)
openmodelica-microgrid-gym:用於控制微電網中功率電子轉換器的環境
OpenModelica Microgrid Gym (OMG) 套件是一個軟體工具箱,用於基於功率電子轉換器能量轉換的微電網模擬和控制優化。
-
GymFC 是一個用於合成神經飛行控制器的模組化框架。已用於為世界上第一個開源神經網路飛行控制韌體 Neuroflight 產生策略。