玩具文字¶ 二十一點 懸崖漫步 冰凍湖 計程車 玩具文字環境被設計得極其簡單,具有小的離散狀態和動作空間,因此易於學習。因此,它們適用於調試強化學習演算法的實作。 環境可透過每個環境的文件中指定的參數進行配置。