极简的网格世界强化学习环境。
项目描述
Minigrid 库包含了一系列离散网格世界环境,用于进行强化学习研究。这些环境遵循Gymnasium标准API,并设计为轻量级、快速且易于定制。
文档网站位于minigrid.farama.org,我们有一个公开的 Discord 服务器(我们也在其中协调开发工作),您可以通过以下链接加入:https://discord.gg/bnJ6kubTg6
请注意,该库之前被称为 gym-minigrid,并在几篇出版物中被引用。如果您的出版物使用了 Minigrid 库,并且希望将其包括在出版物列表中,请在GitHub 仓库中创建一个问题。
有关长期计划的详细信息,请参阅项目路线图。
安装
要安装 Minigrid 库,请使用pip install minigrid
。
我们支持 Linux 和 macOS 上的 Python 3.7、3.8、3.9 和 3.10。我们将接受与 Windows 相关的 PR,但不官方支持。
环境
包含的环境可以分为两组。原始的Minigrid
环境和BabyAI
环境。
Minigrid
原始Minigrid
库中包含的环境列表可以在文档中找到。这些环境有一个共同的特性,即具有三角形代理和离散动作空间,需要导航一个带有不同障碍物(墙壁、熔岩、动态障碍物)的2D地图。要完成的任务由代理观察到的mission
字符串描述。这些任务包括不同的目标导向和分层任务,如捡起箱子、用钥匙开门或导航迷宫到达目标位置。每个环境都提供了一组注册在 Gymnasium 中的配置。每个环境在大小/复杂性方面也可以进行编程调整,这对于课程学习或微调难度很有用。
BabyAI
这些环境已从BabyAI项目库中导入,环境列表也可以在文档中找到。这个环境集合的目的是进行基于事实的语言学习研究。这些环境是从Minigrid
网格世界环境中派生出来的,并包括一个额外的功能,可以生成合成的自然外观指令(例如,“把红色的球放在你左边的箱子上”),这些指令指挥代理在世界上导航(包括解锁门)并将物体移动到指定的位置以完成任务。
训练代理
rl-starter-files 是一个包含如何使用 RL 算法训练 Minigrid
环境的示例的仓库。此代码已通过测试,已知与该环境兼容。默认的超参数也已知可以收敛。
引用
原始的gym-minigrid
环境是作为在Mila进行的工作的一部分创建的。动态障碍物环境是在IAS in TU Darmstadt和热那亚大学为移动机器人导航动态障碍物而进行的工作中添加的。
要引用此项目,请使用
@article{MinigridMiniworld23,
author = {Maxime Chevalier-Boisvert and Bolun Dai and Mark Towers and Rodrigo de Lazcano and Lucas Willems and Salem Lahlou and Suman Pal and Pablo Samuel Castro and Jordan Terry},
title = {Minigrid \& Miniworld: Modular \& Customizable Reinforcement Learning Environments for Goal-Oriented Tasks},
journal = {CoRR},
volume = {abs/2306.13831},
year = {2023},
}
如果使用BabyAI
环境,也请引用以下内容
@article{chevalier2018babyai,
title={Babyai: A platform to study the sample efficiency of grounded language learning},
author={Chevalier-Boisvert, Maxime and Bahdanau, Dzmitry and Lahlou, Salem and Willems, Lucas and Saharia, Chitwan and Nguyen, Thien Huu and Bengio, Yoshua},
journal={arXiv preprint arXiv:1810.08272},
year={2018}
}
项目详细信息
下载文件
下载适用于您平台的应用文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
构建分布
minigrid-2.3.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 9b08ccd1a99754eb8d26a3bde59b35c016861da20aae7fff559769b329c26b67 |
|
MD5 | ce7563576205feb00eac796dc6b490bf |
|
BLAKE2b-256 | b002814899e03da5cc496808588520af150b64ad470a5016f4a7a67d1d3e8762 |
minigrid-2.3.1-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6e841a9f95378abe1fdb053d4dfaead1613ceb2fa1e9548a8525882fbdb4f6f3 |
|
MD5 | b8d581d560bc1a07b89ccd9286577c7b |
|
BLAKE2b-256 | fc45f59b1f7e8134272d1756aea09d93b20996cc77d44e6d71dda6c18cc03e2d |