简约网格世界强化学习环境
项目描述
MiniGrid(以前称为gym-minigrid)
这里还有其他的网格世界Gym环境,但这个设计得尤其简单、轻量级和快速。代码依赖项很少,因此不太可能出错或安装失败。它不加载外部精灵/纹理,并且在Core i7笔记本电脑上可以运行高达5000 FPS,这意味着您可以更快地运行实验。可以在这个仓库中找到一个已知的RL实现:此处。
需求
- Python 3.7到3.10
- OpenAI Gym v0.26
- NumPy 1.18+
- Matplotlib(可选,仅用于显示)- 3.0+
如果您想在出版物中引用此仓库,请使用此bibtex
@misc{gym_minigrid,
author = {Chevalier-Boisvert, Maxime and Willems, Lucas and Pal, Suman},
title = {Minimalistic Gridworld Environment for OpenAI Gym},
year = {2018},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/maximecb/gym-minigrid}},
}
使用MiniGrid或BabyAI的出版物及投稿列表(请提交pull request添加缺失条目)
- 强化学习中通过语言模型进行历史压缩。 (林茨约翰内斯·开普勒大学,PMLR 2022)
- 通过技能多样性利用近似符号模型进行强化学习。 (亚利桑那州立大学,ICML 2022)
- 使用随机不确定性估计避免噪声电视,保持好奇心。 (伦敦大学学院,波士顿大学,ICML 2022)
- 简而言之,人类要求的就是这个:遵循时间规格的潜在目标。 (伦敦帝国理工学院,ICLR 2022)
- 有趣的对象,好奇的代理:学习任务无关的探索。 (Meta AI Research,NeurIPS 2021)
- 使用局部广义线性函数近似进行安全策略优化。 (IBM Research,清华大学,NeurIPS 2021)
- 基于模型的强化学习的意识启发规划代理。 (Mila,麦吉尔大学,NeurIPS 2021)
- SPOTTER:通过针对性强化学习扩展符号规划操作。 (塔夫茨大学,SIFT,AAMAS 2021)
- Grid-to-Graph:强化学习的灵活空间关系归纳偏差。 (UCL,AAMAS 2021)
- 排名场景:在程序生成环境中进行探索的简单方法。 (德克萨斯A&M大学,Kuai Inc.,ICLR 2021)
- 对抗性引导的演员-评论家。 (INRIA,Google Brain,ICLR 2021)
- 元强化学习的信息论任务选择。 (利兹大学,NeurIPS 2020)
- BeBold:超越探索区域边界进行探索。 (加州大学伯克利分校,2020年12月)
- 部分观察系统中的近似信息状态,用于近似规划和强化学习。 (麦吉尔大学,2020年10月)
- 优先级等级回放。 (FAIR,2020年10月)
- AllenAct:一个用于具身AI研究的框架。 (艾伦人工智能研究所,2020年8月)
- 使用AMIGO学习:对抗性动机的内生目标。 (麻省理工学院,FAIR,ICLR 2021)
- RIDE:程序生成环境中的奖励驱动影响探索。 (FAIR,ICLR 2020)
- 在涌现通信中学习请求指导。 (阿姆斯特丹大学,2019年12月)
- 工作记忆图。 (微软研究,2019年11月)
- 在强化学习中,使用自然语言标签的任务进行快速任务适应。 (安特卫普大学,2019年10月)
- 使用选择性噪声注入和信息瓶颈进行强化学习中的泛化。 (微软研究,NeurIPS,2019年10月)
- 循环独立机制。 (Mila,2019年9月)
- 使用多任务分层强化学习学习有效子目标。 (清华大学,2019年8月)
- 掌握涌现语言:在模拟导航中学习引导。 (阿姆斯特丹大学,2019年8月)
- 通过建模策略分布进行迁移学习。 (Mila,2019年6月)
- 具有信息约束原语竞争集的强化学习。 (Mila,2019年6月)
- 仅使用局部和立即信用分配学习远距离因果关系。 (孵化器491,2019年5月)
- 实际开环乐观规划 (INRIA,2019年4月)
- 通过学习世界图加速分层强化学习 (Salesforce Research,2019年)
- 强化学习中的变分状态编码作为内在动机 (Mila,TARL 2019)
- 通过内在控制无监督地发现决策状态 (乔治亚理工学院,TARL 2019)
- 在基于模型的强化学习中模拟长期未来 (Mila,ICLR 2019)
- 通过社会选择理论统一Q学习的集成方法 (马克斯·普朗克研究所,2019年2月)
- 使用学习上下文超越感知范围进行规划 (MLMP@IROS,2018)
- 通过元学习使用语言指导策略 (加州大学伯克利分校,2018年11月)
- 关于目标驱动导航中探索的复杂性 (卡内基梅隆大学,NeurIPS 2018年11月)
- 通过信息瓶颈进行迁移和探索 (Mila,2018年11月)
- 为网格世界中的强化学习代理创建更安全的奖励函数 (哥德堡大学,2018)
- BabyAI:通过人类在回路中实现基于语言的初步学习 (Mila,ICLR,2018年10月)
此环境作为在Mila进行的工作的一部分构建。动态障碍物环境是在达姆斯塔特工业大学IAS和热那亚大学为具有动态障碍物的移动机器人导航而构建的。
安装
现在有一个定期更新的pip软件包可用。
pip3 install gym-minigrid
或者,要获取MiniGrid的最新版本,您可以克隆此存储库并使用pip3
安装依赖项。
git clone https://github.com/maximecb/gym-minigrid.git
cd gym-minigrid
pip3 install -e .
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定要选择哪个,请了解更多关于安装软件包的信息。
源分布
gym_minigrid-1.2.2.tar.gz (56.3 kB 查看哈希值)
构建分布
gym_minigrid-1.2.2-py3-none-any.whl (70.5 kB 查看哈希值)
关闭
gym_minigrid-1.2.2.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 99b74fc191cabd17f212cc34da23dda0e850456dbd335da462ed9369939dfcfe |
|
MD5 | cea10430fa0523d274fe866a13cef05e |
|
BLAKE2b-256 | 6823501d0433991f580c8bf66fb15fb6ad57d87a152d1e8e0ebec8c383c0db38 |