跳转到主要内容

可控性视觉强化学习基准。

项目描述

BridgeWalk

PyPI

BridgeWalk是一个部分观察的强化学习环境,具有变化的随机性动态。玩家需要沿着桥梁走到目标位置。当玩家从桥上走下到水中时,水流会随机地将它移动,直到它被冲回岸边。在这个环境中,一个好的智能体可以避免这种随机陷阱。BridgeWalk的实现基于Crafter环境。

Bridge Walk Video

自己玩

您可以使用交互式窗口和键盘输入来玩这个游戏。按键到动作、健康水平和库存状态的映射将打印到终端。

# Install with GUI
pip3 install 'bridgewalk[gui]'

# Start the game
bridgewalk

# Alternative way to start the game
python3 -m bridgewalk.run_gui

以下可选的命令行标志可用

标志 默认值 描述
--window <width> <height> 800 800 以像素为单位的窗口大小,用作宽度和高度。
--fps <integer> 5 每秒更新环境的次数。
--record <filename>.mp4 记录轨迹的视频。
--view <width> <height> 7 7 布局大小(以单元格为单位);确定视图距离。
--length <integer> 每个游戏的时间限制。
--seed <integer> 确定世界生成和生物。

训练智能体

安装: pip3 install -U bridgewalk

环境遵循OpenAI Gym接口

import bridgewalk

env = bridgewalk.Env(seed=0)
obs = env.reset()
assert obs.shape == (64, 64, 3)

done = False
while not done:
  action = env.action_space.sample()
  obs, reward, done, info = env.step(action)

环境详情

奖励

当智能体在每场游戏的最后到达桥尾的岛屿时,给予+1的奖励。

终止

250步后,游戏结束。

观察空间

每个观测值都是一个RGB图像,显示了玩家周围的局部世界视图以及代理的库存状态。

动作空间

动作空间是分类的。每个动作都是一个整数索引,代表可能的动作之一。

整数 名称 描述
0 noop 不进行任何操作。
1 move_left 向左行走。
2 move_right 向右行走。
3 move_up 向上行走。
4 move_down 向下行走。

问题

请在Github上创建一个问题

项目详情


下载文件

下载适合您平台的应用程序。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分发

bridgewalk-0.1.0.tar.gz (30.0 kB 查看哈希值)

上传时间

由以下支持