可控性视觉强化学习基准。
项目描述
BridgeWalk
BridgeWalk是一个部分观察的强化学习环境,具有变化的随机性动态。玩家需要沿着桥梁走到目标位置。当玩家从桥上走下到水中时,水流会随机地将它移动,直到它被冲回岸边。在这个环境中,一个好的智能体可以避免这种随机陷阱。BridgeWalk的实现基于Crafter环境。
自己玩
您可以使用交互式窗口和键盘输入来玩这个游戏。按键到动作、健康水平和库存状态的映射将打印到终端。
# Install with GUI
pip3 install 'bridgewalk[gui]'
# Start the game
bridgewalk
# Alternative way to start the game
python3 -m bridgewalk.run_gui
以下可选的命令行标志可用
标志 | 默认值 | 描述 |
---|---|---|
--window <width> <height> |
800 800 | 以像素为单位的窗口大小,用作宽度和高度。 |
--fps <integer> |
5 | 每秒更新环境的次数。 |
--record <filename>.mp4 |
无 | 记录轨迹的视频。 |
--view <width> <height> |
7 7 | 布局大小(以单元格为单位);确定视图距离。 |
--length <integer> |
无 | 每个游戏的时间限制。 |
--seed <integer> |
无 | 确定世界生成和生物。 |
训练智能体
安装: pip3 install -U bridgewalk
环境遵循OpenAI Gym接口
import bridgewalk
env = bridgewalk.Env(seed=0)
obs = env.reset()
assert obs.shape == (64, 64, 3)
done = False
while not done:
action = env.action_space.sample()
obs, reward, done, info = env.step(action)
环境详情
奖励
当智能体在每场游戏的最后到达桥尾的岛屿时,给予+1的奖励。
终止
250步后,游戏结束。
观察空间
每个观测值都是一个RGB图像,显示了玩家周围的局部世界视图以及代理的库存状态。
动作空间
动作空间是分类的。每个动作都是一个整数索引,代表可能的动作之一。
整数 | 名称 | 描述 |
---|---|---|
0 | noop |
不进行任何操作。 |
1 | move_left |
向左行走。 |
2 | move_right |
向右行走。 |
3 | move_up |
向上行走。 |
4 | move_down |
向下行走。 |
问题
请在Github上创建一个问题。
项目详情
关闭
bridgewalk-0.1.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 57ca59c82d597753f9ff58075f25d423481bb3fe539893ed2560394aaf1ba048 |
|
MD5 | 4aebfc2d2f0afbc5f909b909ea57fda6 |
|
BLAKE2b-256 | 7ba9b383fca4f4ea03bbae835020f68c44081e6a2724437015cd58cebb1a1075 |