OpenAI Gym 101

OpenAI Gym 是一个基于 Python 的工具包,用于研究和开发强化学习算法。 OpenAI Gym 在撰写本文时提供了 700 多个开源贡献环境。使用 OpenAI,您还可以创建自己的环境。最大的优势是 OpenAI 提供了一个统一的界面来处理这些环境,并在您专注于强化学习算法的同时负责运行模拟。

描述 OpenAI Gym 的研究论文可在以下链接中找到:http://arxiv.org/abs/1606.01540.

您可以使用以下命令安装 OpenAI Gym:

pip3 install gym

如果上述命令不起作用,您可以在以下链接中找到有关安装的更多帮助:https://github.com/openai/gym#installation.

  1. 让我们在 OpenAI Gym 中打印可用环境的数量:

您可以按照本书代码包中的 Jupyter 笔记本ch-13a_Reinforcement_Learning_NN中的代码进行操作。

all_env = list(gym.envs.registry.all())
print('Total Environments in Gym version {} : {}'
    .format(gym.__version__,len(all_env)))

Total Environments in Gym version 0.9.4 : 777
  1. 让我们打印所有环境的列表:
for e in list(all_env):
    print(e)

输出的部分列表如下:

EnvSpec(Carnival-ramNoFrameskip-v0)
EnvSpec(EnduroDeterministic-v0)
EnvSpec(FrostbiteNoFrameskip-v4)
EnvSpec(Taxi-v2)
EnvSpec(Pooyan-ram-v0)
EnvSpec(Solaris-ram-v4)
EnvSpec(Breakout-ramDeterministic-v0)
EnvSpec(Kangaroo-ram-v4)
EnvSpec(StarGunner-ram-v4)
EnvSpec(Enduro-ramNoFrameskip-v4)
EnvSpec(DemonAttack-ramDeterministic-v0)
EnvSpec(TimePilot-ramNoFrameskip-v0)
EnvSpec(Amidar-v4)

env对象表示的每个环境都有一个标准化的接口,例如:

  • 通过传递 id 字符串,可以使用env.make(<game-id-string>)函数创建env对象。
  • 每个env对象包含以下主要函数:
    • step()函数将操作对象作为参数并返回四个对象:
      • 观察:由环境实现的对象,代表对环境的观察。
      • 奖励:一个带符号的浮点值,表示前一个操作的增益(或损失)。
      • done:表示方案是否完成的布尔值。
      • info:表示诊断信息的 Python 字典对象。
    • render()函数可创建环境的直观表示。
    • reset()函数将环境重置为原始状态。
  • 每个env对象都有明确定义的动作和观察,由action_spaceobservation_space表示。

CartPole 是健身房里最受欢迎的学习强化学习游戏之一。在这个游戏中,连接到推车的杆必须平衡,以便它不会下降。如果杆子倾斜超过 15 度或者推车从中心移动超过 2.4 个单元,则游戏结束。 OpenAI.com 的主页用这些词强调游戏:

这种环境的小尺寸和简单性使得可以进行非常快速的实验,这在学习基础知识时是必不可少的。

游戏只有四个观察和两个动作。动作是通过施加+1 或-1 的力来移动购物车。观察结果是推车的位置,推车的速度,杆的角度以及杆的旋转速度。然而,学习观察语义的知识不是学习最大化游戏奖励所必需的。

现在让我们加载一个流行的游戏环境 CartPole-v0,然后用随机控件播放:

  1. 使用标准make函数创建env对象:
env = gym.make('CartPole-v0')
  1. 剧集的数量是游戏的数量。我们现在将它设置为一个,表示我们只想玩一次游戏。由于每集都是随机的,因此在实际的制作过程中,您将运行多集并计算奖励的平均值。此外,我们可以初始化一个数组,以便在每个时间步都存储环境的可视化:
n_episodes = 1
env_vis = []
  1. 运行两个嵌套循环 - 一个用于剧集数量的外部循环和一个用于您要模拟的时间步数的内部循环。您可以继续运行内部循环,直到方案完成或将步数设置为更高的值。
    • 在每集开始时,使用env.reset()重置环境。
    • 在每个时间步的开始,使用env.render()捕获可视化。
for i_episode in range(n_episodes):
  observation = env.reset()
    for t in range(100):
  env_vis.append(env.render(mode = 'rgb_array'))
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
  print("Episode finished at t{}".format(t+1))
            break
  1. 使用辅助函数渲染环境:
env_render(env_vis)
  1. 辅助函数的代码如下:
def env_render(env_vis):
  plt.figure()
    plot = plt.imshow(env_vis[0])
    plt.axis('off')
    def animate(i):
  plot.set_data(env_vis[i])

    anim = anm.FuncAnimation(plt.gcf(),
                             animate,
                             frames=len(env_vis),
                             interval=20,
                             repeat=True,
                             repeat_delay=20)
    display(display_animation(anim, default_mode='loop'))

运行此示例时,我们得到以下输出:

[-0.00666995 -0.03699492 -0.00972623  0.00287713]
[-0.00740985  0.15826516 -0.00966868 -0.29285861]
[-0.00424454 -0.03671761 -0.01552586 -0.00324067]
[-0.0049789  -0.2316135  -0.01559067  0.28450351]
[-0.00961117 -0.42650966 -0.0099006   0.57222875]
[-0.01814136 -0.23125029  0.00154398  0.27644332]
[-0.02276636 -0.0361504   0.00707284 -0.01575223]
[-0.02348937  0.1588694   0.0067578  -0.30619523]
[-0.02031198 -0.03634819  0.00063389 -0.01138875]
[-0.02103895  0.15876466  0.00040612 -0.3038716 ]
[-0.01786366  0.35388083 -0.00567131 -0.59642642]
[-0.01078604  0.54908168 -0.01759984 -0.89089036]
[  1.95594914e-04   7.44437934e-01  -3.54176495e-02  -1.18905344e+00]
[ 0.01508435  0.54979251 -0.05919872 -0.90767902]
[ 0.0260802   0.35551978 -0.0773523  -0.63417465]
[ 0.0331906   0.55163065 -0.09003579 -0.95018025]
[ 0.04422321  0.74784161 -0.1090394  -1.26973934]
[ 0.05918004  0.55426764 -0.13443418 -1.01309691]
[ 0.0702654   0.36117014 -0.15469612 -0.76546874]
[ 0.0774888   0.16847818 -0.1700055  -0.52518186]
[ 0.08085836  0.3655333  -0.18050913 -0.86624457]
[ 0.08816903  0.56259197 -0.19783403 -1.20981195]
Episode finished at t22

杆子需要 22 个时间步长才能变得不平衡。在每次运行中,我们得到不同的时间步长值,因为我们通过使用env.action_space.sample()在学术上选择了动作。

由于游戏如此迅速地导致损失,随机选择一个动作并应用它可能不是最好的策略。有许多算法可以找到解决方案,使杆子保持笔直,可以使用更长的时间步长,例如爬山,随机搜索和策略梯度。

解决 Cartpole 游戏的一些算法可通过以下链接获得:

https://openai.com/requests-for-research/#cartpole

http://kvfrans.com/simple-algoritms-for-solving-cartpole/

https://github.com/kvfrans/openai-cartpole

results matching ""

    No results matching ""