在没有模型的情况下,智能体在每一步都要探索或利用。 探索意味着智能体选择一个未知动作来找出奖励和模型。 剥削意味着智能体选择最知名的行动来获得最大奖励。如果智能体总是决定利用它,那么它可能会陷入局部最优值。因此,有时智能体会绕过学到的策略来探索未知的行为。同样,如果智能体总是决定探索,那么它可能无法找到最优策略。因此,在探索和开发之间取得平衡非常重要。在我们的代码中,我们通过使用概率p来选择随机动作和概率1-p来选择最优动作来实现这一点。
p
1-p