Powered by GitBook

Q 函数（在模型不可用时学习优化）

如果模型不可用，则智能体通过反复试验来学习模型和最优策略。当模型不可用时，智能体使用 Q 函数，其定义如下：

如果状态 s 处的智能体选择动作 a，则 Q 函数基本上将状态和动作对映射到表示预期总奖励的实数。

results matching ""

No results matching ""