掌握强化学习中的蒙特卡洛与时序差分

梦里花落 2019-07-08 ⋅ 39 阅读

强化学习简介

强化学习是一种通过智能体与环境的交互来学习最优行为策略的机器学习方法。这种方法不像监督学习需要标记好的训练样本,也不像无监督学习只关注数据分布。相反,强化学习通过试错学习和奖励机制,掌握环境特征和行为之间的关系,并通过优化策略实现最好的决策。

蒙特卡洛方法

蒙特卡洛方法是强化学习中的一种重要算法,主要用于评估和改善策略。它通过与环境的交互产生的完整序列样本来估计状态值函数或动作值函数。具体来说,通过与环境的多次交互得到的样本经验,可以计算出每个状态的累积奖励。这样,就可以评估状态的价值,并根据评估结果改善策略。

蒙特卡洛方法的基本思想是基于样本平均法,即使用一系列采样路径来估计状态值或动作值。具体而言,采样路径包括从初始状态开始执行动作,与环境进行交互,并根据奖励信号更新策略。然后,将这些路径的累积奖励平均起来,就可以得到状态值或动作值的估计。

蒙特卡洛方法有两种主要的形式:第一次遇到与每次遇到。第一次遇到的方法只关注每个路径中第一次遇到的状态,并对其进行估计。而每次遇到的方法则关注整个路径中的所有状态,并对它们进行估计。两种方法都可以用于估计状态值函数和动作值函数,具体的选择取决于具体问题和应用场景。

时序差分方法

时序差分方法是另一种常用的强化学习算法,用于估计状态值函数或动作值函数。与蒙特卡洛方法不同,时序差分方法通过将当前估计值与未来的估计值进行比较来迭代地更新价值函数。这种方法通过时序性的更新,可以在每个时间步长对价值函数进行近似,而不需要等待整个采样路径结束。

时序差分方法的核心思想是利用当前估计值和下一个估计值之间的差异来更新价值函数。具体而言,它使用贝尔曼方程来计算下一个估计值,并将其与当前估计值进行比较。然后,根据差异大小和设定的学习率来更新当前估计值。这个过程一直进行到达到收敛或预先设定的迭代次数。

时序差分方法的优点之一是可以在实时环境中进行学习,而不需要等待完整的采样路径。这使得它适用于连续决策任务和动态环境,可以实时地根据当前状态进行决策。

总结

蒙特卡洛方法和时序差分方法是强化学习中常用的两种算法,用于评估和改善策略。蒙特卡洛方法通过与环境交互产生的样本经验来估计状态值或动作值函数,它的优点是能够对所有状态进行估计,并且不需要等待完整的采样路径。时序差分方法通过迭代地将当前估计值与未来估计值进行比较来更新价值函数,它的优点是可以在实时环境中进行学习。这两种方法在不同的问题和应用场景中起到了重要的作用,掌握它们可以更好地理解和应用强化学习算法。


全部评论: 0

    我有话说: