强化学习读书笔记

基本概念

强化学习任务一般通过马尔可夫决策过程(Markov Decision Process, MDP)来描述。

A Markov decision process is a 4-tuple, where

  • is a finite set of states,
  • is the finite set of actions available from state ,
  • is the transfer probability.
  • is the immediate reward from state to state s’.

而机器学习的任务便是不断尝试,学习得到一个新的策略(policy)。基于这个策略,在不同的状态下选择不同的动作action。有两种表示方法,一种作为函数,一种作为概率表示,表示选择动作的概率。

目标便是长期奖励最大化的策略。常用的是T步累积奖赏。,或者加上一个累积折扣,即:

K臂赌博机(K armed bandit)

这是最简单的场景,因为每一步都独立。即只需要最大化单步奖赏。这个情景下,一个动作的奖赏,是一个概率分布,无法通过一次工作得到它的期望奖赏。

这里分为两个阶段,在计算每个臂的期望奖赏时,可以采用仅探索,在知道每个臂的期望奖赏时,采用仅利用,去摇哪个期望奖赏最大的臂。单独使用这两种策略都无法实现奖励的最大化,这时候需要结合两种方式来完成。

-贪心

算法对两种方法取折中,即按照概率确定选用哪个策略,再进行摇臂。有一个优化就是,前期更倾向于探索,后期更倾向于利用,即根据步数修改

softmax

算法基于期望奖赏,分配摇臂的概率,按照概率选择哪个臂。摇臂概率大分布按照Boltzmann分布。

二者对比

具体选择哪个取决于具体应用,也与选择的参数有关系,例如, 越小,则趋向于仅利用

有模型学习

假设,MDP过程的四元组已知,便认为是模型已知,即机器已经对环境建模。对于这种情况,成为有模型学习。

策略评估

在模型已知的情况下,策略的累积奖赏便可以估计得到。

表示,在x的初始状态下,基于策略的累积奖赏。称为状态值函数(state value funciton)

表示 x作为初始状态,执行动作a后,带来的累积奖赏。称为:状态动作值函数。(state action value function)

根据累积奖赏的两种定义,可以得到:

状态动作值函数为:

基于马尔可夫性质,可以将公示写为递归的形式。

同理,折扣累积奖赏也有如下的累积递归公式。

可以看到,只有当状态转移矩阵P和奖赏矩阵R已知的前提下,才能完全展开。