强化学习读书笔记
基本概念
强化学习任务一般通过马尔可夫决策过程(Markov Decision Process, MDP)来描述。
A Markov decision process is a 4-tuple
, where
is a finite set of states, is the finite set of actions available from state , is the transfer probability. is the immediate reward from state to state s’.
而机器学习的任务便是不断尝试,学习得到一个新的策略(policy)
目标便是长期奖励最大化的策略。常用的是T步累积奖赏。
K臂赌博机(K armed bandit)
这是最简单的场景,因为每一步都独立。即只需要最大化单步奖赏。这个情景下,一个动作的奖赏,是一个概率分布,无法通过一次工作得到它的期望奖赏。
这里分为两个阶段,在计算每个臂的期望奖赏时,可以采用仅探索,在知道每个臂的期望奖赏时,采用仅利用,去摇哪个期望奖赏最大的臂。单独使用这两种策略都无法实现奖励的最大化,这时候需要结合两种方式来完成。
-贪心
算法对两种方法取折中,即按照概率确定选用哪个策略,再进行摇臂。有一个优化就是,前期更倾向于探索,后期更倾向于利用,即根据步数修改
softmax
算法基于期望奖赏,分配摇臂的概率,按照概率选择哪个臂。摇臂概率大分布按照Boltzmann分布。
二者对比
具体选择哪个取决于具体应用,也与选择的参数有关系,例如
有模型学习
假设,MDP过程的四元组已知,便认为是模型已知,即机器已经对环境建模。对于这种情况,成为有模型学习。
策略评估
在模型已知的情况下,策略
根据累积奖赏的两种定义,可以得到:
状态动作值函数为:
基于马尔可夫性质,可以将公示写为递归的形式。
同理,
可以看到,只有当状态转移矩阵P和奖赏矩阵R已知的前提下,才能完全展开。

