![强化学习](https://wfqqreader-1252317822.image.myqcloud.com/cover/245/34233245/b_34233245.jpg)
上QQ阅读APP看书,第一时间看更新
3.2 策略评估
策略评估要解决问题是,给定一个策略π,如何计算在该策略下的值函数Vπ。
因为实际中涉及的马尔可夫模型规模一般比较大,直接求解效率低,因此可使用迭代法进行求解。考虑应用贝尔曼(Bellman)期望方程进行迭代,公式如下:
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P57_20810.jpg?sign=1739292491-ZUH1fA2wrBtTEj70nFWMgoptPSDKNibX-0-9517a8857ec4ed738c98c244c9d80274)
可见,状态s处的值函数Vπ(s),可以利用后继状态s'的值函数Vπ(s')来表示,依此类推,这种求取值函数的方法称为自举法(Bootstrapping)。
如图3-1所示,初始所有状态值函数全部为0。第k+1次迭代求解Vπ(s)时,使用第k次计算出来的值函数Vk(s')更新计算Vk+1(s)。迭代时使用的公式如下:
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P57_20812.jpg?sign=1739292491-YndBl21MGrbPGznfsdXmCzR6iwgoGo97-0-c0c911becb7817d2239dac618c7113cb)
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P57_2818.jpg?sign=1739292491-lQlal9aYIcKjolrtIotS8kRJZZQHQTDC-0-8a3803cac13c2f86e710ab99ec95abc8)
图3-1 迭代法
对于模型已知的强化学习算法,上式中,、π(a|s)、
都是已知数,唯一的未知数是值函数,因此该方法通过反复迭代最终将收敛。