![强化学习](https://wfqqreader-1252317822.image.myqcloud.com/cover/245/34233245/b_34233245.jpg)
上QQ阅读APP看书,第一时间看更新
3.4 策略迭代
将策略评估算法和策略改进算法合起来便有了策略迭代算法。策略迭代算法通常由策略评估和策略改进两部分构成。在策略评估中,根据当前策略计算值函数。在策略改进中,通过贪心算法选择最大值函数对应的行为。策略评估和策略改进两部分交替进行不断迭代。算法整体流程如图3-2所示。
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P58_2844.jpg?sign=1739293097-ghIqAntUqToOesYIPppIU1TRfuFqt71Y-0-d0f7e303c1fdfa8c01deb869a7bd973a)
图3-2 策略迭代
假设我们有一个初始策略π1,策略迭代算法首先评估该策略的价值(用E表示),得到该策略的值函数或
。下一步,策略迭代算法会借助贪心算法对初始策略π1进行改进(用I表示),得到π2。接着,对改进后的策略π2进行评估,再进一步改进当前策略,如此循环迭代,直到策略收敛至最优。
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P58_20833.jpg?sign=1739293097-LyDI1sJj2jOcgxQGaJ8enaBMD4BOIS9t-0-a2fbdf2aa28fca4319f2a17c505e2a2b)
其中,π1为初始策略,E表示策略评估,I表示策略改进。策略评估过程中,对于任意的策略πk,通过贝尔曼期望方程进行迭代计算得到和
。例如:
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P58_20834.jpg?sign=1739293097-UsrYb0feB8vnUMmFozjCKTm08mOh344I-0-63434330854ae9cf3a53a56a945d0e6a)
策略改进部分,用贪心算法得到更新的策略:
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P58_20836.jpg?sign=1739293097-tc08AEAbHVyq9cXYM0bEjTFwdyWQHNey-0-c9724e378f9d422bf7e32b00c0e0e17b)
或者
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P58_20838.jpg?sign=1739293097-AJD7eKw7k2T20P0ruVW9F6AUfOCtsmdg-0-3cdc0c18052a9c09e94bcd0c33dc3bea)
算法流程如下。
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-T58_24376.jpg?sign=1739293097-cLqL4i9PCPBYNV00qtYNVGLpuPxkjcu1-0-2fc962e563e66644b36af2db403f97f5)
在策略评估过程中,往往需要等到值函数收敛之后才能进行策略改进,这其实是没有必要的。可以在进行一次策略评估之后就开始策略改进,如此循环往复执行这两个过程,最终会收敛到最优值函数和最优策略,如图3-3所示,这便是广义策略迭代的思想,很多强化学习方法都用到了这种思想。
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P59_2944.jpg?sign=1739293097-mToZIXunYV47803mbMgz7ikYs2FwFDjU-0-5d299f08d0e64931dd7b307526840208)
图3-3 广义策略迭代