強化學習基礎(chǔ)篇（三十一）策略梯度(3)Actor-Critic算法

1.引入Baseline

在使用策略梯度方法更新過程中旨枯，降低方差的另一種方法是使用baseline沙绝。

在REINFORCE算法得到的更新方式為：
$\nabla_{\theta} \mathbb{E}_{\tau \sim \pi_{\theta}}[R]=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1} G_{t} \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$
其中的 $G_{t}=\sum_{t^{\prime}=t}^{T-1} r_{t}$ 是由軌跡產(chǎn)生的回報厌衙，具有很高的方差将鸵，如果考慮其上減去一個baseline $b(s)$ ：
$\nabla_{\theta} \mathbb{E}_{\tau \sim \pi_{\theta}}[R]=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1}\left(G_{t}-b\left(s_{t}\right)\right) \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$
一般而言弧械，baseline的選擇可以是回報的期望：
$b\left(s_{t}\right)=\mathbb{E}\left[r_{t}+r_{t+1}+\ldots+r_{T-1}\right]$
Baseline的引入可以降低方差蜕乡，但是有baseline不含有參數(shù) $\theta$ ，所以不會改變更新過程的梯度：
$\mathbb{E}_{\tau}\left[\nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) b\left(s_{t}\right)\right]=0$

$E_{\tau}\left[\nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\left(G_{t}-b\left(s_{t}\right)\right)\right]=E_{\tau}\left[\nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) G_{t}\right]$

$\operatorname{Var}_{\tau}\left[\nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\left(G_{t}-b\left(s_{t}\right)\right)\right]<\operatorname{Var}_{\tau}\left[\nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) G_{t}\right]$

這里的baseline的選擇還可以是一個另一個被 $w$ 參數(shù)化的函數(shù)设捐。
$\nabla_{\theta} J(\theta)=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1}\left(G_{t}-b_{w}\left(s_{t}\right)\right) \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$

2借浊、Vanilla Policy Gradient算法

通過加入baseline，我們可以得到Vanilla Policy Gradient算法:

image.png

3萝招、使用Critic降低方差

在實際中 $\nabla_{\theta} J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T-1} G_{t} \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$ 更新過程的 $G_t$ 可以使用動作值函數(shù)代替 $Q^{\pi_{\theta}}\left(s_{t}, a_{t}\right)$ 蚂斤，動作值函數(shù)作為Critic可以由參數(shù)化的函數(shù)近似：
$Q_{w}(s, a) \approx Q^{\pi_{\theta}}(s, a)$
所以策略梯度更新可以修改為：
$\nabla_{\theta} J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T-1} Q_{w}\left(s_{t}, a_{t}\right) \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$
這樣就可以形成Actor-Critic算法，其中：

Actor是策略函數(shù)槐沼，用于產(chǎn)生動作曙蒸，其更新過程會根據(jù)Critic提供的方向進行策略參數(shù) $\theta$ 的更新捌治。
Critic是價值函數(shù)，用于評估Actor產(chǎn)生動作的獎勵纽窟，其更新過程會基于參數(shù) $w$ 更新肖油。Critic相當于會評價通過Actor產(chǎn)生的動作。

如果使用線性函數(shù)進行Q函數(shù)的近似 $Q_{w}(s, a)=\psi(s, a)^{T} \mathbf{w}$ 臂港，然后使用 $TD(0)$ 的方法更新Critic的參數(shù) $w$ 森枪，使用PG更新Actor的參數(shù) $\theta$ ，這樣就有簡單的QAC算法：

image.png

4趋艘、Actor-Critc函數(shù)近似

在AC算法中疲恢，我們需要維護兩組參數(shù)，在實現(xiàn)過程中可以由兩種網(wǎng)絡(luò)的設(shè)計瓷胧，一種是分別使用神經(jīng)網(wǎng)絡(luò)擬合兩組參數(shù)显拳，第一組輸出價值函數(shù)，第二組輸出策略搓萧。

image.png

另一種方法是讓兩個輸出共享同一個網(wǎng)絡(luò)：

image.png

5杂数、使用Baseline降低AC的方差

我們到Q函數(shù)的形式為：
$Q^{\pi, \gamma}(s, a)=\mathbb{E}_{\pi}\left[r_{1}+\gamma r_{2}+\ldots \mid s_{1}=s, a_{1}=a\right]$
價值函數(shù)為：
$\begin{aligned} V^{\pi, \gamma}(s) &=\mathbb{E}_{\pi}\left[r_{1}+\gamma r_{2}+\ldots \mid s_{1}=s\right] \\ &=\mathbb{E}_{a \sim \pi}\left[Q^{\pi, \gamma}(s, a)\right] \end{aligned}$
如果將價值函數(shù)作為一個baseline，可以定義優(yōu)勢函數(shù)如下：
$A^{\pi, \gamma}(s, a)=Q^{\pi, \gamma}(s, a)-V^{\pi, \gamma}(s)$
這樣使用Advantage funtion的策略梯度就為：
$\nabla_{\theta} J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\nabla_{\theta} \log \pi_{\theta}(s, a) A^{\pi, \gamma}(s, a)\right]$

使用N-step 近似

我們之前使用的是MC的回報 $G_t$ ,但也可以使用TD的方法進行更新瘸洛，或者n-step方法進行更新：

比如：
$\begin{array}{rl}n=1(T D) & G_{t}^{(1)}=r_{t+1}+\gamma v\left(s_{t+1}\right) \\ n=2 & G_{t}^{(2)}=r_{t+1}+\gamma r_{t+2}+\gamma^{2} v\left(s_{t+2}\right) \\ n=\infty(M C) & G_{t}^{(\infty)}=r_{t+1}+\gamma r_{t+2}+\ldots+\gamma^{T-t-1} r_{T}\end{array}$
使用了n-step方法的優(yōu)勢函數(shù)可以為：
$\begin{aligned} \hat{A}_{t}^{(1)} &=r_{t+1}+\gamma v\left(s_{t+1}\right)-v\left(s_{t}\right) \\ \hat{A}_{t}^{(2)} &=r_{t+1}+\gamma r_{t+2}+\gamma^{2} v\left(s_{t+2}\right)-v\left(s_{t}\right) \\ \hat{A}_{t}^{(\infty)} &=r_{t+1}+\gamma r_{t+2}+\ldots+\gamma^{T-t-1} r_{T}-v\left(s_{t}\right) \end{aligned}$
這里 $\hat A^{(1)}$ 具有低variance揍移，但是高的bias，相反 $\hat{A}_{t}^{(\infty)}$ 具有高variance反肋，但是低的bias那伐。