分類
model-Free RL:不用理解環(huán)境
從環(huán)境中得到反饋進(jìn)行學(xué)習(xí)
Policy Gradients
Sarsa
Q Learning
Model-Based RL:理解環(huán)境
需要為現(xiàn)實(shí)世界進(jìn)行建模之后學(xué)習(xí)
Policy Gradients
Sarsa
Q Learning
基于概率(Policy-Based RL)
Policy Gradients
基于價(jià)值(value Based RL)
Sarsa
Q Learning
Actor-Critic
基于概率做出動(dòng)作因妇,給動(dòng)作給分别惦。
回合更新(Monte-Carlo update)
基礎(chǔ)版本Policy Gradients
Monte-Carlo Learning
單步更新(Tenporal-Difference Update)
Sarsa
Q Learning
升級(jí)版本Policy Gradients
在線學(xué)習(xí)(On-Policy)
Sarsa
Sarsa(λ)
離線學(xué)習(xí)(Off-Policy)
Q Learning
Deep Q Learning
Q Learning
構(gòu)建Q表