1.強(qiáng)化學(xué)習(xí)中的basic elements:
policy --相當(dāng)與環(huán)境和動作之間的一個映射,在給定的state下執(zhí)行何種action是由policy決定的。policy的所有可能組成一個policy空間幔烛,優(yōu)化目標(biāo)就是在這個巨大的空間中,學(xué)習(xí)到某一種最優(yōu)的policy。
reward function -- 也可以看成是一個映射隐解,關(guān)于當(dāng)前的動作,或者當(dāng)前環(huán)境和當(dāng)前動作的pair的好不好的一個評價(jià)诫睬。屬于立即評價(jià)煞茫,只考慮當(dāng)前這一步的好壞。
value function -- 和上面的reward function對比著看摄凡,這一步考慮的是當(dāng)前環(huán)境狀態(tài)的長遠(yuǎn)優(yōu)勢续徽,也就是以當(dāng)前狀態(tài)為起點(diǎn),以后的多個時間點(diǎn)之后的各個狀態(tài)的reward之和亲澡。如何更好的估計(jì)這個值钦扭,是幾乎所有增強(qiáng)學(xué)習(xí)問題的解決重點(diǎn)和難點(diǎn)。這個也是如何評定一個policy好壞的標(biāo)準(zhǔn)床绪。也是把增加學(xué)習(xí)和evoluation method (例如遺傳算法)區(qū)別開的地方客情。
model of environment -- 對環(huán)境的建模。這個模型有點(diǎn)預(yù)測環(huán)境的走向的意思癞己。比如膀斋,假如我有了這個模型,我可以知道在當(dāng)下的環(huán)境下痹雅,下一步的環(huán)境狀態(tài)和reward是什么仰担。這樣,我就不必去真實(shí)的走這一步绩社,就已經(jīng)知道結(jié)果了摔蓝,也就是不用非得試錯了。這是個新的發(fā)展方向愉耙。
關(guān)于evolution method 要多說點(diǎn):它和強(qiáng)化學(xué)習(xí)的區(qū)別在于项鬼,它不利用任何你的過程信息,只使用結(jié)果劲阎。比如我采用某一個policy,我就用這固定的policy和環(huán)境進(jìn)行多次實(shí)驗(yàn)绘盟,看看最后的結(jié)果概率分布,然后知道這個policy有多大概率贏悯仙。然后換下一個龄毡,繼續(xù)大量實(shí)驗(yàn)。最后在policy空間里找到一個最優(yōu)的锡垄。它的缺點(diǎn)是忽略了大量的實(shí)驗(yàn)過程信息沦零,也即根本沒有考慮到value function。