如果想觀看相關(guān)視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發(fā)布視頻解說隔嫡,注意頭像和簡書使用頭像一致墨坚。
多搖臂老虎機(jī)
在強(qiáng)化學(xué)習(xí)中多搖臂老虎機(jī)相對比較簡單犬第,所以我們就從這個(gè)多搖臂老虎機(jī)說起峰弹,看如何將解決多搖臂老虎機(jī)的方法應(yīng)用到推薦系統(tǒng)中铅歼。一個(gè)賭徒介陶,要去搖老虎機(jī)险绘,走進(jìn)賭場一看踢京,一排老虎機(jī),外表一模一樣宦棺,但是每個(gè)老虎機(jī)吐錢的概率可不一樣瓣距,他不知道每個(gè)老虎機(jī)吐錢的概率分布是什么,那么每次該選擇哪個(gè)老虎機(jī)可以做到最大化收益呢代咸?這就是多臂老虎機(jī)問題 ( Multi-armed bandit problem, K-armed bandit problem, MAB )蹈丸。
接下來我們數(shù)學(xué)的語言簡單描述一些搖臂老虎機(jī)問題,以及如何用強(qiáng)化學(xué)習(xí)方法來解決這個(gè)問題呐芥。多搖臂老虎機(jī)是一個(gè)單一狀態(tài)的蒙特卡洛規(guī)劃逻杖,是一種序列決策的問題,這種問題是在利用(exploitation)和探索(exploration)之間保持平衡思瘟。
在多搖臂老虎機(jī)是簡單強(qiáng)化學(xué)習(xí)問題
- 無需考慮狀態(tài)
- 沒有延時(shí)獎(jiǎng)勵(lì)問題荸百,不會(huì)考慮當(dāng)前狀態(tài)對以后發(fā)生事情有任何影響
- 所以就只需要學(xué)習(xí) State-Action Value 狀態(tài)行動(dòng)價(jià)值函數(shù)
在搖臂老虎機(jī)中狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)
-
動(dòng)作: 搖哪個(gè)臂滨攻,用 表示第 輪的行為
-
獎(jiǎng)勵(lì): 每次搖臂獲得的獎(jiǎng)金 表示 t 時(shí)刻獲取的獎(jiǎng)勵(lì)
-
狀態(tài)行動(dòng)價(jià)值函數(shù)(State-Action Value)
假設(shè)搖臂 次够话,那么按照什么策略搖臂,才能使期望累積獎(jiǎng)勵(lì)最大铡买,當(dāng) 已知時(shí)更鲁,每次都選擇 最大的 (貪心策略)
接下來介紹幾種策略來解決搖臂老虎機(jī)問題
貪心策略
- 一般情況下, 對于玩家而言是未知的或具有不確定性奇钞。
- 在玩家在第 輪時(shí)只能依賴于當(dāng)時(shí)對 估計(jì)值 進(jìn)行選擇
- 此時(shí)澡为,貪心策略在第 輪選擇 最大的
利用和探索
利用(Exploitation)
所謂利用就是在保證過去的決策中得到最佳回報(bào),按照貪心策略進(jìn)行選擇的話景埃,也就是選擇估計(jì)的 最大的行為 ,這樣做雖然最大化即時(shí)獎(jiǎng)勵(lì)媒至,但是可能由于 只是對 的估計(jì),估計(jì)的不確定性導(dǎo)致按照貪心策略選擇行為不一定 最大的行為
探索(Exploration)
所謂探索就是寄希望在未來得到跟大的回報(bào)谷徙,選擇貪心策略之外的行為(non-greedy actions) 可能短期獎(jiǎng)勵(lì)會(huì)比較低拒啰,但是長期獎(jiǎng)勵(lì)比較高,通過探索可以找到獎(jiǎng)勵(lì)更大的行為完慧,供后續(xù)選擇谋旦。
貪心策略和 貪心策略
貪心策略形式化地表示
貪心策略
- 以概率 按照貪心策略進(jìn)行行為選擇
- 以概率 在所有行為中隨機(jī)選擇一個(gè)
- 的取值取決于 的方差,方差越大 取值應(yīng)該越大
根據(jù)歷史觀測樣本的平均值對 進(jìn)行估計(jì)
- 約定: 當(dāng)分母等于 0 時(shí),
- 當(dāng)分母趨于無窮大時(shí)册着, 收斂于
行為估值的增量式
- 增量式實(shí)現(xiàn)
這一輪收益以及之前的均值拴孤,好處是無需每次求和。過去均值以及當(dāng)前收益就可以計(jì)算出當(dāng)前均值甲捏。而且可以看成更新就是將當(dāng)前值更新到過去的值來實(shí)現(xiàn)更新演熟。
- 是學(xué)習(xí)率,在梯度下降中設(shè)定
- 看起來是不是有點(diǎn)熟悉司顿,