2021 重啟強(qiáng)化學(xué)習(xí)(3) 多搖臂老虎機(jī)

020.jpg

如果想觀看相關(guān)視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發(fā)布視頻解說隔嫡,注意頭像和簡書使用頭像一致墨坚。

多搖臂老虎機(jī)

在強(qiáng)化學(xué)習(xí)中多搖臂老虎機(jī)相對比較簡單犬第,所以我們就從這個(gè)多搖臂老虎機(jī)說起峰弹,看如何將解決多搖臂老虎機(jī)的方法應(yīng)用到推薦系統(tǒng)中铅歼。一個(gè)賭徒介陶,要去搖老虎機(jī)险绘,走進(jìn)賭場一看踢京,一排老虎機(jī),外表一模一樣宦棺,但是每個(gè)老虎機(jī)吐錢的概率可不一樣瓣距,他不知道每個(gè)老虎機(jī)吐錢的概率分布是什么,那么每次該選擇哪個(gè)老虎機(jī)可以做到最大化收益呢代咸?這就是多臂老虎機(jī)問題 ( Multi-armed bandit problem, K-armed bandit problem, MAB )蹈丸。

接下來我們數(shù)學(xué)的語言簡單描述一些搖臂老虎機(jī)問題,以及如何用強(qiáng)化學(xué)習(xí)方法來解決這個(gè)問題呐芥。多搖臂老虎機(jī)是一個(gè)單一狀態(tài)的蒙特卡洛規(guī)劃逻杖,是一種序列決策的問題,這種問題是在利用(exploitation)和探索(exploration)之間保持平衡思瘟。

在多搖臂老虎機(jī)是簡單強(qiáng)化學(xué)習(xí)問題

  • 無需考慮狀態(tài)
  • 沒有延時(shí)獎(jiǎng)勵(lì)問題荸百,不會(huì)考慮當(dāng)前狀態(tài)對以后發(fā)生事情有任何影響
  • 所以就只需要學(xué)習(xí) State-Action Value 狀態(tài)行動(dòng)價(jià)值函數(shù)

在搖臂老虎機(jī)中狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)

  • 動(dòng)作: 搖哪個(gè)臂滨攻,用 A_t 表示第 t 輪的行為
    Action = (0,1,0,0)
  • 獎(jiǎng)勵(lì): 每次搖臂獲得的獎(jiǎng)金 R_t 表示 t 時(shí)刻獲取的獎(jiǎng)勵(lì)
    Reward = (0,1)
  • 狀態(tài)行動(dòng)價(jià)值函數(shù)(State-Action Value)
    Q^{*}(a) = \mathbb{E}[R_t|A_t=a]

假設(shè)搖臂 T 次够话,那么按照什么策略搖臂,才能使期望累積獎(jiǎng)勵(lì)最大铡买,當(dāng)Q^{*}(a) 已知時(shí)更鲁,每次都選擇 Q^{*}(a) 最大的 a (貪心策略)

接下來介紹幾種策略來解決搖臂老虎機(jī)問題

貪心策略

  • 一般情況下,Q^{*}(a) 對于玩家而言是未知的或具有不確定性奇钞。
  • 在玩家在第 t 輪時(shí)只能依賴于當(dāng)時(shí)對 Q^{*}(a) 估計(jì)值 Q_t(a) 進(jìn)行選擇
  • 此時(shí)澡为,貪心策略在第 t 輪選擇 Q_t(a) 最大的 a

利用和探索

利用(Exploitation)

所謂利用就是在保證過去的決策中得到最佳回報(bào),按照貪心策略進(jìn)行選擇的話景埃,也就是選擇估計(jì)的 Q_t(a) 最大的行為 a,這樣做雖然最大化即時(shí)獎(jiǎng)勵(lì)媒至,但是可能由于 Q_t(a) 只是對 q(a) 的估計(jì),估計(jì)的不確定性導(dǎo)致按照貪心策略選擇行為不一定 q^*(a) 最大的行為

探索(Exploration)

所謂探索就是寄希望在未來得到跟大的回報(bào)谷徙,選擇貪心策略之外的行為(non-greedy actions) 可能短期獎(jiǎng)勵(lì)會(huì)比較低拒啰,但是長期獎(jiǎng)勵(lì)比較高,通過探索可以找到獎(jiǎng)勵(lì)更大的行為完慧,供后續(xù)選擇谋旦。

貪心策略和 \epsilon 貪心策略

貪心策略形式化地表示
A_t = \argmax_{a} Q_t(a)

\epsilon 貪心策略
  • 以概率 1 - \epsilon 按照貪心策略進(jìn)行行為選擇
  • 以概率 \epsilon 在所有行為中隨機(jī)選擇一個(gè)
  • \epsilon 的取值取決于 q^*(a) 的方差,方差越大 \epsilon 取值應(yīng)該越大

根據(jù)歷史觀測樣本的平均值對 q^*(a) 進(jìn)行估計(jì)

Q_t(a) = \frac{\sum_{i=1}^{t-1} R_i \mathbb{I}_{A_i=\alpha}}{\sum_{i=1}^{t-1} \mathbb{I}_{A_i=\alpha}}

  • 約定: 當(dāng)分母等于 0 時(shí),Q_t(a) = 0
  • 當(dāng)分母趨于無窮大時(shí)册着,Q_t(a) 收斂于 q^*(a)

行為估值的增量式

Q_n = \frac{R_1 + R_2 + \cdots + R_{n-1}}{n-1}

  • 增量式實(shí)現(xiàn)
    \begin{aligned} Q_{n+1} = \frac{1}{n} \sum_{i=1}^n R_i\\ = \frac{1}{n} \left( R_n + \sum_{i=1}^{n-1} R_i \right)\\ = \frac{1}{n} \left( R_n + (n-1) \frac{1}{n-1} \sum_{i=1}^{n-1} R_i \right)\\ \frac{1}{n} \left( R_n + (n-1) Q_n \right)\\ \frac{1}{n} \left( R_n + nQ_n - Q_n \right)\\ Q_n + \frac{1}{n}\left[ R_n - Q_n \right] \end{aligned}

這一輪收益以及之前的均值拴孤,好處是無需每次求和。過去均值以及當(dāng)前收益就可以計(jì)算出當(dāng)前均值甲捏。而且可以看成更新就是將當(dāng)前值更新到過去的值來實(shí)現(xiàn)更新演熟。

Q_{n+1} = Q_n + \frac{1}{n}\left[ R_n - Q_n \right]

  • \frac{1}{n} 是學(xué)習(xí)率,在梯度下降中設(shè)定 \eta
  • 看起來是不是有點(diǎn)熟悉司顿,
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末芒粹,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子大溜,更是在濱河造成了極大的恐慌化漆,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猎提,死亡現(xiàn)場離奇詭異获三,居然都是意外死亡旁蔼,警方通過查閱死者的電腦和手機(jī)锨苏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來棺聊,“玉大人伞租,你說我怎么就攤上這事∠夼澹” “怎么了葵诈?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長祟同。 經(jīng)常有香客問我作喘,道長,這世上最難降的妖魔是什么晕城? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任泞坦,我火速辦了婚禮,結(jié)果婚禮上砖顷,老公的妹妹穿的比我還像新娘贰锁。我一直安慰自己,他們只是感情好滤蝠,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布豌熄。 她就那樣靜靜地躺著,像睡著了一般物咳。 火紅的嫁衣襯著肌膚如雪锣险。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音芯肤,去河邊找鬼夯接。 笑死,一個(gè)胖子當(dāng)著我的面吹牛纷妆,可吹牛的內(nèi)容都是我干的盔几。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼掩幢,長吁一口氣:“原來是場噩夢啊……” “哼逊拍!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起际邻,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤芯丧,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后世曾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體缨恒,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年轮听,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了骗露。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡血巍,死狀恐怖萧锉,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情述寡,我是刑警寧澤柿隙,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站鲫凶,受9級特大地震影響禀崖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜螟炫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一波附、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧不恭,春花似錦叶雹、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至沾瓦,卻和暖如春满着,著一層夾襖步出監(jiān)牢的瞬間谦炒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工风喇, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留宁改,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓魂莫,卻偏偏與公主長得像还蹲,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子耙考,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容