強(qiáng)化學(xué)習(xí)基礎(chǔ)篇(三十五)探索與利用(Exploration and Exploitation)

強(qiáng)化學(xué)習(xí)基礎(chǔ)篇(三十五)探索與利用(Exploration and Exploitation)

1、探索與利用簡(jiǎn)介

在強(qiáng)化學(xué)習(xí)中,探索(Exploration )的目的是找到更多有關(guān)環(huán)境的信息峻贮,而利用(Exploitation)的目的是利用已知的環(huán)境信息來(lái)最大限度地提高獎(jiǎng)勵(lì)端盆。簡(jiǎn)而言之,探索是嘗試還未嘗試過(guò)的動(dòng)作行為砸脊,而利用則是從已知?jiǎng)幼髦羞x擇下一步的動(dòng)作是偷。

探索與利用之間的如何權(quán)衡拳氢,是強(qiáng)化學(xué)習(xí)的一個(gè)基本的問(wèn)題募逞。例如在很多情況,為了獲得最佳的長(zhǎng)期策略馋评,可能需要做一些短期的犧牲放接。為了能夠獲得最佳的總體策略,往往需要收集到更多的信息留特。

有幾種方式可以達(dá)到探索的目的:

  • 第一種是樸素探索(Naive Exploration)纠脾,類似\epsilon?greedy算法在一定概率基礎(chǔ)下隨機(jī)選擇一些action。
  • 第二種是樂(lè)觀初始估計(jì)(Optimistic Initialization)蜕青,優(yōu)先選擇當(dāng)前被認(rèn)為是最高價(jià)值的行為苟蹈,除非新信息的獲取推翻了該行為具有最高價(jià)值這一認(rèn)知;
  • 第三種是不確定優(yōu)先(Optimism in the Face of Uncertainty):右核,更加傾向選擇更加具有不確定性的狀態(tài)/動(dòng)作慧脱,這種方法就需要一種方法來(lái)衡量這種不確定性
  • 第四種是概率匹配(Probability Matching): 根據(jù)當(dāng)前估計(jì)的概率分布采樣行為;
  • 第五種是信息狀態(tài)搜索(Information State Search)蒙兰,將已探索的信息作為狀態(tài)的一部分聯(lián)合個(gè)體的狀態(tài)組成新的狀態(tài)磷瘤,以新?tīng)顟B(tài)為基礎(chǔ)進(jìn)行前向探索芒篷。

根據(jù)搜索過(guò)程中使用的數(shù)據(jù)結(jié)構(gòu)搜变,可以將搜索分為:

  • 依據(jù)狀態(tài)行為空間的探索(State-Action Exploration),其針對(duì)每一個(gè)當(dāng)前的狀態(tài)针炉,以一定的算法嘗試之前該狀態(tài)下沒(méi)有嘗試過(guò)的行為挠他。

  • 參數(shù)化搜索(Parameter Exploration)。直接針對(duì)策略的函數(shù)近似篡帕,此時(shí)策略用各種形式的參數(shù)表達(dá)殖侵,探索即表現(xiàn)為嘗試不同的參數(shù)設(shè)置。

    其優(yōu)點(diǎn)是:得到基于某一策略的一段持續(xù)性的行為镰烧;

    其缺點(diǎn)是:對(duì)個(gè)體曾經(jīng)到過(guò)的狀態(tài)空間毫無(wú)記憶拢军,也就是個(gè)體也許會(huì)進(jìn)入一個(gè)之前曾經(jīng)進(jìn)入過(guò)的狀態(tài)而并不知道其曾到過(guò)該狀態(tài),不能利用已經(jīng)到過(guò)這個(gè)狀態(tài)這個(gè)信息怔鳖。

為了較簡(jiǎn)單的描述各類搜索的原理茉唉,下一節(jié)將使用一種與狀態(tài)無(wú)關(guān)的Bandit來(lái)進(jìn)行講解。

2结执、與狀態(tài)無(wú)關(guān)的k-bandit問(wèn)題

k-bandit問(wèn)題考慮的是如下的學(xué)習(xí)問(wèn)題:你要重復(fù)地在k個(gè)選項(xiàng)或者動(dòng)作中進(jìn)行選擇度陆。每次做出選擇后,都會(huì)得到一定數(shù)值的收益献幔,收益由你選擇的動(dòng)作決定的平穩(wěn)概率分布產(chǎn)生懂傀。目標(biāo)是在某一段時(shí)間內(nèi)最大化總收益的期望。

image.png

該問(wèn)題定義是:

  • multi-bandit可以看成是由行為空間和獎(jiǎng)勵(lì)組成的元組<A,R>蜡感,動(dòng)作空間A是m個(gè)動(dòng)作(即每個(gè)arms)蹬蚁,每一個(gè)行為對(duì)應(yīng)拉下某一個(gè)拉桿恃泪。獎(jiǎng)勵(lì)\mathcal{R}^{a}(r)=\mathbb{P}[r \mid a]是未知的概率分布
  • 在每個(gè)時(shí)間步t,智能體會(huì)選擇動(dòng)作a_t \in A缚忧,然后環(huán)境將生成獎(jiǎng)勵(lì) r_t \sim R^{a_t}悟泵, 目標(biāo)為最大化累計(jì)收益\sum_{T-1}^{t}r_{\tau}

3闪水、后悔值(Regret)

為了方便描述問(wèn)題糕非,我們先給出幾個(gè)定義:

  • action-value

    一個(gè)行為的價(jià)值等于該行為能得到的即時(shí)獎(jiǎng)勵(lì)期望,即該行為得到的所有即時(shí)獎(jiǎng)勵(lì)的平均值球榆。
    Q(a)=E[r|a]

  • optimal value

    我們能夠事先知道哪一個(gè)bandit能夠給出最大即時(shí)獎(jiǎng)勵(lì)朽肥,那我們可以每次只選擇對(duì)應(yīng)的那個(gè)拉桿。如果用V^*表示這個(gè)最優(yōu)價(jià)值持钉,a^*表示能夠帶來(lái)最優(yōu)價(jià)值的行為衡招,則:
    V^{*}=Q\left(a^{*}\right)=\max _{a \in \mathcal{A}} Q(a)

  • Regret

    事實(shí)上我們不可能事先知道拉下哪個(gè)拉桿能帶來(lái)最高獎(jiǎng)勵(lì),因此每一次拉桿獲得的即時(shí)獎(jiǎng)勵(lì)可能都與最優(yōu)價(jià)值V^*存在一定的差距每强,我們定義這個(gè)差距為后悔值(regret):
    l_{t}=\mathbb{E}\left[V^{*}-Q\left(a_{t}\right)\right]

  • Total Regret

    每做出一個(gè)行為始腾,都會(huì)產(chǎn)生一個(gè)后悔值,因此隨著持續(xù)的拉桿行為,將所有的后悔值加起來(lái)空执,形成總后悔值(Total Regret)
    L_{t}=\mathbb{E}\left[\sum_{\tau=1}^{t} V^{*}-Q\left(a_{\tau}\right)\right]

這樣浪箭,最大化累計(jì)獎(jiǎng)勵(lì)的問(wèn)題就可以轉(zhuǎn)化為最小化總后悔值了。之所以這樣轉(zhuǎn)換辨绊,是為了描述問(wèn)題的方便奶栖,在隨后的講解中可以看到,較好的算法可以控制后悔值的增加速度门坷。而用最大化累計(jì)獎(jiǎng)勵(lì)描述問(wèn)題不夠方便直觀宣鄙。

4、Regret的推導(dǎo)

從另一個(gè)角度重寫(xiě)總后悔值默蚌。定義N_t(a)為到t時(shí)刻時(shí)已執(zhí)行行為A的次數(shù)冻晤,定義差距(gap)\Delta a為最優(yōu)動(dòng)作a^*與行為a之間的差。那么總后悔值可以這樣推導(dǎo):
\begin{aligned} L_{t} &=\mathbb{E}\left[\sum_{\tau=1}^{t} V^{*}-Q\left(a_{\tau}\right)\right] \\ &=\sum_{a \in \mathcal{A}} \mathbb{E}\left[N_{t}(a)\right]\left(V^{*}-Q(a)\right) \\ &=\sum_{a \in \mathcal{A}} \mathbb{E}\left[N_{t}(a)\right] \Delta_{a} \end{aligned}
這相當(dāng)于把個(gè)行為的差距與該行為發(fā)生的次數(shù)乘起來(lái)绸吸,隨后把行為空間的所有行為的這個(gè)乘積再相加得到鼻弧,只不過(guò)這里是期望。

把總后悔值用計(jì)數(shù)和差距描述可以使我們理解到一個(gè)好的算法應(yīng)該盡量減少那些差距較大的行為的次數(shù)惯裕。不過(guò)我們并不知道這個(gè)差距具體是多少温数,因?yàn)楦鶕?jù)定義雖然最優(yōu)價(jià)值V^*和每個(gè)行為的差距(gap)\Delta a為靜態(tài)的,但我們并不清楚這兩者的具體數(shù)值蜻势,我們所能使用的信息就是每次行為帶來(lái)的即時(shí)獎(jiǎng)勵(lì) r撑刺。那么我們?nèi)绾卫妹看涡袨榈募磿r(shí)獎(jiǎng)勵(lì)呢?

我們使用每次的即時(shí)獎(jiǎng)勵(lì)來(lái)計(jì)算得到t時(shí)刻止某一行為的平均價(jià)值:
\hat{Q}_{t}(a)=\frac{1}{N_{t}(a)} \sum_{t=1}^{T} r_{t} \mathbf{1}\left(a_{t}=a\right)
這個(gè)方法也叫蒙特卡羅評(píng)估, 以此來(lái)近似該行為的實(shí)際價(jià)值 Q(a): \hat{Q}_{t}(a) \approx Q(a)

5握玛、Total Regret的直觀理解

我們先直觀了解下不同形式的隨機(jī)策略其總后悔值隨著時(shí)間的變化曲線:

image.png

(1)對(duì)于\epsilon?greedy探索方法够傍,總后悔值會(huì)呈線性增長(zhǎng)甫菠,這是一個(gè)好的算法所不能接受的冕屯。這是因?yàn)槊恳粋€(gè)時(shí)間步寂诱,該探索方法有一定的幾率選擇最優(yōu)行為,但同樣也有一個(gè)固定小的幾率采取完全隨機(jī)的行為安聘,如采取隨機(jī)行為痰洒,那將一直會(huì)帶來(lái)一定后悔值,如果持續(xù)以雖小但卻固定的幾率采取隨機(jī)行為浴韭,那么總的后悔值會(huì)一直遞增丘喻,導(dǎo)致呈現(xiàn)與時(shí)間之間的線性關(guān)系。類似的softmax探索方法與此類似念颈。

(2)對(duì)于greedy探索方法泉粉,其總后悔值也是線性的,這是因?yàn)樵撎剿鞣椒ǖ男袨檫x擇可能會(huì)鎖死在一個(gè)不是最佳的行為上榴芳。

(3)目標(biāo)就是找到一種探索方法嗡靡,使用該探索方法時(shí)隨著時(shí)間的推移其總后悔值增加得越來(lái)越少,后續(xù)將依次介紹幾種較好的探索方法窟感。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末讨彼,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子肌括,更是在濱河造成了極大的恐慌点骑,老刑警劉巖酣难,帶你破解...
    沈念sama閱讀 216,843評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谍夭,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡憨募,警方通過(guò)查閱死者的電腦和手機(jī)紧索,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)菜谣,“玉大人珠漂,你說(shuō)我怎么就攤上這事∥膊玻” “怎么了媳危?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,187評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)冈敛。 經(jīng)常有香客問(wèn)我待笑,道長(zhǎng),這世上最難降的妖魔是什么抓谴? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,264評(píng)論 1 292
  • 正文 為了忘掉前任暮蹂,我火速辦了婚禮寞缝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘仰泻。我一直安慰自己荆陆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,289評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布集侯。 她就那樣靜靜地躺著被啼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪棠枉。 梳的紋絲不亂的頭發(fā)上趟据,一...
    開(kāi)封第一講書(shū)人閱讀 51,231評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音术健,去河邊找鬼汹碱。 笑死,一個(gè)胖子當(dāng)著我的面吹牛荞估,可吹牛的內(nèi)容都是我干的咳促。 我是一名探鬼主播,決...
    沈念sama閱讀 40,116評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼勘伺,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼跪腹!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起飞醉,我...
    開(kāi)封第一講書(shū)人閱讀 38,945評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤冲茸,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后缅帘,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體轴术,經(jīng)...
    沈念sama閱讀 45,367評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,581評(píng)論 2 333
  • 正文 我和宋清朗相戀三年钦无,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了逗栽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,754評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡失暂,死狀恐怖彼宠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情弟塞,我是刑警寧澤凭峡,帶...
    沈念sama閱讀 35,458評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站决记,受9級(jí)特大地震影響摧冀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,068評(píng)論 3 327
  • 文/蒙蒙 一按价、第九天 我趴在偏房一處隱蔽的房頂上張望惭适。 院中可真熱鬧,春花似錦楼镐、人聲如沸癞志。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,692評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)凄杯。三九已至,卻和暖如春秉宿,著一層夾襖步出監(jiān)牢的瞬間戒突,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,842評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工描睦, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留膊存,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,797評(píng)論 2 369
  • 正文 我出身青樓忱叭,卻偏偏與公主長(zhǎng)得像隔崎,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子韵丑,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,654評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容