Q-learning算法

利用網(wǎng)上的一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明Q-learning算法奴曙。

假設(shè)在一個(gè)建筑物中我們有五個(gè)房間由驹,這五個(gè)房間通過(guò)門相連接募疮,如下圖所示:將房間從0-4編號(hào)炫惩,外面可以認(rèn)為是一個(gè)大房間,編號(hào)為5.注意到1阿浓、4房間和5是相通的他嚷。


每個(gè)節(jié)點(diǎn)代表一個(gè)房間,每個(gè)連接代表一個(gè)門。


對(duì)這個(gè)例子來(lái)說(shuō)筋蓖,我們可以把Agent放到任何一個(gè)房間中卸耘,然后從這個(gè)房間走出這個(gè)建筑物(這就是我們的目標(biāo)房間,即房間5)粘咖。為了把5號(hào)房間設(shè)成目標(biāo)房間蚣抗,我們?yōu)槊恳簧乳T(節(jié)點(diǎn)之間的連接線)分配一個(gè)回報(bào)值。直接通向目標(biāo)的門的回報(bào)值為100瓮下,沒(méi)有與目標(biāo)房間直接相連的其他門的回報(bào)值為0翰铡。因?yàn)殚T都是雙向的(0可以到4,4也可以到0),因此每個(gè)門由兩個(gè)箭頭來(lái)表示讽坏。每個(gè)箭頭都有有一個(gè)立即回報(bào)值锭魔,如下所示:


當(dāng)然,從房間5到房間5自身的回報(bào)值應(yīng)該是100路呜。而所有直接通向這個(gè)目標(biāo)房間的連接線的回報(bào)值為100赂毯。在Q-Learning中,目標(biāo)就是要到達(dá)有最高回報(bào)值的狀態(tài)拣宰。所以如果Agent到達(dá)了目標(biāo)党涕,它就會(huì)一直在那。這種類型的目標(biāo)被稱為吸收目標(biāo)(absorbing goal)巡社。

想象一下膛堤,我們的Agent是一個(gè)不會(huì)說(shuō)話的虛擬機(jī)器人,但是它可以從經(jīng)驗(yàn)中學(xué)習(xí)晌该。Agent可以從一個(gè)房間走到另一個(gè)房間但是對(duì)于周圍的環(huán)境沒(méi)有任何了解肥荔,不知道哪一種門的順序可以把它帶到外面。

假設(shè)我們要為一個(gè)Agent從這個(gè)建筑物中任何一個(gè)房間撤離出去來(lái)簡(jiǎn)單建模朝群,假設(shè)我們有一個(gè)Agent在房間2中燕耿,我們想讓這個(gè)Agent學(xué)著到達(dá)這個(gè)建筑物的外面。


Q-Learning中的術(shù)語(yǔ)包括狀態(tài)(state)和動(dòng)作(action)姜胖。

我們稱包括建筑物外面的所有房間為狀態(tài)誉帅,Agent從一個(gè)房間到另一個(gè)房間的移動(dòng)為動(dòng)作,在圖中右莱,一個(gè)狀態(tài)被畫成一個(gè)節(jié)點(diǎn)蚜锨,而一個(gè)動(dòng)作被箭頭表示出來(lái)。


假設(shè)Agent是在2號(hào)房間(狀態(tài)2)中慢蜓,那么它可以從2號(hào)房間走到3號(hào)房間亚再,因?yàn)樗麄兪窍嗤ǖ摹6鴱?號(hào)房間Agent不能直接走到1號(hào)房間晨抡,因?yàn)闆](méi)有一個(gè)門(所以沒(méi)有箭頭)直接把1號(hào)和2號(hào)房間連接起來(lái)氛悬。從狀態(tài)3.它可以走到狀態(tài)1,4则剃,或者回到2(注意看與狀態(tài)3相關(guān)的所有箭頭)。如果Agent是在狀態(tài)4如捅,那么它所有可能的動(dòng)作是走向狀態(tài)0,5或者3棍现。如果它在狀態(tài)1,那么它可以到達(dá)狀態(tài)3或者狀態(tài)5伪朽,從狀態(tài)0,它只可以回到狀態(tài)4汛蝙。

我們可以把狀態(tài)圖和即時(shí)回報(bào)值填入下面的回報(bào)表中烈涮,即R矩陣


上圖中-1代表空值,比如兩個(gè)狀態(tài)之間沒(méi)有箭頭窖剑。

現(xiàn)在我們添加一個(gè)相似的矩陣坚洽,“Q”,到我們Agent的大腦中西土,這個(gè)矩陣代表了Agent通過(guò)經(jīng)驗(yàn)所學(xué)到的讶舰,Q矩陣的行代表Agent的當(dāng)前狀態(tài),Q矩陣的列代表了可能到達(dá)下一狀態(tài)的動(dòng)作(即狀態(tài)之間的箭頭)需了。

Q-Learning的轉(zhuǎn)換規(guī)則方程:


γ值在0到1之間變化(0<=γ<1),如果γ值接近0跳昼,Agent傾向于只考慮立即回報(bào)值;如果γ值接近1肋乍,Agent將以更大的權(quán)重去考慮未來(lái)回報(bào)值鹅颊,愿意將回報(bào)延后。

Agent僅僅是跟蹤從起始狀態(tài)到目標(biāo)狀態(tài)的狀態(tài)序列來(lái)使用矩陣Q墓造。這個(gè)算法在矩陣Q中為當(dāng)前狀態(tài)找到有最高回報(bào)值的下一步動(dòng)作堪伍。


實(shí)例:

初始化Q矩陣為一個(gè)零矩陣,參數(shù)伽馬r=0.8觅闽,隨機(jī)初始狀態(tài)為房間1


從R矩陣可以看出有兩個(gè)非負(fù)值帝雇,即從房間(狀態(tài))1到房間(狀態(tài))3或者從房間(狀態(tài))1到房間(狀態(tài))5,隨機(jī)選取從1到5.

根據(jù)公式1.1

此時(shí)狀態(tài)5變?yōu)楫?dāng)前狀態(tài)蛉拙,因?yàn)闋顟B(tài)5就是目標(biāo)狀態(tài)尸闸,故以此episode結(jié)束,刷新Q表



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末孕锄,一起剝皮案震驚了整個(gè)濱河市室叉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌硫惕,老刑警劉巖茧痕,帶你破解...
    沈念sama閱讀 217,406評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異恼除,居然都是意外死亡踪旷,警方通過(guò)查閱死者的電腦和手機(jī)曼氛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)令野,“玉大人舀患,你說(shuō)我怎么就攤上這事∑疲” “怎么了聊浅?”我有些...
    開封第一講書人閱讀 163,711評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)现使。 經(jīng)常有香客問(wèn)我低匙,道長(zhǎng),這世上最難降的妖魔是什么碳锈? 我笑而不...
    開封第一講書人閱讀 58,380評(píng)論 1 293
  • 正文 為了忘掉前任顽冶,我火速辦了婚禮,結(jié)果婚禮上售碳,老公的妹妹穿的比我還像新娘强重。我一直安慰自己,他們只是感情好贸人,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評(píng)論 6 392
  • 文/花漫 我一把揭開白布间景。 她就那樣靜靜地躺著,像睡著了一般艺智。 火紅的嫁衣襯著肌膚如雪拱燃。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評(píng)論 1 301
  • 那天力惯,我揣著相機(jī)與錄音碗誉,去河邊找鬼。 笑死父晶,一個(gè)胖子當(dāng)著我的面吹牛哮缺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播甲喝,決...
    沈念sama閱讀 40,145評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼尝苇,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了埠胖?” 一聲冷哼從身側(cè)響起糠溜,我...
    開封第一講書人閱讀 39,008評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎直撤,沒(méi)想到半個(gè)月后非竿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谋竖,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評(píng)論 3 334
  • 正文 我和宋清朗相戀三年红柱,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了承匣。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锤悄,死狀恐怖韧骗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情零聚,我是刑警寧澤袍暴,帶...
    沈念sama閱讀 35,501評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站隶症,受9級(jí)特大地震影響政模,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜沿腰,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評(píng)論 3 328
  • 文/蒙蒙 一览徒、第九天 我趴在偏房一處隱蔽的房頂上張望狈定。 院中可真熱鬧颂龙,春花似錦、人聲如沸纽什。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)芦缰。三九已至企巢,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間让蕾,已是汗流浹背浪规。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留探孝,地道東北人笋婿。 一個(gè)月前我還...
    沈念sama閱讀 47,899評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像顿颅,于是被迫代替她去往敵國(guó)和親缸濒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容