TASK1

基本概念
1、策略Policy
Policy是智能體的行為函數(shù),是一個從狀態(tài)到動作的映射朴肺,它告訴智能體如何挑選下一個action。
強化學習中有兩類policy: Deterministic policy和Stochastic policy坚洽。前一種又稱確定性策略戈稿,即對于這個映射,輸入一個狀態(tài)讶舰,輸出的是某一個確定的action鞍盗。后一種是不確定性策略,即對于這個映射跳昼,輸入一個狀態(tài)般甲,輸出的是每個action的概率。

2鹅颊、Episode
一個Episode由一系列的observation, reward, action組成敷存。 ( O 1 , A 1 , R 2 , . . . , O T ? 1 , A T ? 1 , R T , O T ) (O_1, A_1, R_2, ..., O_{T-1}, A_{T-1}, R_T, O_T) (O1?,A1?,R2?,...,OT?1?,AT?1?,RT?,OT?) 從initial observation到terminal observation。

3堪伍、獎勵Reward
獎勵 (R_t)是一個反饋信號锚烦,是一個數(shù)值觅闽,表明這個智能體在step t 時做得有多好。

4涮俄、Return
又稱累積折扣獎勵(cumulative discounted reward)蛉拙。step t 時的return為 G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... Gt?=Rt+1?+γRt+2?+γ2Rt+3?+... 其中 ( γ ) (\gamma) (γ)表示折扣因子,表示你對之后得到的reward的重視程度禽拔。 ( 0 < = γ < = 1 ) (0<=\gamma<=1) (0<=γ<=1)刘离,是一個由用戶決定的參數(shù)。

智能體的任務就是去最大化累積獎勵睹栖。然而由上面的式子我們可以看出,一條樣本(即一個episode)對應一個Return茧痕,而episode是不確定的野来,有很多種可能發(fā)生的情況,因此Return是一個變量踪旷。

由此智能體的任務是最大化累積獎勵的期望曼氛,即下面的值函數(shù)。

5令野、值函數(shù)Value Function
一個狀態(tài)state s對應的值函數(shù)為 V π ( s ) = E π ( G t ∣ S t = s ) V_\pi(s) = E_\pi(G_t | S_t = s) Vπ?(s)=Eπ?(Gt?∣St?=s)這種值函數(shù)也稱狀態(tài)值函數(shù)舀患。對給定的s, V(s)是一個確定的值。它表示气破,從state s開始聊浅,遵循策略(\pi)時的return的期望值。
還有一種值函數(shù)稱為狀態(tài)動作值函數(shù): Q π ( s , a ) = E π ( G t ∣ S t = s , A t = a ) Q_\pi(s, a) = E_\pi(G_t | S_t = s, A_t = a) Qπ?(s,a)=Eπ?(Gt?∣St?=s,At?=a)它表示现使,從state s開始低匙, 采取動作a,遵循策略(\pi)時的return的期望值碳锈。

Q:強化學習的基本結(jié)構(gòu)是什么顽冶?
A:基本結(jié)構(gòu)是智能體(agent)和一個復雜不確定的環(huán)境(environment)之間的交互。
當Agent在Environment中得到當前時刻的State售碳,Agent會基于此狀態(tài)輸出一個Action强重。然后這個Action會加入到Environment中去并輸出下一個State和當前的這個Action得到的Reward。
強化學習討論的問題是一個 智能體(agent) 怎么在一個復雜不確定的環(huán)境(environment)里面去極大化它能獲得的獎勵贸人。

Q:強化學習相對于監(jiān)督學習為什么訓練會更加困難间景?(強化學習的特征)
A:在強化學習過程中,沒有非常強的 supervisor灸姊,只有一個獎勵信號(reward signal)拱燃,就是環(huán)境會在很久以后告訴你之前你采取的行為到底是不是有效的。Agent 在這個強化學習里面學習的話就非常困難力惯,因為你沒有得到即時反饋碗誉。

Q:近幾年強化學習發(fā)展迅速的原因召嘶?
A:計算機硬件以及算力方面的提升,我們可以更快地做更多的 trial-and-error 的嘗試來使得Agent在Environment里面獲得很多信息哮缺,取得更大的Reward弄跌。
通過這種不同嘗試使得 agent 在這個環(huán)境里面獲得很多信息,然后可以在這個環(huán)境里面取得很大的獎勵尝苇。
我們有了這個端到端的一個訓練铛只,可以把特征提取和價值估計或者決策一塊來優(yōu)化,這樣就可以得到了一個更強的決策網(wǎng)絡糠溜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末淳玩,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子非竿,更是在濱河造成了極大的恐慌蜕着,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件红柱,死亡現(xiàn)場離奇詭異承匣,居然都是意外死亡,警方通過查閱死者的電腦和手機锤悄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進店門韧骗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人零聚,你說我怎么就攤上這事袍暴。” “怎么了握牧?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵容诬,是天一觀的道長。 經(jīng)常有香客問我沿腰,道長览徒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任颂龙,我火速辦了婚禮习蓬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘措嵌。我一直安慰自己躲叼,他們只是感情好,可當我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布企巢。 她就那樣靜靜地躺著枫慷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上或听,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天探孝,我揣著相機與錄音,去河邊找鬼誉裆。 笑死顿颅,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的足丢。 我是一名探鬼主播粱腻,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼斩跌!你這毒婦竟也來了绍些?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤耀鸦,失蹤者是張志新(化名)和其女友劉穎遇革,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體揭糕,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年锻霎,在試婚紗的時候發(fā)現(xiàn)自己被綠了著角。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡旋恼,死狀恐怖吏口,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情冰更,我是刑警寧澤产徊,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站蜀细,受9級特大地震影響舟铜,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜奠衔,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一谆刨、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧归斤,春花似錦痊夭、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春番舆,著一層夾襖步出監(jiān)牢的瞬間酝碳,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工合蔽, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留击敌,地道東北人。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓拴事,卻偏偏與公主長得像沃斤,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子刃宵,可洞房花燭夜當晚...
    茶點故事閱讀 43,728評論 2 351