2.4 增量實現(xiàn) & 2.5 解決一個非平穩(wěn)問題

2.4?Incremental Implementation

背景:目前的行動價值方法都將行動價值估計為觀察到的獎勵的樣本平均值。現(xiàn)在轉(zhuǎn)向如何以計算上有效率的方式計算這些平均值的問題涯竟,特別是使用恒定內(nèi)存和恒定每時間步計算空厌。

為了簡化符號嘲更,我們將注意力集中在一個動作上赋朦。以R_{i} 表示此第i次選擇的行動獎勵李破,使用Q_{n} 表示其在被選擇n-1次后的(平均)估計價值壹将,可以將其寫成:

Q_{n} =\frac{R_{1} +R_{2} +...R_{n-1} }{{n-1}}

優(yōu)點:保留所有獎勵的記錄,然后在需要估計值時執(zhí)行此計算屯曹。

缺點:隨著時間的推移惊畏,內(nèi)存和計算需求會隨著回報的增加而增加密任。每一個額外的獎勵都需要額外的內(nèi)存來存儲,并需要額外的計算來計算分子中的總和缰盏。

正如您可能懷疑的那樣淹遵,這并不是真正必要的透揣。設(shè)計用于更新平均值的增量公式是很容易的辐真,因為處理每一個新獎勵所需的計算量較小且恒定。給定Q_{n} R_{n} 耐床,n種獎勵平均值新公式為:?

式2.3 即使對于n=1,該值為偶數(shù)昧廷,對于任意Q1麸粮,得到Q2=R1

這個實現(xiàn)只需要Qn和n的內(nèi)存,每個新獎勵只需要少量的計算(上式2.3)愚战。下一頁的框中顯示了使用增量計算樣本平均值和ε-貪婪操作選擇的完整bandit算法的偽代碼。假定函數(shù)bandit(a)采取行動并返回相應(yīng)的獎勵寂玲。

更新規(guī)則(2.3)的形式在本書中經(jīng)常出現(xiàn)塔插。

一般形式是:

NewEstimate\leftarrow OldEstimate+StepSize[Target-OldEstimate].(2.4)

表達式[Target-OldEstimate]在估計中是一個誤差(error),通過向“目標(biāo)”邁出一步想许,它就會減少雖然目標(biāo)可能有噪聲,但假定目標(biāo)指示理想的移動方向断序。例如,在上述情況下违诗,目標(biāo)是第n個獎勵漱凝。

請注意诸迟,在上述增量方法中使用的步長參數(shù)(步長)會隨著時間步長的變化而變化茸炒。在處理動作a的第n個獎勵時,該方法使用步長參數(shù)\frac{1}{n} ,本書中阵苇,我們用α表示步長參數(shù)壁公,或者更一般地用\alpha _{t}(a),當(dāng)\alpha _{t}(a)=1/n時绅项,我們有時使用非正式的速記α=1/n紊册,使n對動作的依賴性隱式存在湿硝,正如我們在本節(jié)中所做的那樣关斜。

2.5?Tracking a Nonstationary Problem

背景:迄今為止討論的平均方法適用于平穩(wěn)的bandit問題痢畜,即報酬概率不隨時間變化的bandit問題。遇到的強化學(xué)習(xí)問題丁稀,實際上是非平穩(wěn)的线衫。在這種情況下,對最近的獎勵給予更多的重視比對很久以前的獎勵給予更多的權(quán)重是有道理的惑折。

常用的方法之一:恒定步長參數(shù)授账,即常數(shù)。

例如敛助,增量更新規(guī)則(2.3)用于更新過去n-1代的平均Qn獎勵修改為:

Q_{n+1} =Q_{n} +\alpha [R_{n} -Q_{n} ]屋确,(2.5)

其中纳击,步長大小參數(shù)α∈(0,1],常數(shù)攻臀。因此焕数,Q_{n+1} 是過去獎勵與現(xiàn)在初始估計Q_{1} 的加權(quán)平均:

其中(1-\alpha )^n+\sum\nolimits_{i=1}^n\alpha (1-\alpha )^{n-i}=1

隨著干預(yù)獎勵數(shù)量的增加百匆,給予Ri的權(quán)重也隨之降低。事實上呜投,權(quán)重根據(jù)1-α的指數(shù)呈指數(shù)衰減。

另一種存璃,使步長參數(shù)隨著時間變化仑荐,\alpha _{n}(a) =\frac{1}{{n}} 由大數(shù)定律保證收斂到真正的作用值纵东。當(dāng)然,并非所有的序列選擇都能保證收斂{\{\alpha _{n}(a) }\}偎球、,隨機逼近理論中的一個著名結(jié)果給出了確保概率1收斂所需的條件:

第一個條件是保證步驟足夠大衰絮,最終能夠克服任何初始條件或隨機波動。第二個條件保證最終步驟變得足夠小猫牡,以確保收斂。

注意淌友,對于樣本平均情況,兩個收斂條件都滿足\alpha _{n}(a) =\frac{1}{{n}} 瑰抵,但不適用于恒定步長參數(shù)的情況\alpha _{n}(a) =\alpha 器联。在后一種情況下婿崭,不滿足第二個條件习贫,這表明估計永遠不會完全收斂,但隨著最近收到的獎勵而繼續(xù)變化苫昌。正如我們前面提到的,在非平穩(wěn)環(huán)境中祟身,這實際上是可取的,而有效的非平穩(wěn)問題是強化學(xué)習(xí)中最常見的問題氯葬。此外婉陷,滿足條件(2.7)的步長參數(shù)序列通常收斂非常緩慢,或者需要大量調(diào)整以獲得滿意的收斂速度秽澳。雖然滿足這些收斂條件的步長參數(shù)序列通常用于理論工作,但它們很少用于應(yīng)用和實證研究楼吃。

練習(xí)2.4?如果步長參數(shù)\alpha _{n} 不是常數(shù),那么估計值Q_{n} 是之前收到的獎勵的加權(quán)平均值孩锡,其權(quán)重不同于(2.6)中給出的權(quán)重亥贸。就步長參數(shù)的順序而言,與(2.6)類似炕置,一般情況下每個先前獎勵的權(quán)重是多少?

\alpha (1-\alpha )^{n-i}

練習(xí)2.5?設(shè)計并進行一個實驗垦沉,以證明樣本平均法對于非平穩(wěn)問題的困難仍劈。使用10臂試驗臺的修改版本,其中所有q?(a)從相等開始贩疙,然后進行獨立的隨機游動(例如况既,在每一步上將平均值為零组民、標(biāo)準(zhǔn)偏差為0.01的正態(tài)分布增量添加到所有q?(a))。做出圖2.2所示的圖表莫其,用于使用遞增計算的樣本平均值的行動值方法耸三,以及使用恒定步長參數(shù)α=0.1的另一個行動值方法乱陡。使用ε=0.1和更長的運行時間仪壮,例如10000步。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末爽彤,一起剝皮案震驚了整個濱河市缚陷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖铆铆,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件薄货,死亡現(xiàn)場離奇詭異,居然都是意外死亡谅猾,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門坐搔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來敬矩,“玉大人,你說我怎么就攤上這事弧岳∫堤ぃ” “怎么了涧卵?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵柳恐,是天一觀的道長。 經(jīng)常有香客問我胎撤,道長,這世上最難降的妖魔是什么巫俺? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任肿男,我火速辦了婚禮,結(jié)果婚禮上舶沛,老公的妹妹穿的比我還像新娘。我一直安慰自己叹卷,他們只是感情好坪它,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蒙揣,像睡著了一般开瞭。 火紅的嫁衣襯著肌膚如雪懒震。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天个扰,我揣著相機與錄音葱色,去河邊找鬼。 笑死恐锣,一個胖子當(dāng)著我的面吹牛茅主,可吹牛的內(nèi)容都是我干的土榴。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼赫段,長吁一口氣:“原來是場噩夢啊……” “哼糯笙!你這毒婦竟也來了撩银?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤够庙,失蹤者是張志新(化名)和其女友劉穎抄邀,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體境肾,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡奥喻,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了读宙。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片彻秆。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡唇兑,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出扎附,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布图甜,位于F島的核電站鳖眼,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏矿瘦。R本人自食惡果不足惜愿卒,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望琼开。 院中可真熱鬧,春花似錦衬衬、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至碾篡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間开泽,已是汗流浹背魁瞪。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留峦耘,地道東北人。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓辅髓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親洛口。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容