Lecture 4: Model-Free Prediction

一检激、Monte-Carlo Learning

(一)Monte-Carlo Reinforcement Learning

  • MC方法可直接從經(jīng)驗(yàn)中學(xué)習(xí)
  • MC是model-free:不了解MDP轉(zhuǎn)換/獎勵
  • MC從完整的episode中學(xué)到:no bootstrapping
  • MC使用最簡單的想法:value = mean return
  • 警告:只能將MC應(yīng)用于episodic MDPs
    • All episodes must terminate

(二)Monte-Carlo Policy Evaluation

  • 目標(biāo):從policy \pi規(guī)定的經(jīng)驗(yàn)中學(xué)習(xí)v_\pi

  • 回想一下蓖扑,回報(bào)是總折扣獎勵:


  • 回想一下,value function是預(yù)期的回報(bào):


  • 蒙特卡洛策略評估使用經(jīng)驗(yàn)均值回報(bào)而非預(yù)期回報(bào)

(三)First-Visit Monte-Carlo Policy Evaluation

  • 評估狀態(tài)s
  • 只統(tǒng)計(jì)狀態(tài)s第一次出現(xiàn)在episode中時(shí)的長期回報(bào)
  • 增量計(jì)數(shù)器N(s)\leftarrow N(s)+1
  • 總收益增加S(s)\leftarrow S(s)+G_t
  • 價(jià)值由平均回報(bào)估算V(s)= S(s)/N(s)
  • 根據(jù)大數(shù)定律,V(s)\rightarrow v_\pi(s) asN(s)\rightarrow \infty

(四)Every-Visit Monte-Carlo Policy Evaluation

  • 評估狀態(tài)s
  • 統(tǒng)計(jì)狀態(tài)s每一次出現(xiàn)在episode中時(shí)的長期回報(bào)
  • 增量計(jì)數(shù)器N(s)\leftarrow N(s)+1
  • 總收益增加S(s)\leftarrow S(s)+G_t
  • 價(jià)值由平均回報(bào)估算V(s)= S(s)/N(s)
  • 根據(jù)大數(shù)定律商蕴,V(s)\rightarrow v_\pi(s) asN(s)\rightarrow \infty

(五)Incremental Monte-Carlo

1励烦、Incremental Mean
序列x_1,x_2,...的平均值\mu_1,\mu_2,...可以遞增計(jì)算,


是誤差吼过,平均值將會朝著誤差的方向移動更新锐秦。
2、增量蒙特卡洛更新

  • 在episodeS_1,A_1,R_2,...R_T后逐步更新V(s)
  • 對于每個具有回報(bào)G_t的狀態(tài)S_t
  • 在非平穩(wěn)問題中盗忱,跟蹤連續(xù)平均值(即忘掉舊episodes.)可能很有用酱床。

    我們的環(huán)境一直在變化,很久以前的episodes對于我現(xiàn)在沒有什么用趟佃,可能還會拖累我們的更新扇谣。所以我們將1/N用\alpha代替,每次讓值朝著比較新的return的方向更新闲昭,而不需要使用真正的平均值罐寨。
    不會直接更新到平均值,平均值可能還沒達(dá)到正確的程度序矩。取一個恒定步長進(jìn)行更新鸯绿。
    類似于常見的梯度下降法的更新公式

二、Temporal-Difference Learning

  • TD方法可直接從經(jīng)驗(yàn)中學(xué)習(xí)

  • TD是model-free:的:不了解MDP轉(zhuǎn)換/獎勵

  • TD通過自舉(bootsstrapping)從不完整的episodes中學(xué)習(xí)

    • 利用估計(jì)來代表episode的剩余部分贮泞。
  • TD將猜測更新為猜測

    • 更新最開始的猜想楞慈,得到后來的猜想

(一)MC and TD

  • 目標(biāo):從策略\pi下的經(jīng)驗(yàn)中在線學(xué)習(xí)v_\pi
  • Incremental every-visit Monte-Carlo
    • 朝著實(shí)際回報(bào)G_t的方向更新價(jià)值V(S_t)
  • 最簡單的時(shí)序查分算法:TD(0)
    • 朝著估計(jì)回報(bào)R_{t+1}+\gamma V(S_{t+1})的方向更新價(jià)值V(S_t)
    • R_t+1+\gamma V(S_{t+1})被稱為TD target
    • \sigma_t = R_{t+1}+\gamma V(S_{t+1})被稱為TD error

(二)Driving Home Example



在這個例子中,reward是每一段行程消耗的時(shí)間(Elapsed Time)啃擦。過程不加折扣(),因此每個狀態(tài)的回報(bào)就是從這個狀態(tài)開始直到回家實(shí)際經(jīng)過的總時(shí)間囊蓝。每個狀態(tài)的價(jià)值是剩余時(shí)間的期望值。第二列數(shù)字給出了遇到的每個狀態(tài)的價(jià)值的當(dāng)前估計(jì)值令蛉。

一種描述蒙特卡洛方法的步驟的簡單方法是在時(shí)間軸上畫出行車總耗時(shí)的預(yù)測值(最后一行數(shù)據(jù))聚霜。箭頭表示的是MC方法推薦的對預(yù)測值的改變。這個值正是每個狀態(tài)的價(jià)值的估計(jì)值(預(yù)估的剩余時(shí)間)與實(shí)際值回報(bào)(真是的剩余時(shí)間)之差珠叔。例如蝎宇,當(dāng)你下高速時(shí),你估計(jì)還有15分鐘就能到家祷安。但實(shí)際上你需要23分鐘姥芥。此時(shí)就可以用公式


確定離開高速后的剩余時(shí)間估計(jì)的增量。這時(shí)的誤差是是8分鐘汇鞭。假設(shè)步長參數(shù)是1/2凉唐,根據(jù)這一經(jīng)驗(yàn)庸追,離開高速后的預(yù)估剩余時(shí)間會增加4分鐘。在當(dāng)前這個例子中台囱,這個改變可能過大了淡溯,因?yàn)槎略诳ㄜ嚭竺嬷R偶然運(yùn)氣不好。無論如何簿训,這種更新只能離線進(jìn)行咱娶,即只有到家以后才能進(jìn)行更新,因?yàn)橹挥械郊夷悴胖缹?shí)際的回報(bào)是多少强品。

是否真的需要知曉最終結(jié)果才能開始學(xué)習(xí)呢膘侮,假設(shè)有一天你回家也是預(yù)計(jì)30分鐘到家,到途中碰到了嚴(yán)重的交通擁堵择懂,離開辦公司25分鐘仍然在高速上寸步難行喻喳,這時(shí)你估計(jì)還有25分鐘才能到家,總共50分鐘困曙。是否只有到家后才能增加對初始狀態(tài)的估計(jì)值呢表伦?如果使用蒙特卡洛方法馍刮,答案是肯定的龄毡,因?yàn)槲覀冞€不知道真正的回報(bào)。

但是根據(jù)TD的方法俩檬,我們可以立即學(xué)習(xí)要糊,將初始估計(jì)得30分鐘增加到50分鐘纲熏。事實(shí)上,每一個估計(jì)都會跟著其后繼的估計(jì)一起更新锄俄【志ⅲ回到例子,右圖顯示了根據(jù)TD規(guī)則推薦的總時(shí)間的預(yù)測值的變化奶赠。每個誤差都與預(yù)測值在時(shí)序上的變化(即預(yù)測中的時(shí)序差分)成正比鱼填。

(三)Advantages and Disadvantages of MC vs. TD

  • TD可以在知道最終結(jié)果之前學(xué)習(xí)

    • TD可以在每一步之后在線學(xué)習(xí)
    • MC必須等到episode結(jié)束才能知道回報(bào)
  • TD可以在沒有最終結(jié)果的情況下學(xué)習(xí)

    • TD可以從不完整的序列中學(xué)習(xí)
    • MC只能從完整序列中學(xué)習(xí)
    • TD在持續(xù)(非終止)環(huán)境中工作
    • MC僅適用于episode(終止)環(huán)境

(四)Bias/Variance Trade-Off

  • 回報(bào)G_t=R_{t+1}+\gamma R{t+2}+...+\gamma^{T-1}R_tv_\pi(S_t)的無偏估計(jì)。
  • 真實(shí)TD targetR{t+1}+\gamma v_\pi (S_{t+1})v_\pi(S_t)的無偏估計(jì)毅戈。
    這里的v_\pi(S_t)是真實(shí)的v_\pi(S_t)苹丸。貝爾曼方程得到的,理想狀態(tài)下的苇经。
  • TD targetR{t+1}+\gamma v_\pi (S_{t+1})v_\pi(S_t)的有偏估計(jì)赘理。
    這里的v_\pi(S_t)是我們目前最符合實(shí)際的猜測。
  • TD target的方差比回報(bào)低得多
    • 回報(bào)取決于許多隨機(jī)actions扇单,transitions, rewards
    • TD target取決于一個action商模,transitions, rewards

(五)Advantages and Disadvantages of MC vs. TD (2)

首先理解一下方差。
蒙特卡洛通過與環(huán)境交互得到序列的回報(bào)信息,然后用這些信息求平均阻桅,就可以得到估計(jì)得價(jià)值函數(shù)凉倚。但是每次采樣得到的回報(bào)差別可能很大,因?yàn)樵谟?jì)算回報(bào)時(shí)每一步都會收到噪聲干擾嫂沉,導(dǎo)致方差很大。
偏差就是你對V有一些估計(jì)扮碧,這可能是錯誤的趟章,并不是真實(shí)值。這不是干擾慎王。

  • MC具有高方差蚓土,零偏差(G_t在每一步轉(zhuǎn)換都會有噪聲干擾,得到受到干擾的reward赖淤,所以方差比較大)

    • 良好的收斂性
    • (具有函數(shù)近似)
    • 對初始值不太敏感
      因?yàn)槲覀儾粡某跏贾颠M(jìn)行自舉蜀漆。開始的地方很重要,但是我會花更長的時(shí)間來調(diào)整你那些錯得很厲害的值咱旱,把他們改成正確的值确丢。但他不做自身循環(huán)。他不使用自己吐限。
    • 很容易理解和使用
  • TD方差低鲜侥,有些偏差(因?yàn)橹粫艿揭徊礁蓴_,所有方差較兄畹洹)

    • 通常比MC更高效
    • TD(0)收斂至v_\pi(S_t)
    • (但并非總是用近似函數(shù))
      TD里的偏差可能是的算法不起作用
    • 對初始值更敏感

(六)Random Walk Example


隨著episode的增多描函,開始趨近于真實(shí)的value(那條直線)。

Random Walk: MC vs. TD


從上圖可以看出TD的效果比MC要好狐粱,RMS誤差減小的很快舀寓。
調(diào)整不同的可以達(dá)到更好的效果。

(七)Batch MC and TD

  • MC和TD收斂:V(s)\rightarrow V_\pi(s),隨著experience\rightarrow \infty
  • 但是對于有限經(jīng)驗(yàn)的批處理解決方案呢肌蜻?


  • 例如:重復(fù)采樣episode k\in[1,K]
  • 將MC或TD(0)應(yīng)用于episode k
    給定近似價(jià)值函數(shù)V互墓,在訪問非終止?fàn)顟B(tài)的每個時(shí)刻t,使用


    計(jì)算相應(yīng)的增量宋欺,但是價(jià)值函數(shù)僅根據(jù)所有增量的和改變一次轰豆。然后,利用新的值函數(shù)再次處理所有可用的經(jīng)驗(yàn)齿诞,產(chǎn)生新的總增量酸休,依此類推,知道價(jià)值函數(shù)收斂祷杈。我們稱這種方法為批量更新斑司,因?yàn)橹挥性谔幚砹苏挠?xùn)練數(shù)據(jù)后才進(jìn)行更新。

AB Example

兩種狀態(tài)A,B宿刮; 沒有折扣互站; 8個episode的經(jīng)驗(yàn)


Certainty Equivalence

  • MC收斂到具有最小均方誤差的解決方案

    • 最適合觀察到的收益


    • 在AB示例中,V(A)= 0
  • TD(0)收斂到最大似然馬爾可夫模型的解

    • 最適合數(shù)據(jù)的MDP\left\langle S,A,P,R,\gamma\right\rangle的解決方案
    • 在AB示例中僵缺,V(A)= 0.75

(八)Advantages and Disadvantages of MC vs. TD (3)

  • TD利用馬爾科夫性質(zhì)
    • 通常在馬爾可夫環(huán)境中效率更高
  • MC不利用馬爾科夫性質(zhì)
    • 通常在非馬爾可夫環(huán)境中更有效

(九)United View

1胡桃、Monte-Carlo Backup


蒙特卡洛所做的基本上是這里一個完整軌跡的取樣,然后使用該樣本來更新價(jià)值函數(shù)磕潮。

2翠胰、Temporal-Difference Backup


時(shí)序差分備份只有一步,我們對環(huán)境和動作進(jìn)行采樣自脯,當(dāng)在下一步結(jié)束時(shí)之景,看看價(jià)值函數(shù),備份該價(jià)值函數(shù)膏潮。得到在一個步驟中發(fā)生的樣本锻狗,不會一直走到盡頭。

3焕参、Dynamic Programming Backup


動態(tài)規(guī)劃也是一步向前搜索轻纪,但我們沒有取樣,我們必須了解動態(tài)龟糕,我們使用這些動態(tài)來計(jì)算這個期望桐磁。做完整的備份來算出期望值。

4讲岁、Bootstrapping and Sampling

  • Bootstrapping: 更新涉及估計(jì)
    • MC不自舉
    • DP自舉
    • TD自舉
      DP和TD用了貝爾曼方程我擂,對下一步狀態(tài)進(jìn)行估計(jì)。
  • Sampling: 期望更新樣本
    • MC samples
    • DP does not sample缓艳,窮舉考慮每一個可能性
    • TD samples

5校摩、United View of Reinforcement Learning

為什么我們假設(shè)一步之后的值比一步之前更準(zhǔn)確?為什么不轉(zhuǎn)移到另一個方向阶淘,替代的算法會得到正確的答案嗎衙吩?
不會得到正確的答案。事實(shí)上溪窒,即使你做了什么事情坤塞,比如讓這些東西相互靠近,然后將TD誤差等均方誤差最小化澈蚌,你找到了錯誤的答案摹芙,你實(shí)際上通過另一種方法得到了錯誤的答案。為什么我們給你直覺宛瞄,直覺是浮禾,如果你采取一個步驟,你在某種意義上總是更準(zhǔn)確一點(diǎn),因?yàn)檫@一步是真實(shí)的一步盈电,涉及到了真實(shí)回報(bào)蝴簇,也是真實(shí)動態(tài)的一步,然后你估計(jì)你結(jié)束之處的價(jià)值函數(shù)匆帚,但是因?yàn)槟阋呀?jīng)包含了一個真正的動態(tài)和真正的回報(bào)熬词,你在某種意義上更準(zhǔn)確,如果你采取足夠的這些步驟吸重,真正的動態(tài)總是帶你接近真理荡澎。

三、TD(\lambda)

(一)n-Step TD

1晤锹、n-Step Prediction

讓TD目標(biāo)展望未來的n步


2、n-Step Return

  • 考慮n=1,2,\infty的n步收益:
  • 定義n步收益


  • n步時(shí)序差分學(xué)習(xí)


3彤委、大型隨機(jī)游動示例


當(dāng)n趨近于無窮鞭铆,接近于蒙特卡洛,會得到很高的錯誤率焦影,可能是訓(xùn)練時(shí)間較短车遂。
n=1時(shí),TD(0)表現(xiàn)很好斯辰。

4舶担、平均n步回報(bào)

  • 我們可以對不同n取n步收益的平均值
  • 例如:平均兩步和四步收益


  • 合并來自兩個不同時(shí)間步的信息
  • 我們能否有效地結(jié)合所有時(shí)間步驟中的信息?


(二)Forward View of TD(\lambda)


如果彬呻,則整個更新被簡化為只有第一部分的更新衣陶,即單步時(shí)序差分更新;當(dāng)時(shí)闸氮,則整個更新被簡化為最后一部分的更新剪况,即蒙特卡洛更新。

  • The \lambda-return G_t^\lambda結(jié)合了n步returnG_t^{(n)}\
  • 使用權(quán)重(1-\lambda)\lambda^{(n-1)}

    可以把TD(\lambda)看作平均n步更新的一種特例蒲跨,這里的平均值包含了所有可能的n步更新译断,每一個按比例\lambda^{n-1}加權(quán),這里\lambda\in[0,1],最后乘上正則項(xiàng)1-\lambda保證權(quán)值的和為1或悲。產(chǎn)生的結(jié)果為\lambda回報(bào)孙咪。
  • Forward-view TD(\lambda)

(三)TD(\lambda)Weighting Function

lambda-回報(bào)中每個n-步回報(bào)的權(quán)重

參數(shù)表征了權(quán)值衰減的程度,因此就確定了在更新時(shí)回報(bào)算法往后看多遠(yuǎn)巡语。
-回報(bào)的定義為

在到達(dá)一個終止?fàn)顟B(tài)后翎蹈,所有的后續(xù)n步回報(bào)等于“齐可以將終止?fàn)顟B(tài)之后的計(jì)算項(xiàng)從主要的求和項(xiàng)中獨(dú)立出來杨蛋。

(四)Forward-view TD(\lambda)

前向視圖,如何通過未來的收益和狀態(tài)更新每一個狀態(tài)值
  • \lambda-return更新值函數(shù)
  • 前向視圖通過觀察未來來計(jì)算G_t^\lambda
  • 像MC一樣,只能根據(jù)完整episodes進(jìn)行計(jì)算

(五)Forward-View TD(\lambda) Large Random Walk


性能由最開始10個episode中19個狀態(tài)的真實(shí)價(jià)值和估計(jì)價(jià)值的均方根誤差的平均值來衡量逞力,兩種算法的性能相當(dāng)曙寡。在兩種情況下,都是在n-步算法的n和-回報(bào)的取中間值時(shí)獲得最好的性能寇荧。

(六)Backward View TD(\lambda)

  • Forward view提供理論
  • Backward view提供了機(jī)制
  • 從不完整的序列在線更新每一步

Eligibility Traces(資格跡)

  • 信用分配問題:電鈴還是電燈引起電擊举庶?
  • 頻率啟發(fā)式:將信用分配給最頻繁的狀態(tài)
  • 新近度啟發(fā)式方法:將信用分配給最近的狀態(tài)
  • 資格跡結(jié)合了兩種啟發(fā)式方法:

    資格跡是E_t是一個和權(quán)值向量同維度的向量。權(quán)值向量是一個長期的記憶揩抡,在整個系統(tǒng)的生命周期中進(jìn)行積累户侥;而資格跡是一個短期記憶,其持續(xù)時(shí)間通常少于一個episode的長度峦嗤。資格跡輔助整個學(xué)習(xí)過程蕊唐,它們唯一的作用是影響權(quán)值向量,而權(quán)值向量則決定了估計(jì)值烁设。

TD(\lambda)中替梨,資格跡向量被初始化為0,然后再每一步累加價(jià)值函數(shù)的梯度装黑,并以 \lambda \gamma衰減副瀑。 在這里\gamma是折扣系數(shù),而\lambda為衰減率參數(shù)恋谭。資格跡追蹤了對最近的狀態(tài)評估值做出了或正或負(fù)貢獻(xiàn)的權(quán)值向量的分量糠睡。這里的最近由 \lambda \gamma來定義。

我們回顧了我們訪問的狀態(tài)的時(shí)間疚颊,所以這是一個特定狀態(tài)的資格跡狈孔,豎道是我們訪問的那個時(shí)刻, 基本上每次我們訪問那個狀態(tài)串稀,就增加資格跡除抛,當(dāng)我們不去訪問它時(shí),我們就指數(shù)地減少資格跡母截。

Backward View TD(\lambda)

  • 保持每個狀態(tài)的資格跡
  • 更新每個狀態(tài)s的值V(s)
  • 與TD錯誤\delta_t和資格跡E_t(s)成比例
    當(dāng)一個強(qiáng)化學(xué)習(xí)事件出現(xiàn)時(shí)到忽,我們認(rèn)為這些貢獻(xiàn)“痕跡”展示了權(quán)值向量的對應(yīng)分量有多少“資格”可以接受學(xué)習(xí)過程引起的變化。我們關(guān)注的強(qiáng)化學(xué)習(xí)事件是一個又一個時(shí)刻的單步時(shí)序差分誤差清寇。預(yù)測的狀態(tài)價(jià)值函數(shù)的時(shí)序差分誤差為

    TD(\lambda)中喘漏,權(quán)值向量每一步的更新正比于時(shí)序差分的標(biāo)量誤差和資格跡。


在時(shí)間上往回看华烟,每個時(shí)刻我們計(jì)算當(dāng)時(shí)的時(shí)序查分誤差翩迈,并根據(jù)之前狀態(tài)對當(dāng)前資格跡的貢獻(xiàn)來分配它】梗可以想象在一個狀態(tài)流中负饲,計(jì)算時(shí)序差分誤差堤魁,然后將其傳播給之前訪問的狀態(tài)。當(dāng)時(shí)序差分誤差和跡同時(shí)起作用時(shí)返十,使得式子得到更新妥泉。

(六)Relationship Between Forward and Backward TD

1、TD(\lambda) and TD(0)

  • 當(dāng)\lambda=0洞坑,只有當(dāng)前狀態(tài)被更新盲链。
    E_t(s)=1,此時(shí)相當(dāng)于時(shí)序差分。也就是TD(0)迟杂。
  • 這完全等同于TD(0)更新

    TD(0)僅僅讓當(dāng)前時(shí)刻的前導(dǎo)狀態(tài)被當(dāng)前的時(shí)序差分誤差所改變刽沾。對于更大的\lambda(\lambda<1),更多的之前的狀態(tài)會被改變排拷,越遠(yuǎn)的狀態(tài)改變越少侧漓,這是因?yàn)閷?yīng)的資格跡更小。也可以這樣說监氢,較早的狀態(tài)被分配了較小的信用來“消費(fèi)”TD誤差火架。

2、TD(\lambda) and MC

  • 當(dāng)\lambda=1時(shí)忙菠,信用被推遲到了episode結(jié)束。
  • 考慮具有離線更新的episodic環(huán)境
  • 在episode過程中纺弊,TD(1) 的總更新與MC的總更新相同

    對于前視圖和后視圖TD(\lambda) 牛欢,離線更新的總和是相同的
    如果\lambda=1,那么之前狀態(tài)的信用每步僅僅衰減\gamma淆游。這個恰好和蒙特卡洛算法的行為一致傍睹。

3、MC and TD(1)

  • 考慮在時(shí)間步k訪問一次s的episode犹菱,
  • 自訪問以來的TD(1)資格跡折扣時(shí)間


  • TD(1)更新在線累積誤差


  • 到episode結(jié)束時(shí)拾稳,它累計(jì)了總誤差


4、Telescoping in TD(1)

當(dāng)\lambda=1時(shí)腊脱,將將TD誤差縮合為MC誤差

5访得、TD(\lambda)TD(1)

  • TD(1)大致等于every-visit蒙特卡洛
  • 誤差是在線累計(jì)的,一步接一步
  • 如果值函數(shù)僅在episode結(jié)束時(shí)離線更新陕凹,那么悍抑,總更新與MC完全相同

6、Telescoping in TD(\lambda)

7杜耙、Forwards and Backwards TD(\lambda)

  • 考慮在步驟k中訪問一次s的episode
  • 自訪問以來 TD(\lambda)資格跡折扣時(shí)間搜骡,
  • Backward TD(\lambda)在線更新累積誤差
  • 到episode結(jié)束時(shí),它會累計(jì)\lambda-return的誤差
  • 對于對s的多次訪問佑女,E_t會累積許多誤差

8记靡、Offline Equivalence of Forward and Backward TD

離線更新

  • 更新在episode中累積
  • 但在episode結(jié)束批量應(yīng)用

9谈竿、Onine Equivalence of Forward and Backward TD

在線更新

  • TD(\lambda)更新將在episode內(nèi)的每個步驟在線應(yīng)用
  • 前視和后視TD(\lambda)略有不同
  • 新:精確的在線TD(\lambda)實(shí)現(xiàn)了完美的等效性
    • 通過使用略有不同的資格跡形式
    • Sutton and von Seijen, ICML 2014

10、Summary of Forward and Backward TD(\lambda)


= 表示episode結(jié)束時(shí)的總更新量相等摸吠。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末空凸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蜕便,更是在濱河造成了極大的恐慌劫恒,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件轿腺,死亡現(xiàn)場離奇詭異两嘴,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)族壳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進(jìn)店門憔辫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人仿荆,你說我怎么就攤上這事贰您。” “怎么了拢操?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵锦亦,是天一觀的道長。 經(jīng)常有香客問我令境,道長杠园,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任舔庶,我火速辦了婚禮抛蚁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘惕橙。我一直安慰自己瞧甩,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布弥鹦。 她就那樣靜靜地躺著肚逸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪彬坏。 梳的紋絲不亂的頭發(fā)上吼虎,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天,我揣著相機(jī)與錄音苍鲜,去河邊找鬼思灰。 笑死,一個胖子當(dāng)著我的面吹牛混滔,可吹牛的內(nèi)容都是我干的洒疚。 我是一名探鬼主播歹颓,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼油湖!你這毒婦竟也來了巍扛?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤乏德,失蹤者是張志新(化名)和其女友劉穎撤奸,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體喊括,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡胧瓜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了郑什。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片府喳。...
    茶點(diǎn)故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蘑拯,靈堂內(nèi)的尸體忽然破棺而出钝满,到底是詐尸還是另有隱情,我是刑警寧澤申窘,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布弯蚜,位于F島的核電站,受9級特大地震影響剃法,放射性物質(zhì)發(fā)生泄漏熟吏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一玄窝、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧悍引,春花似錦恩脂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至浓领,卻和暖如春玉凯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背联贩。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工漫仆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人泪幌。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓盲厌,卻偏偏與公主長得像署照,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子吗浩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Model-Free Prediction Interduction 區(qū)別 上節(jié)課講已知MDP建芙, 使用動態(tài)規(guī)劃方法...
    BoringFantasy閱讀 297評論 0 0
  • 一. 增強(qiáng)學(xué)習(xí)簡介 1.1 什么是增強(qiáng)學(xué)習(xí)? 機(jī)器學(xué)習(xí)的算法可以分為三類:監(jiān)督學(xué)習(xí)懂扼,非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)禁荸。 增強(qiáng)學(xué)...
    阿阿阿阿毛閱讀 31,152評論 0 25
  • 1. 前言: 這些博客是根據(jù)david silver 的深度強(qiáng)化學(xué)習(xí)內(nèi)容,結(jié)合自己的理解以及學(xué)習(xí)而寫成阀湿,轉(zhuǎn)載請注...
    FeynmanZhang閱讀 445評論 0 0
  • 前言:在本節(jié)赶熟,我們首先介紹 算法。其次炕倘,我們將說明 算法的前向視角(Forward-view)以及后向視角(Bac...
    FeynmanZhang閱讀 399評論 0 0
  • 《別罩旋,戀》 秋風(fēng)帶上落葉悄然離開啊央, 不曾回首, 留給自然的唯一片孤獨(dú)涨醋。 冬日在幕后徘徊瓜饥, 它想代替秋風(fēng), 用雪花作...
    管小妤閱讀 367評論 0 4