阿山 - 簡(jiǎn)書(shū)

阿山

IP屬地：寧夏

動(dòng)態(tài)規(guī)劃
動(dòng)態(tài)規(guī)劃用來(lái)計(jì)算最優(yōu)策略往果，條件是環(huán)境已知港柜。首先倚聚，環(huán)境已知的話(huà)瞧省，我們可以計(jì)算最優(yōu)的value function：根據(jù)貝爾曼方程： Policy ...

280 0 0
有限馬爾科夫決策過(guò)程
增強(qiáng)學(xué)習(xí)的方法就是用來(lái)解決馬爾科夫決策過(guò)程盔性。馬爾科夫決策過(guò)程描述的是agent和environment的交互過(guò)程械媒。在時(shí)間序列0,1,..t,的...

862 0 0

增強(qiáng)學(xué)習(xí)四要素
增強(qiáng)學(xué)習(xí)四個(gè)要素 policy policy指的是一個(gè)函數(shù)或者規(guī)則蛀骇，輸入為環(huán)境狀態(tài)胸遇，輸出為action(Roughly speaking, ...

597 0 0
臨時(shí)-20170419
編譯項(xiàng)目 [maven編譯java項(xiàng)目]((http://upload-images.jianshu.io/upload_images/2066...

174 0 0
Ad Click Prediction: a View from the Trenches
點(diǎn)擊率預(yù)估特征工程主要內(nèi)容主要介紹在實(shí)際的點(diǎn)擊率預(yù)估的工程過(guò)程中荧呐，有那些tricks，包括特征工程以及一些特評(píng)價(jià)指標(biāo)- 關(guān)于稀疏模型單...

1738 0 0