本系列是對(duì)《深度強(qiáng)化學(xué)習(xí)落地指南》全書(shū)的總結(jié)姐霍,這本書(shū)是我市面上看過(guò)對(duì)深度強(qiáng)化學(xué)習(xí)落地講的最好的一本書(shū)音羞,大大拓寬了自己對(duì)RL落地思考的維度怖侦,形成了...
用PPO要用tensorflow_proballity 自己電腦是tf1.x 沒(méi)法順利安裝 所以要用虛擬環(huán)境 一般就是進(jìn)入venv的bin目錄下...
這是一個(gè)新的系列晃跺,會(huì)整理一下以前在ipad上寫(xiě)的筆記劫樟。 前言 把概率引進(jìn)到機(jī)器學(xué)習(xí)當(dāng)中是一件很自然的事情楷怒,許多機(jī)器學(xué)習(xí)當(dāng)中問(wèn)題的本質(zhì)都可以從概率...
這是新開(kāi)的一個(gè)系列,將結(jié)合理論和部分代碼(by ElegantRL)介紹強(qiáng)化學(xué)習(xí)中的算法残腌,將從基礎(chǔ)理論總結(jié)到現(xiàn)在常用的SAC,TD3等算法村斟,希望...
本文是對(duì)2016年發(fā)表在Nature的<< Mastering the game of Go with deep neural networks...
重要性采樣在強(qiáng)化學(xué)習(xí)有著重要作用,它是蒙特卡洛積分的一種采樣策略. 目錄 概率論基礎(chǔ) 蒙特卡洛積分 重要性采樣 參考 概率論基礎(chǔ) 本文先補(bǔ)充兩條...
前言 上一講講解了如果應(yīng)用動(dòng)態(tài)規(guī)劃算法對(duì)一個(gè)已知狀態(tài)轉(zhuǎn)移概率的MDP進(jìn)行策略評(píng)估或通過(guò)策略迭代或直接的價(jià)值迭代來(lái)尋找最優(yōu)策略和最優(yōu)價(jià)值函數(shù),同時(shí)...
前言 本講將著重講解如何利用動(dòng)態(tài)規(guī)劃(Dynamic programming)來(lái)解決強(qiáng)化學(xué)習(xí)中的規(guī)劃問(wèn)題。"規(guī)劃"是指在已知環(huán)境動(dòng)力學(xué)的基礎(chǔ)上進(jìn)...
前言 本講將從基礎(chǔ)的馬爾科夫過(guò)程開(kāi)始講解,到馬爾科夫獎(jiǎng)勵(lì)過(guò)程,馬爾科夫決策過(guò)程,最后也會(huì)用代碼鞏固這部分理論. 目錄 馬爾科夫過(guò)程 馬爾科夫獎(jiǎng)勵(lì)...