![240](https://upload.jianshu.io/users/upload_avatars/15713115/b29d861e-5c6b-4e3a-9bbb-50108c155fdf.png?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
本系列是對《深度強化學習落地指南》全書的總結,這本書是我市面上看過對深度強化學習落地講的最好的一本書渣窜,大大拓寬了自己對RL落地思考的維度,形成了...
用PPO要用tensorflow_proballity 自己電腦是tf1.x 沒法順利安裝 所以要用虛擬環(huán)境 一般就是進入venv的bin目錄下...
這是一個新的系列枢里,會整理一下以前在ipad上寫的筆記账锹。 前言 把概率引進到機器學習當中是一件很自然的事情雁比,許多機器學習當中問題的本質都可以從概率...
這是新開的一個系列淳蔼,將結合理論和部分代碼(by ElegantRL)介紹強化學習中的算法侧蘸,將從基礎理論總結到現(xiàn)在常用的SAC,TD3等算法,希望...
本文是對2016年發(fā)表在Nature的<< Mastering the game of Go with deep neural networks...
重要性采樣在強化學習有著重要作用,它是蒙特卡洛積分的一種采樣策略. 目錄 概率論基礎 蒙特卡洛積分 重要性采樣 參考 概率論基礎 本文先補充兩條...
前言 上一講講解了如果應用動態(tài)規(guī)劃算法對一個已知狀態(tài)轉移概率的MDP進行策略評估或通過策略迭代或直接的價值迭代來尋找最優(yōu)策略和最優(yōu)價值函數(shù),同時...
前言 本講將著重講解如何利用動態(tài)規(guī)劃(Dynamic programming)來解決強化學習中的規(guī)劃問題鹉梨。"規(guī)劃"是指在已知環(huán)境動力學的基礎上進...
前言 本講將從基礎的馬爾科夫過程開始講解,到馬爾科夫獎勵過程,馬爾科夫決策過程,最后也會用代碼鞏固這部分理論. 目錄 馬爾科夫過程 馬爾科夫獎勵...