CristianoC - 簡書

CristianoC

IP屬地：廣東

深度強化學習落地指南總結（一）-需求分析
本系列是對《深度強化學習落地指南》全書的總結，這本書是我市面上看過對深度強化學習落地講的最好的一本書渣窜，大大拓寬了自己對RL落地思考的維度，形成了...

1013 0 1
virtualenv使用說明
用PPO要用tensorflow_proballity 自己電腦是tf1.x 沒法順利安裝所以要用虛擬環(huán)境一般就是進入venv的bin目錄下...

173 0 0

機器學習中的頻率派和貝葉斯派-以極大似然估計和最大后驗估計為例
這是一個新的系列枢里，會整理一下以前在ipad上寫的筆記账锹。前言把概率引進到機器學習當中是一件很自然的事情雁比，許多機器學習當中問題的本質都可以從概率...

764 0 1
強化學習算法總結（一）——從零到DQN變體
這是新開的一個系列淳蔼，將結合理論和部分代碼（by ElegantRL）介紹強化學習中的算法侧蘸，將從基礎理論總結到現(xiàn)在常用的SAC,TD3等算法，希望...

1654 0 4
深入淺出解讀并思考AlphaGo
本文是對2016年發(fā)表在Nature的<< Mastering the game of Go with deep neural networks...

623 0 0
蒙特卡洛積分與重要性采樣
重要性采樣在強化學習有著重要作用,它是蒙特卡洛積分的一種采樣策略. 目錄概率論基礎蒙特卡洛積分重要性采樣參考概率論基礎本文先補充兩條...

1447 0 0
強化學習之蒙特卡洛學習,時序差分學習理論與實戰(zhàn)(四)
前言上一講講解了如果應用動態(tài)規(guī)劃算法對一個已知狀態(tài)轉移概率的MDP進行策略評估或通過策略迭代或直接的價值迭代來尋找最優(yōu)策略和最優(yōu)價值函數(shù),同時...

518 0 0

強化學習之動態(tài)規(guī)劃尋找最優(yōu)策略理論與實戰(zhàn)(三)
前言本講將著重講解如何利用動態(tài)規(guī)劃(Dynamic programming)來解決強化學習中的規(guī)劃問題鹉梨。"規(guī)劃"是指在已知環(huán)境動力學的基礎上進...

564 0 0
強化學習核心之馬爾科夫決策過程理論與實戰(zhàn)(二)
前言本講將從基礎的馬爾科夫過程開始講解,到馬爾科夫獎勵過程,馬爾科夫決策過程,最后也會用代碼鞏固這部分理論. 目錄馬爾科夫過程馬爾科夫獎勵...

218 0 0