強(qiáng)化學(xué)習(xí) - 專題

投稿

收錄了8篇文章 · 10人關(guān)注

好多文章被鎖請(qǐng)?jiān)L問(wèn)我的博客
還是自己搭的博客靠譜率翅，簡(jiǎn)書把我的幾乎所有的文章都鎖定了宣虾。申訴根本沒(méi)用梦染！將大部分文章都整理到了自己博客饲常，我也將會(huì)在那里更新。歡迎關(guān)注：https...

Hongtao洪滔 1 0
強(qiáng)化學(xué)習(xí)：自動(dòng)駕駛——Carla 模擬器簡(jiǎn)介
自動(dòng)駕駛是機(jī)器學(xué)習(xí)的一個(gè)重要的應(yīng)用領(lǐng)域纬向，作為普通學(xué)習(xí)者新啼，我們是否可以運(yùn)用自己學(xué)到的機(jī)器學(xué)習(xí)方法訓(xùn)練自動(dòng)駕駛模型，完成自動(dòng)駕駛的任務(wù)呢范咨？是否需要一...

1.5 Hongtao洪滔 1 8

深度強(qiáng)化學(xué)習(xí)——Policy Gradient 玩轉(zhuǎn) CartPole 游戲
Image from unsplash.com by helloquence 前面的文章我們介紹了 Q-learning, DQN 等方法都是基...

0.6 Hongtao洪滔 0 2
AI學(xué)習(xí)筆記——Sarsa算法
上一篇文章介紹了強(qiáng)化學(xué)習(xí)中的Q-Learning算法故觅，這篇文章介紹一個(gè)與Q-Learning十分類似的算法——Sarsa算法。 1. 回顧Q L...

0.1 Hongtao洪滔 0 3
AI學(xué)習(xí)筆記——強(qiáng)化學(xué)習(xí)之動(dòng)態(tài)規(guī)劃(Dynamic Programming)解決MDP(2)
求解最優(yōu)MDP實(shí)際上就是找到最佳策略(Policy)π來(lái)最大化來(lái)最大化V函數(shù)(Value Function)渠啊。 1. 策略估算(Policy E...

0.1 Hongtao洪滔 0 5
AI學(xué)習(xí)筆記——強(qiáng)化學(xué)習(xí)之值函數(shù)近似(Value Function Approximation)(2)
前文介紹了函數(shù)近似來(lái)預(yù)測(cè)V函數(shù)输吏，但是還沒(méi)涉及到行動(dòng)和控制，這篇文章就來(lái)談?wù)動(dòng)媒芉函數(shù)來(lái)控制和行動(dòng)替蛉。 1. 控制——遞增算法 Increment...

Hongtao洪滔 0 1