前言:
本文算是個(gè)人筆記寇损,如有不足或需要討論的凸郑,歡迎交流,郵箱即QQ矛市。
有大佬知道如何搭網(wǎng)絡(luò)的(如多少層和每層多少個(gè)神經(jīng)元等參數(shù)怎么調(diào))芙沥,求請(qǐng)教。浊吏。
封面:
了解DQN必須從Q-learning講起而昨。不過(guò)先說(shuō)明一點(diǎn),不論是DQN還是Qlearnging 都是基于值的方法找田,至于基于值和基于策略的區(qū)別歌憨,我打算放在最后末尾。(因?yàn)檫@不是我要講的重點(diǎn))
Q-learning簡(jiǎn)單介紹:
一言蔽之午阵,以選取未來(lái)獎(jiǎng)勵(lì)(值)最大的動(dòng)作為agent決策方法躺孝。
但值是以表格的形式給出(比如總列為狀態(tài),橫列為動(dòng)作)底桂,需要經(jīng)過(guò)一定訓(xùn)練才能反映出準(zhǔn)確的未來(lái)獎(jiǎng)勵(lì)植袍,所以一般會(huì)設(shè)某個(gè)大小為ε的值作為隨機(jī)選取的概率。
new4.jpg