跟深度強(qiáng)化學(xué)習(xí) (Deep Reinforcement Learning, DRL) 相愛相殺已經(jīng)四年了,如果把本科畢業(yè)設(shè)計那半年也算上就有四年半了祷嘶,放在科研這種“長途旅行”上也算是有一段時間了夺溢。DRL于我,更多的像是一種解決問題的工具企垦,我在學(xué)習(xí)這個“工具”的過程中走過彎路踩過坑晒来,也用這個“工具”解決了一些問題,回頭望去荧降,還是有些想法的,所以想記錄一下朵诫,就算是科研回憶錄吧薄扁。本系列文章計劃包含三篇:《上篇》會試圖用簡潔的語言描述出DRL的輪廓;《中篇》會試圖簡明扼要地講述一些重要的DRL算法邓梅;《下篇》會分享一些我在實踐過程中的“個人經(jīng)驗”。與本系列文章相輔相成的是我站在巨人們 (Cart-Park, MrSyee, ElegantRL“小雅”等) 的肩膀上根據(jù)個人需求钱反、習(xí)慣寫的一個DRL項目,ZRayRL (https://github.com/ZhangRui111/ZRayRL)面哥。最后毅待,歡迎項目共建,歡迎文章討論恩静,轉(zhuǎn)載請注明出處蹲坷。
首發(fā)于ZRay的空間循签,轉(zhuǎn)載請注明出處疙咸。