這兩天看了一下李宏毅老師的強化學(xué)習(xí)課程的前兩講憋飞,主要介紹了Policy Gradient算法和Proximal Policy Optimization算法他炊,在此整理總結(jié)一下争剿。...
![240](https://upload.jianshu.io/users/upload_avatars/7861060/d5afb301-25a6-4bc4-b292-c6e2cb7de5f7.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
IP屬地:天津
這兩天看了一下李宏毅老師的強化學(xué)習(xí)課程的前兩講憋飞,主要介紹了Policy Gradient算法和Proximal Policy Optimization算法他炊,在此整理總結(jié)一下争剿。...
看看這個標(biāo)題,沒錯痊末,這又是一篇年終總結(jié)蚕苇,上一次寫年終總結(jié)還是2017年,而2018年直接就跳過沒有寫凿叠。之前的業(yè)余時間的確是很多涩笤,現(xiàn)在我連休息時間也變少了嚼吞,所以一年都很難產(chǎn)出一...