這兩天看了一下李宏毅老師的強化學(xué)習(xí)課程的前兩講憋飞,主要介紹了Policy Gradient算法和Proximal Policy Optimization算法他炊,在此整理總結(jié)一下争剿。...

IP屬地:天津
這兩天看了一下李宏毅老師的強化學(xué)習(xí)課程的前兩講憋飞,主要介紹了Policy Gradient算法和Proximal Policy Optimization算法他炊,在此整理總結(jié)一下争剿。...
看看這個標(biāo)題,沒錯痊末,這又是一篇年終總結(jié)蚕苇,上一次寫年終總結(jié)還是2017年,而2018年直接就跳過沒有寫凿叠。之前的業(yè)余時間的確是很多涩笤,現(xiàn)在我連休息時間也變少了嚼吞,所以一年都很難產(chǎn)出一...