Iverson_henry - 簡書

IP屬地：河南

各種求minimize極值的優(yōu)化方法
包括牛頓法理疙、梯度下降法... 這些其實并非是最優(yōu)秀的赢乓，今天聽說一個L-BFGS-B 趣钱，未來可以嘗試性能并應(yīng)用虱颗。 https://www.cnb...

357 0 0
p-value與顯著性優(yōu)勢
https://blog.csdn.net/rongbaohan/article/details/53521147

440 0 0

強化學(xué)習(xí)論文中應(yīng)注意的事項
https://zhuanlan.zhihu.com/p/52066264 非常棒！

149 0 0
hadoop
1. hadoop on Yarn 注意 application Master的角色 Resource Manager是針對cluster資...

74 0 0
java
1. 子類繼承父類的時候踱承，會先默認執(zhí)行父類的無參構(gòu)造函數(shù)（即便實例化的時候用的是傳參的方式）排作，再執(zhí)行子類的構(gòu)造函數(shù)。 2. 繼承 exte...

108 0 0
PPO和DPPO
PPO： A2C算法的改進版寇僧，主要是為了解決 ‘learning rate 不易設(shè)置的問題’摊腋， DPPO是 PPO的distributed版本...

4343 0 1
policy-gradient和q-learning區(qū)別
其中一個區(qū)別就是， q-learning總是用 Q現(xiàn)實 - Q估計來獲得loss嘁傀，從而更新參數(shù)兴蒸。但基礎(chǔ)版本的policy-gradient都...

1187 0 0

A3C
中央大腦 Global_net 以及 4個（一般多少個CPU就多少個Worker）worker，每個 worker都是獨立做一個 AC算法细办， ...

347 0 0
actor-critic
1. actor是 policy-gradient橙凳， critic是類似于q-learning的value-based 的另一個代表： sta...

1575 0 0