Iverson_henry - 簡書

IP屬地：河南

各種求minimize極值的優(yōu)化方法
包括牛頓法屎媳、梯度下降法... 這些其實并非是最優(yōu)秀的，今天聽說一個L-BFGS-B 甥捺，未來可以嘗試性能并應用。 https://www.cnb...

370 0 0
p-value與顯著性優(yōu)勢
https://blog.csdn.net/rongbaohan/article/details/53521147

445 0 0

強化學習論文中應注意的事項
https://zhuanlan.zhihu.com/p/52066264 非常棒镀层！

154 0 0
hadoop
1. hadoop on Yarn 注意 application Master的角色 Resource Manager是針對cluster資...

76 0 0
java
1. 子類繼承父類的時候镰禾，會先默認執(zhí)行父類的無參構(gòu)造函數(shù)（即便實例化的時候用的是傳參的方式），再執(zhí)行子類的構(gòu)造函數(shù)唱逢。 2. 繼承 exte...

111 0 0
PPO和DPPO
PPO： A2C算法的改進版吴侦，主要是為了解決 ‘learning rate 不易設置的問題’， DPPO是 PPO的distributed版本...

4390 0 1
policy-gradient和q-learning區(qū)別
其中一個區(qū)別就是坞古， q-learning總是用 Q現(xiàn)實 - Q估計來獲得loss妈倔，從而更新參數(shù)。但基礎版本的policy-gradient都...

1193 0 0

A3C
中央大腦 Global_net 以及 4個（一般多少個CPU就多少個Worker）worker绸贡，每個 worker都是獨立做一個 AC算法盯蝴， ...

354 0 0
actor-critic
1. actor是 policy-gradient， critic是類似于q-learning的value-based 的另一個代表： sta...

1611 0 0