240 發(fā)簡信
IP屬地:河南
  • 寫的真的是好,我不明白為什么那么多老師都不能像你,或者像那些知名受歡迎的教授一樣,把知識按照循序漸進(jìn),通俗易懂的方式告訴我們,難道害怕知識人人都能懂,沒有階層了嗎!?

  • 各種求minimize極值的優(yōu)化方法

    包括牛頓法活喊、梯度下降法... 這些其實并非是最優(yōu)秀的悉稠, 今天聽說一個L-BFGS-B 揪利,未來可以嘗試性能并應(yīng)用兔港。 https://www.cnblogs.com/zyfd/p...

  • p-value與顯著性優(yōu)勢

    https://blog.csdn.net/rongbaohan/article/details/53521147

  • 強化學(xué)習(xí)論文中應(yīng)注意的事項

    https://zhuanlan.zhihu.com/p/52066264 非常棒绳泉!

  • 120
    hadoop

    1. hadoop on Yarn 注意 application Master的角色 Resource Manager是針對cluster資源的募判。 NodeManager...

  • 120
    java

    1. 子類繼承父類的時候挡爵,會先默認(rèn)執(zhí)行父類的 無參 構(gòu)造函數(shù)(即便實例化的時候用的是傳參的方式)竖般, 再執(zhí)行子類的構(gòu)造函數(shù)。 2. 繼承 extends, 子類繼承父類的構(gòu)造方...

  • 120
    PPO和DPPO

    PPO: A2C算法的改進(jìn)版茶鹃,主要是為了解決 ‘learning rate 不易設(shè)置的問題’涣雕, DPPO是 PPO的distributed版本, 比如10個worker闭翩,每...

  • policy-gradient和q-learning區(qū)別

    其中一個區(qū)別就是挣郭, q-learning總是用 Q現(xiàn)實 - Q估計 來獲得loss,從而更新參數(shù)疗韵。 但基礎(chǔ)版本的policy-gradient都不用這些兑障。人家是直接用 nor...

  • 120
    A3C

    中央大腦 Global_net 以及 4個(一般多少個CPU就多少個Worker)worker, 每個 worker都是獨立做一個 AC算法, A3C其實就是一個并行計算的A...

  • 120
    actor-critic

    1. actor是 policy-gradient流译, critic是 類似于q-learning的value-based 的另一個代表: state-value 逞怨,所以act...

  • 120
    policy-gradient

    參考資料 : 1.https://zhuanlan.zhihu.com/p/21725498 2. https://zhuanlan.zhihu.com/p/7517489...

亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品