明星有燦 - 簡書

明星有燦

IP屬地：上海

SARSA時序差分學(xué)習(xí)方法
什么是SARSA SARSA算法的全稱是State Action Reward State Action篓像，屬于時序差分學(xué)習(xí)算法的一種嗜逻，其綜合了動...

1075 0 1
貝爾曼方程與兩類值函數(shù)
貝爾曼方程與兩類值函數(shù) 為了評估一個策略的期望回報涩僻，我們定義兩個值函數(shù)：狀態(tài)值函數(shù)和狀態(tài)-動作值函數(shù)。狀態(tài)值函數(shù) 折扣率的引入有終止?fàn)顟B(tài)的情...

2419 0 0

Ubuntu下多版本Python環(huán)境管理
virtualenvwrapper庫的安裝與配置查看當(dāng)前環(huán)境 Python的執(zhí)行文件位于/usr/bin/目錄下栈顷，可以進入該目錄查看當(dāng)前安裝的...

2676 0 0
Custard擁塞控制算法論文解讀
該論文的全稱為“Internet Congestion Control via Deep ReinforcementLearning”逆日，收錄于N...

755 1 0
Indigo擁塞控制算法發(fā)送端代碼解讀
Indigo擁塞控制算法發(fā)送端代碼解讀本文章將不定時進行更新，歡迎收藏萄凤。相關(guān)源文件 Indigo擁塞控制算法集成于Pantheon擁塞控制算...

1435 1 1