摘要:
本文提出了一種基于深度強化學習(DRL)的高速緩存存儲方法博个,使其能夠適應動態(tài)、復雜的移動網(wǎng)絡環(huán)境绷蹲。與LRU和LFU相比堂油,該機制不需要先驗的流行度分布知識修档,因此在實踐中具有更高的可采用率和靈活性碧绞。
數(shù)據(jù)集:
zipf數(shù)據(jù)集府框,(基站容量為50,內(nèi)容種類為300);完全隨機數(shù)據(jù)集迫靖。
對比實驗:
采用了LFU院峡、LRU和DDPG算法作為對比算法
框架算法:
基于A3C框架,支持多線程和異步更新學習策略系宜。
相關工作:
在[16]中該工作將邊緣卸載任務視為馬爾可夫決策過程(MDP)照激。[17]提出了一種基于q -學習的分布式緩存替換策略來處理卸載任務,提出了一種適用于空間集群蜂窩網(wǎng)絡的概率緩存策略盹牧,不同流行程度的內(nèi)容以不同的緩存概率分布在基站集群中俩垃。因此,該方法可以靈活應對復雜內(nèi)容的流行挑戰(zhàn)汰寓。Blaszczyszyn[18]指出口柳,當基站覆蓋重疊區(qū)域時,始終緩存最流行的內(nèi)容不是主要策略有滑。通過推導出不同基站中最受歡迎內(nèi)容的存儲概率跃闹,可以顯著提高重疊覆蓋情況下的命中率。謝的[19]工作中毛好,在寡頭壟斷市場模型下望艺,分析了多個服務提供商服務器之間的緩存資源分配任務。此外肌访,他們還使用了動態(tài)非合作博弈方法來獲得SPSs所需的最佳緩存空間找默。在一項后續(xù)研究中,[20]將k近鄰與DDPG算法相結合吼驶。因此啡莉,該模型在高緩存命中率和低計算成本兩方面都優(yōu)于傳統(tǒng)的DQN方法。
模型構建:
給每個請求分配優(yōu)先級旨剥,流行度分為短期咧欣,中期和長期流行度,高優(yōu)先級內(nèi)容成為決定點擊率的重要因素轨帜;
并行代理:
傳統(tǒng)的方法是使用單個代理進行抽樣魄咕,這導致樣本之間的相關性很高。這個問題可能會導致神經(jīng)網(wǎng)絡過度擬合蚌父。為了解決這個問題哮兰,DQN提出了體驗回放。然而苟弛,DQN只能進行離線學習喝滞,在高動態(tài)環(huán)境下性能較差。因此膏秫,為了實現(xiàn)在線學習右遭,我們同時運行多個學習代理。這些代理相互作用并獨立學習。本地代理和全局代理相互更新它們的參數(shù)窘哈。因此吹榴,全局代理從每個本地代理匯總的樣本不再相關。此外滚婉,多cpu支持的并行學習提供了很高的學習效率图筹。
強化學習模型:
1、Action space:A={0, 1, 2, · · · , C}让腹,at= 0表示策略拒絕緩存當前請求远剩,at = i(0 < i≤C)表示替換內(nèi)容根據(jù)當前請求在緩存中索引i。
2骇窍、State space:s t = {R t .f, R 1 .f, · · · , R C .f }.我們在時間t中的狀態(tài)st定義為正在進行的請求R t和緩存內(nèi)容的所有特征的集合
3民宿、Reward function:r = r short +γ × r middle + γ **2 × r long .(γ是可調(diào)節(jié)的參數(shù))
模型圖
算法:
不是使用神經(jīng)網(wǎng)絡估計Q(s,a)(例如DQN),我們使用狀態(tài)s作為神經(jīng)網(wǎng)絡的輸入,并直接輸出動作的概率分布πθ。
結果:
zipf數(shù)據(jù)集緩存命中率結果圖
隨機分布數(shù)據(jù)集緩存命中率結果分布圖