引言:人工智能技術(shù)越來(lái)越廣泛的應(yīng)用于各行各業(yè),而這一切都離不開底層深度學(xué)習(xí)框架的支持壹士。近日躏救,百度深度學(xué)習(xí)PaddlePaddle正式發(fā)布了強(qiáng)化學(xué)習(xí)框架PARL盒使,同時(shí)開源了基于該框架,在NeurIPS 2018強(qiáng)化學(xué)習(xí)賽事中奪冠的模型完整訓(xùn)練代碼七嫌,再次向業(yè)界展示了百度在深度學(xué)習(xí)領(lǐng)域的技術(shù)能力少办。
PARL的效果如何?
PARL是基于百度 PaddlePaddle 打造的深度強(qiáng)化學(xué)習(xí)框架诵原,覆蓋了DQN英妓、DDQN、Dueling DQN绍赛、DDPG蔓纠、PPO等主流強(qiáng)化學(xué)習(xí)算法。在PARL 1.0的發(fā)布中吗蚌,基于PARL實(shí)現(xiàn)的DDPG, DQN, PPO等算法均有覆蓋蚯妇,在一些經(jīng)典測(cè)試問題中敷燎,如Atari Game, Mujoco等,均取得了state-of-the-art的成績(jī)箩言。性能相比其他平臺(tái)也毫不示弱硬贯。
此外,PARL 框架支持百億級(jí)別數(shù)據(jù)或特征的訓(xùn)練陨收,基于PARL可同時(shí)通過(guò)8塊GPU拉動(dòng)近20000個(gè)CPU節(jié)點(diǎn)運(yùn)算澄成。在NeurIPS 2018賽事中將需要近5個(gè)小時(shí)迭代一輪的PPO算法加速到不到1分鐘,相對(duì)單機(jī)運(yùn)算加速比高達(dá)幾百倍畏吓。與現(xiàn)有開源強(qiáng)化學(xué)習(xí)工具和平臺(tái)相比墨状,PARL框架具有更高的可擴(kuò)展性、可復(fù)現(xiàn)性和可復(fù)用性菲饼,支持大規(guī)模并行和稀疏特征肾砂,能夠快速完成對(duì)工業(yè)級(jí)應(yīng)用案例的驗(yàn)證。
在NeurIPS 2018強(qiáng)化學(xué)習(xí)賽事中PRAL的使用脫穎而出宏悦,擊敗了400多支來(lái)自全球各個(gè)研究機(jī)構(gòu)的參賽隊(duì)伍镐确,獲得冠軍的最關(guān)鍵因素是包吝,PARL框架在算法上采用了獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu),特征處理源葫、獎(jiǎng)勵(lì)值工程诗越、探索策略以及學(xué)習(xí)方法。其中比較重要一點(diǎn)是用了課程學(xué)習(xí)(Curriculum Learning)來(lái)學(xué)習(xí)一個(gè)比較好的初始步態(tài)息堂。而在架構(gòu)方面嚷狞,受到GA3C啟發(fā),所設(shè)計(jì)的DDPG并行結(jié)構(gòu)直接達(dá)到了單機(jī)性能的幾百倍荣堰,使得深度強(qiáng)化學(xué)習(xí)框架PARL的調(diào)研效率大大提升床未。
?
PARL在哪些前沿應(yīng)用發(fā)揮作用?
a.????新聞和信息推薦
近年來(lái)振坚,信息流在研究上出現(xiàn)兩個(gè)難點(diǎn)和熱點(diǎn)薇搁,一個(gè)是列表頁(yè)內(nèi)的組合優(yōu)化,另一個(gè)是列表頁(yè)間的興趣轉(zhuǎn)移渡八。傳統(tǒng)推薦往往都是基于用戶和單點(diǎn)內(nèi)容之間的喜好程度來(lái)預(yù)估】醒螅現(xiàn)代信息推薦系統(tǒng)注重列表內(nèi)的組合,以及列表頁(yè)間的轉(zhuǎn)移變化屎鳍。而這兩個(gè)點(diǎn)裂允,都是強(qiáng)化學(xué)習(xí)適合的重要場(chǎng)景。
列表頁(yè)內(nèi)的優(yōu)化主要是內(nèi)容之間的組合哥艇,現(xiàn)代信息流推薦系統(tǒng)并不是一次只推薦一個(gè)內(nèi)容,而是一次推薦多個(gè)內(nèi)容僻澎。由于列表多個(gè)內(nèi)容之間的相互關(guān)聯(lián)會(huì)影響到用戶體驗(yàn)貌踏,但對(duì)于
具體如何關(guān)聯(lián),卻沒有辦法確定窟勃。雖然大家都知道多樣性比較重要祖乳,但為什么重要,以及多樣性到底怎么量化秉氧,目前依舊缺乏統(tǒng)一的認(rèn)識(shí)眷昆。而列表頁(yè)間的優(yōu)化,針對(duì)的是用戶行為的序列汁咏。用戶瀏覽完一個(gè)列表亚斋,重新刷新,再看第二個(gè)列表攘滩,這個(gè)過(guò)程中興趣有沒有發(fā)生轉(zhuǎn)移帅刊?有沒有新的興趣被激發(fā)?這兩個(gè)點(diǎn)都涉及到長(zhǎng)期收益問題漂问。也就是說(shuō)赖瞒,不能再僅僅用當(dāng)前內(nèi)容的用戶反饋來(lái)學(xué)習(xí)女揭,而是得用比較長(zhǎng)時(shí)間的收益來(lái)學(xué)習(xí)。
在列表頁(yè)內(nèi)組合上栏饮,PARL所提出的序列框架統(tǒng)一了學(xué)術(shù)界對(duì)列表頁(yè)框架認(rèn)識(shí)的一些模糊吧兔。根據(jù)百度發(fā)布的文章,多樣性一個(gè)概念遠(yuǎn)不足以反映列表頁(yè)內(nèi)的關(guān)聯(lián)關(guān)系袍嬉。內(nèi)容之間既有相互重疊浅辙,又有相互關(guān)聯(lián)和促進(jìn)。以往的多樣性建模往往比較片面超埋。而基于序列優(yōu)化的建模方式卦溢,能夠處理內(nèi)容之間所有可能關(guān)聯(lián)。強(qiáng)化學(xué)習(xí)在這中間泵殴,起到了關(guān)鍵的序列全局優(yōu)化的作用涮帘。而百度內(nèi)部在2017年底就Launch了序列優(yōu)化框架,據(jù)了解笑诅,這個(gè)框架至今已經(jīng)取得了不少收益调缨。而PARL在其中充分發(fā)揮了其在大規(guī)模訓(xùn)練中性能的優(yōu)勢(shì)。
(序列生成網(wǎng)絡(luò) – 指針網(wǎng)絡(luò))
而在列表頁(yè)之間的轉(zhuǎn)移方面吆你,百度內(nèi)部也早已已經(jīng)開展了探索弦叶。對(duì)于信息流推薦這類產(chǎn)品的列表間優(yōu)化,強(qiáng)化學(xué)習(xí)面臨一個(gè)難題是Variance過(guò)大妇多,可能導(dǎo)致準(zhǔn)確率下降伤哺。 學(xué)術(shù)界有不少針對(duì)這個(gè)問題的工作,但提出的方法都相對(duì)偏理想化者祖,鮮有方法能夠真正用到線上并產(chǎn)生收益立莉。開發(fā)者正在基于PARL創(chuàng)新“Credit Assignment”這類新的算法,以更好地更接地氣地解決這些問題七问,據(jù)悉目前已有一些進(jìn)展蜓耻,不遠(yuǎn)將來(lái)可能發(fā)布這些成果。
(序列生成 – 評(píng)估框架)
b.???自動(dòng)導(dǎo)航和控制
PARL框架也將強(qiáng)化學(xué)習(xí)用在無(wú)人機(jī)和無(wú)人車的自動(dòng)導(dǎo)航和避障領(lǐng)域械巡∩蔡剩控制問題是一個(gè)經(jīng)典的Delayed Reward問題,強(qiáng)化學(xué)習(xí)最開始也是在控制領(lǐng)域應(yīng)用最廣的讥耗。因?yàn)槿绻l(fā)生碰撞或者控制不好有勾,一定不是當(dāng)前一個(gè)時(shí)間步的問題,而是多個(gè)時(shí)間步的連續(xù)問題古程。傳統(tǒng)的強(qiáng)化學(xué)習(xí)研究柠衅,都不關(guān)注成本和風(fēng)險(xiǎn),認(rèn)為災(zāi)害事件(如碰撞)可以無(wú)成本獲得籍琳。但真實(shí)場(chǎng)景菲宴,比如無(wú)人車贷祈、無(wú)人機(jī),則不允許有那么多的碰撞喝峦。
開發(fā)者利用很多無(wú)人車势誊、無(wú)人機(jī)測(cè)試過(guò)程中的“安全員”這一角色,不僅為了在測(cè)試中可以保障安全谣蠢,還將這些夾雜了安全員干預(yù)的粟耻、不符合傳統(tǒng)強(qiáng)化學(xué)習(xí)路徑的數(shù)據(jù)收集起來(lái),作為信號(hào)來(lái)學(xué)習(xí)眉踱。該算法叫干預(yù)輔助強(qiáng)化學(xué)習(xí)(Intervention Aided Reinforcement Learning)(http://proceedings.mlr.press/v87/wang18a.html)挤忙,它可以通過(guò)學(xué)習(xí)帶干預(yù)的路徑,來(lái)強(qiáng)化策略谈喳,使得干預(yù)可以直接被降低册烈。基于這套算法婿禽,百度成功使得一個(gè)端到端(end-to-end)的復(fù)雜神經(jīng)網(wǎng)絡(luò)模型赏僧,能夠被用于直接控制飛行器的避障,在障礙物比較密集的環(huán)境中平穩(wěn)飛行扭倾。這不僅證明了強(qiáng)化學(xué)習(xí)被用在自動(dòng)導(dǎo)航問題上的可能性淀零,也為無(wú)人車的強(qiáng)化學(xué)習(xí)訓(xùn)練探索了一種方法。該方法也會(huì)在短期內(nèi)開源到PARL里面膛壹,方便用戶使用
總結(jié):
在強(qiáng)化學(xué)習(xí)方面驾中,百度內(nèi)早在 2012 年就將在 multi-armed bandit 問題上的研究成果部署到了推薦系統(tǒng)中,應(yīng)用于搜索模聋、對(duì)話肩民、推薦等產(chǎn)品,通過(guò)點(diǎn)擊反饋結(jié)合在線訓(xùn)練的方式撬槽,動(dòng)態(tài)調(diào)整探索和收益的平衡點(diǎn),在降低探索風(fēng)險(xiǎn)的同時(shí)最大化推薦收益趾撵。隨著PaddlePaddle在工業(yè)界的影響不斷深入侄柔,未來(lái)基于PaddlePaddle深度學(xué)習(xí)框架PARL將對(duì)工業(yè)界,以及學(xué)術(shù)界的深度強(qiáng)化學(xué)習(xí)應(yīng)用和研究起到長(zhǎng)遠(yuǎn)的促進(jìn)作用占调,來(lái)滿足業(yè)界日趨發(fā)展旺盛的深度強(qiáng)化學(xué)習(xí)應(yīng)用的需求暂题,做到真正源于產(chǎn)業(yè)實(shí)踐的深度學(xué)習(xí)框架。