百度PaddlePaddle再獲新技能 智能推薦晾剖、對(duì)話系統(tǒng)齿尽、控制領(lǐng)域都能搞定灯节!

引言:人工智能技術(shù)越來(lái)越廣泛的應(yīng)用于各行各業(yè),而這一切都離不開底層深度學(xué)習(xí)框架的支持壹士。近日躏救,百度深度學(xué)習(xí)PaddlePaddle正式發(fā)布了強(qiáng)化學(xué)習(xí)框架PARL盒使,同時(shí)開源了基于該框架,在NeurIPS 2018強(qiáng)化學(xué)習(xí)賽事中奪冠的模型完整訓(xùn)練代碼七嫌,再次向業(yè)界展示了百度在深度學(xué)習(xí)領(lǐng)域的技術(shù)能力少办。

PARL的效果如何?

PARL是基于百度 PaddlePaddle 打造的深度強(qiáng)化學(xué)習(xí)框架诵原,覆蓋了DQN英妓、DDQN、Dueling DQN绍赛、DDPG蔓纠、PPO等主流強(qiáng)化學(xué)習(xí)算法。在PARL 1.0的發(fā)布中吗蚌,基于PARL實(shí)現(xiàn)的DDPG, DQN, PPO等算法均有覆蓋蚯妇,在一些經(jīng)典測(cè)試問題中敷燎,如Atari Game, Mujoco等,均取得了state-of-the-art的成績(jī)箩言。性能相比其他平臺(tái)也毫不示弱硬贯。

此外,PARL 框架支持百億級(jí)別數(shù)據(jù)或特征的訓(xùn)練陨收,基于PARL可同時(shí)通過(guò)8塊GPU拉動(dòng)近20000個(gè)CPU節(jié)點(diǎn)運(yùn)算澄成。在NeurIPS 2018賽事中將需要近5個(gè)小時(shí)迭代一輪的PPO算法加速到不到1分鐘,相對(duì)單機(jī)運(yùn)算加速比高達(dá)幾百倍畏吓。與現(xiàn)有開源強(qiáng)化學(xué)習(xí)工具和平臺(tái)相比墨状,PARL框架具有更高的可擴(kuò)展性、可復(fù)現(xiàn)性和可復(fù)用性菲饼,支持大規(guī)模并行和稀疏特征肾砂,能夠快速完成對(duì)工業(yè)級(jí)應(yīng)用案例的驗(yàn)證。

在NeurIPS 2018強(qiáng)化學(xué)習(xí)賽事中PRAL的使用脫穎而出宏悦,擊敗了400多支來(lái)自全球各個(gè)研究機(jī)構(gòu)的參賽隊(duì)伍镐确,獲得冠軍的最關(guān)鍵因素是包吝,PARL框架在算法上采用了獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu),特征處理源葫、獎(jiǎng)勵(lì)值工程诗越、探索策略以及學(xué)習(xí)方法。其中比較重要一點(diǎn)是用了課程學(xué)習(xí)(Curriculum Learning)來(lái)學(xué)習(xí)一個(gè)比較好的初始步態(tài)息堂。而在架構(gòu)方面嚷狞,受到GA3C啟發(fā),所設(shè)計(jì)的DDPG并行結(jié)構(gòu)直接達(dá)到了單機(jī)性能的幾百倍荣堰,使得深度強(qiáng)化學(xué)習(xí)框架PARL的調(diào)研效率大大提升床未。

?

PARL在哪些前沿應(yīng)用發(fā)揮作用?

a.????新聞和信息推薦

近年來(lái)振坚,信息流在研究上出現(xiàn)兩個(gè)難點(diǎn)和熱點(diǎn)薇搁,一個(gè)是列表頁(yè)內(nèi)的組合優(yōu)化,另一個(gè)是列表頁(yè)間的興趣轉(zhuǎn)移渡八。傳統(tǒng)推薦往往都是基于用戶和單點(diǎn)內(nèi)容之間的喜好程度來(lái)預(yù)估】醒螅現(xiàn)代信息推薦系統(tǒng)注重列表內(nèi)的組合,以及列表頁(yè)間的轉(zhuǎn)移變化屎鳍。而這兩個(gè)點(diǎn)裂允,都是強(qiáng)化學(xué)習(xí)適合的重要場(chǎng)景。


列表頁(yè)內(nèi)的優(yōu)化主要是內(nèi)容之間的組合哥艇,現(xiàn)代信息流推薦系統(tǒng)并不是一次只推薦一個(gè)內(nèi)容,而是一次推薦多個(gè)內(nèi)容僻澎。由于列表多個(gè)內(nèi)容之間的相互關(guān)聯(lián)會(huì)影響到用戶體驗(yàn)貌踏,但對(duì)于

具體如何關(guān)聯(lián),卻沒有辦法確定窟勃。雖然大家都知道多樣性比較重要祖乳,但為什么重要,以及多樣性到底怎么量化秉氧,目前依舊缺乏統(tǒng)一的認(rèn)識(shí)眷昆。而列表頁(yè)間的優(yōu)化,針對(duì)的是用戶行為的序列汁咏。用戶瀏覽完一個(gè)列表亚斋,重新刷新,再看第二個(gè)列表攘滩,這個(gè)過(guò)程中興趣有沒有發(fā)生轉(zhuǎn)移帅刊?有沒有新的興趣被激發(fā)?這兩個(gè)點(diǎn)都涉及到長(zhǎng)期收益問題漂问。也就是說(shuō)赖瞒,不能再僅僅用當(dāng)前內(nèi)容的用戶反饋來(lái)學(xué)習(xí)女揭,而是得用比較長(zhǎng)時(shí)間的收益來(lái)學(xué)習(xí)。

在列表頁(yè)內(nèi)組合上栏饮,PARL所提出的序列框架統(tǒng)一了學(xué)術(shù)界對(duì)列表頁(yè)框架認(rèn)識(shí)的一些模糊吧兔。根據(jù)百度發(fā)布的文章,多樣性一個(gè)概念遠(yuǎn)不足以反映列表頁(yè)內(nèi)的關(guān)聯(lián)關(guān)系袍嬉。內(nèi)容之間既有相互重疊浅辙,又有相互關(guān)聯(lián)和促進(jìn)。以往的多樣性建模往往比較片面超埋。而基于序列優(yōu)化的建模方式卦溢,能夠處理內(nèi)容之間所有可能關(guān)聯(lián)。強(qiáng)化學(xué)習(xí)在這中間泵殴,起到了關(guān)鍵的序列全局優(yōu)化的作用涮帘。而百度內(nèi)部在2017年底就Launch了序列優(yōu)化框架,據(jù)了解笑诅,這個(gè)框架至今已經(jīng)取得了不少收益调缨。而PARL在其中充分發(fā)揮了其在大規(guī)模訓(xùn)練中性能的優(yōu)勢(shì)。

(序列生成網(wǎng)絡(luò) – 指針網(wǎng)絡(luò))

而在列表頁(yè)之間的轉(zhuǎn)移方面吆你,百度內(nèi)部也早已已經(jīng)開展了探索弦叶。對(duì)于信息流推薦這類產(chǎn)品的列表間優(yōu)化,強(qiáng)化學(xué)習(xí)面臨一個(gè)難題是Variance過(guò)大妇多,可能導(dǎo)致準(zhǔn)確率下降伤哺。 學(xué)術(shù)界有不少針對(duì)這個(gè)問題的工作,但提出的方法都相對(duì)偏理想化者祖,鮮有方法能夠真正用到線上并產(chǎn)生收益立莉。開發(fā)者正在基于PARL創(chuàng)新“Credit Assignment”這類新的算法,以更好地更接地氣地解決這些問題七问,據(jù)悉目前已有一些進(jìn)展蜓耻,不遠(yuǎn)將來(lái)可能發(fā)布這些成果。

(序列生成 – 評(píng)估框架)

b.???自動(dòng)導(dǎo)航和控制

PARL框架也將強(qiáng)化學(xué)習(xí)用在無(wú)人機(jī)和無(wú)人車的自動(dòng)導(dǎo)航和避障領(lǐng)域械巡∩蔡剩控制問題是一個(gè)經(jīng)典的Delayed Reward問題,強(qiáng)化學(xué)習(xí)最開始也是在控制領(lǐng)域應(yīng)用最廣的讥耗。因?yàn)槿绻l(fā)生碰撞或者控制不好有勾,一定不是當(dāng)前一個(gè)時(shí)間步的問題,而是多個(gè)時(shí)間步的連續(xù)問題古程。傳統(tǒng)的強(qiáng)化學(xué)習(xí)研究柠衅,都不關(guān)注成本和風(fēng)險(xiǎn),認(rèn)為災(zāi)害事件(如碰撞)可以無(wú)成本獲得籍琳。但真實(shí)場(chǎng)景菲宴,比如無(wú)人車贷祈、無(wú)人機(jī),則不允許有那么多的碰撞喝峦。

開發(fā)者利用很多無(wú)人車势誊、無(wú)人機(jī)測(cè)試過(guò)程中的“安全員”這一角色,不僅為了在測(cè)試中可以保障安全谣蠢,還將這些夾雜了安全員干預(yù)的粟耻、不符合傳統(tǒng)強(qiáng)化學(xué)習(xí)路徑的數(shù)據(jù)收集起來(lái),作為信號(hào)來(lái)學(xué)習(xí)眉踱。該算法叫干預(yù)輔助強(qiáng)化學(xué)習(xí)(Intervention Aided Reinforcement Learning)(http://proceedings.mlr.press/v87/wang18a.html)挤忙,它可以通過(guò)學(xué)習(xí)帶干預(yù)的路徑,來(lái)強(qiáng)化策略谈喳,使得干預(yù)可以直接被降低册烈。基于這套算法婿禽,百度成功使得一個(gè)端到端(end-to-end)的復(fù)雜神經(jīng)網(wǎng)絡(luò)模型赏僧,能夠被用于直接控制飛行器的避障,在障礙物比較密集的環(huán)境中平穩(wěn)飛行扭倾。這不僅證明了強(qiáng)化學(xué)習(xí)被用在自動(dòng)導(dǎo)航問題上的可能性淀零,也為無(wú)人車的強(qiáng)化學(xué)習(xí)訓(xùn)練探索了一種方法。該方法也會(huì)在短期內(nèi)開源到PARL里面膛壹,方便用戶使用


總結(jié):

在強(qiáng)化學(xué)習(xí)方面驾中,百度內(nèi)早在 2012 年就將在 multi-armed bandit 問題上的研究成果部署到了推薦系統(tǒng)中,應(yīng)用于搜索模聋、對(duì)話肩民、推薦等產(chǎn)品,通過(guò)點(diǎn)擊反饋結(jié)合在線訓(xùn)練的方式撬槽,動(dòng)態(tài)調(diào)整探索和收益的平衡點(diǎn),在降低探索風(fēng)險(xiǎn)的同時(shí)最大化推薦收益趾撵。隨著PaddlePaddle在工業(yè)界的影響不斷深入侄柔,未來(lái)基于PaddlePaddle深度學(xué)習(xí)框架PARL將對(duì)工業(yè)界,以及學(xué)術(shù)界的深度強(qiáng)化學(xué)習(xí)應(yīng)用和研究起到長(zhǎng)遠(yuǎn)的促進(jìn)作用占调,來(lái)滿足業(yè)界日趨發(fā)展旺盛的深度強(qiáng)化學(xué)習(xí)應(yīng)用的需求暂题,做到真正源于產(chǎn)業(yè)實(shí)踐的深度學(xué)習(xí)框架。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末究珊,一起剝皮案震驚了整個(gè)濱河市薪者,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌剿涮,老刑警劉巖言津,帶你破解...
    沈念sama閱讀 212,454評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件攻人,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡悬槽,警方通過(guò)查閱死者的電腦和手機(jī)怀吻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)初婆,“玉大人蓬坡,你說(shuō)我怎么就攤上這事“跖眩” “怎么了屑咳?”我有些...
    開封第一講書人閱讀 157,921評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)弊琴。 經(jīng)常有香客問我兆龙,道長(zhǎng),這世上最難降的妖魔是什么访雪? 我笑而不...
    開封第一講書人閱讀 56,648評(píng)論 1 284
  • 正文 為了忘掉前任详瑞,我火速辦了婚禮,結(jié)果婚禮上臣缀,老公的妹妹穿的比我還像新娘坝橡。我一直安慰自己,他們只是感情好精置,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評(píng)論 6 386
  • 文/花漫 我一把揭開白布计寇。 她就那樣靜靜地躺著,像睡著了一般脂倦。 火紅的嫁衣襯著肌膚如雪番宁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,950評(píng)論 1 291
  • 那天赖阻,我揣著相機(jī)與錄音蝶押,去河邊找鬼。 笑死火欧,一個(gè)胖子當(dāng)著我的面吹牛棋电,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播苇侵,決...
    沈念sama閱讀 39,090評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼赶盔,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了榆浓?” 一聲冷哼從身側(cè)響起于未,我...
    開封第一講書人閱讀 37,817評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后烘浦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抖坪,經(jīng)...
    沈念sama閱讀 44,275評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評(píng)論 2 327
  • 正文 我和宋清朗相戀三年谎倔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了柳击。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,724評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡片习,死狀恐怖捌肴,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情藕咏,我是刑警寧澤状知,帶...
    沈念sama閱讀 34,409評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站孽查,受9級(jí)特大地震影響饥悴,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜盲再,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評(píng)論 3 316
  • 文/蒙蒙 一西设、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧答朋,春花似錦贷揽、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至洪规,卻和暖如春印屁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背斩例。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工雄人, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人念赶。 一個(gè)月前我還...
    沈念sama閱讀 46,503評(píng)論 2 361
  • 正文 我出身青樓础钠,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親晶乔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子珍坊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容