2018-08-26 #Papers# Mondrian Forests for Large-Scale Regression

Abstract

Many real-world regression problems demand a measure of the uncertainty associated with each prediction. Standard decision forests deliver efficient state-of-the-art predictive performance, but high-quality uncertainty estimates are lacking. Gaussian processes (GPs) deliver uncertainty estimates, but scaling GPs to large-scale datasets comes at the cost of approximating the uncertainty estimates. We extend Mondrian forests, rst proposed by Lakshminarayanan et al. (2014) for classication problems, to the large-scale non-parametric regression setting. Using a novel hierarchical Gaussian prior that dovetails with the Mondrian forest framework, we obtain principled uncertainty estimates, while still retaining the computational advantages of decision forests. Through a combination of illustrative examples, real-world large-scale datasets, and Bayesian optimization benchmarks, we demonstrate that Mondrian forests outperform approximate GPs on large-scale regression tasks and deliver better-calibrated uncertainty assessments than decision-forest-based methods.

思路概覽

高斯分布(Gaussian process, GP)回歸十分熱門泼疑,它不僅對(duì)非參數(shù)化預(yù)測準(zhǔn)確樊破,同時(shí)保留了對(duì)未觀測到數(shù)據(jù)的預(yù)測能力配紫。然而尾序,GP計(jì)算量相當(dāng)大。本文的目的是結(jié)合GP的屬性(good uncertainty estimates, probabilistic setup)和決策森林的屬性(computational speed)陌僵。具體做法如下:本文應(yīng)用了Mondrian Forest(MF),因?yàn)镸F每棵樹都有一個(gè)概率模型,而不同于其他決策森林胶征。在MF的基礎(chǔ)上作了以下擴(kuò)展:在每個(gè)葉節(jié)點(diǎn)應(yīng)用分層高斯先驗(yàn)概率(hierarchical Gaussian prior),并利用Gaussian belief propagation計(jì)算后驗(yàn)參數(shù)桨仿。

Mondrain Forest

建樹過程

MF建樹過程.png

預(yù)測

原始MF算法中睛低,預(yù)測值為:在特征向量為x時(shí),y的預(yù)測概率是什么服傍,表達(dá)為p_T(y|x, \mathcal{D}_{1: N})钱雷。不同于MF分類樹預(yù)測后驗(yàn)概率,Modrian regression tree是預(yù)測高斯后驗(yàn)值吹零。

p.s.每個(gè)節(jié)點(diǎn)數(shù)據(jù)分布都滿足高斯分布

需要注意的是:大部分決策樹預(yù)測值都僅與葉節(jié)點(diǎn)leaf(x)相關(guān)罩抗,而與內(nèi)部節(jié)點(diǎn)無關(guān)。但Mondrain tree不同灿椅,一個(gè)測試點(diǎn)x在根節(jié)點(diǎn)root到葉節(jié)點(diǎn)leaf任一節(jié)點(diǎn)中都可能分裂套蒂。因此一棵樹的預(yù)測值(后驗(yàn)概率)滿足一個(gè)混合高斯分布:
p_T(y|x, \mathcal{D}_{1:N}) = \sum_{j\in{path(leaf(x))}}{w_j\mathcal{N}(y|m_j, v_j)}

其中,w_j代表了每個(gè)component的權(quán)重茫蛹,指的是操刀,在快到達(dá)節(jié)點(diǎn)j之前(即j的父節(jié)點(diǎn)),節(jié)點(diǎn)分裂的概率婴洼。

如果在預(yù)測過程中:

  • x重新劃分馍刮,此時(shí)預(yù)測值為其父節(jié)點(diǎn)的后驗(yàn)概率;
  • x落入一個(gè)葉節(jié)點(diǎn)窃蹋,此時(shí)預(yù)測值為當(dāng)前葉節(jié)點(diǎn)的后驗(yàn)概率卡啰;
    x離訓(xùn)練集越遠(yuǎn),則更有可能分裂警没,因此當(dāng)測試集與訓(xùn)練集分布不同時(shí)匈辱,MF仍能保留預(yù)測能力。

一個(gè)森林的預(yù)測值則為:
p_T(y|x, \mathcal{D}_{1:N}) = \frac{1}{M}\sum_{m}p{T_m}(y|x, \mathcal{D}_{1:N})

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末杀迹,一起剝皮案震驚了整個(gè)濱河市亡脸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌树酪,老刑警劉巖浅碾,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異续语,居然都是意外死亡垂谢,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門疮茄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來滥朱,“玉大人根暑,你說我怎么就攤上這事♂懔冢” “怎么了排嫌?”我有些...
    開封第一講書人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長缰犁。 經(jīng)常有香客問我淳地,道長,這世上最難降的妖魔是什么帅容? 我笑而不...
    開封第一講書人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任薇芝,我火速辦了婚禮,結(jié)果婚禮上丰嘉,老公的妹妹穿的比我還像新娘夯到。我一直安慰自己,他們只是感情好饮亏,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開白布耍贾。 她就那樣靜靜地躺著,像睡著了一般路幸。 火紅的嫁衣襯著肌膚如雪荐开。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,754評(píng)論 1 307
  • 那天简肴,我揣著相機(jī)與錄音晃听,去河邊找鬼。 笑死砰识,一個(gè)胖子當(dāng)著我的面吹牛能扒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播辫狼,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼初斑,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了膨处?” 一聲冷哼從身側(cè)響起见秤,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎真椿,沒想到半個(gè)月后鹃答,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡突硝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年测摔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狞换。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡避咆,死狀恐怖舟肉,靈堂內(nèi)的尸體忽然破棺而出修噪,到底是詐尸還是另有隱情查库,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布黄琼,位于F島的核電站樊销,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏脏款。R本人自食惡果不足惜围苫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望撤师。 院中可真熱鬧剂府,春花似錦、人聲如沸剃盾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽痒谴。三九已至衰伯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間积蔚,已是汗流浹背意鲸。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留尽爆,地道東北人怎顾。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像漱贱,于是被迫代替她去往敵國和親杆勇。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 要想保持年輕饱亿,就必須擁有一顆機(jī)器之心
    Wind季閱讀 164評(píng)論 0 0
  • 546
    紅昔昔閱讀 97評(píng)論 0 0
  • 86/100 村上春樹說:如果我愛你蚜退,而你也正巧愛我。你頭發(fā)亂了時(shí)候彪笼,我會(huì)笑笑地替你撥一撥钻注,然后,手還留戀地在你發(fā)...
    Angela的思考術(shù)閱讀 210評(píng)論 0 0
  • 鑒于總是晚上做夢(mèng)配猫,并且五花八門幅恋,決定從明天開始把夢(mèng)境表述出來。
    沽麓閱讀 124評(píng)論 0 0