Parallel Implementation of Decision Tree Learning Algorithms

1. Intro

和其他分類方法相比，建立Decision tree更快絮识，而且有時(shí)候能夠獲得相近或者更高的準(zhǔn)確率
但是绿聘，決策樹(shù)的并行實(shí)現(xiàn)有幾個(gè)難點(diǎn)：樹(shù)的形狀是不規(guī)則，而且是運(yùn)行時(shí)才確定的次舌， static的分配策略會(huì)造成imbalance問(wèn)題熄攘；樹(shù)的一個(gè)node的子node并行執(zhí)行時(shí)，它們需要父節(jié)點(diǎn)的部分?jǐn)?shù)據(jù)垃它，因此需要processor間data移動(dòng)鲜屏，如果數(shù)據(jù)劃分的不夠好烹看，poor locality會(huì)降低性能

2. Related Work

2.1. Task parallelism

將決策樹(shù)的node分配到不同的processor上
缺點(diǎn)是国拇， bad load balance，因?yàn)椴煌琾rocessor處理的樹(shù)的大小是不一致的

2.2. Data parallelism

將訓(xùn)練數(shù)據(jù)劃分到不同的processor上惯殊，劃分策略有水平劃分和垂直劃分
垂直劃分酱吝，一個(gè)processor處理訓(xùn)練數(shù)據(jù)的一部分屬性。垂直劃分還是有l(wèi)oad imbalance的問(wèn)題土思，因?yàn)檫B續(xù)屬性與離散屬性相比务热，需要更多的計(jì)算
水平劃分，將數(shù)據(jù)平均劃分到processor上己儒。需要在不同processor間通信以獲得最佳的split崎岂；對(duì)每個(gè)屬性，建立獨(dú)立的value list闪湾；每個(gè)node進(jìn)行split時(shí)冲甘，在不同processor之間有很高的通信負(fù)擔(dān)

2.3. Hybrid parallelism

同時(shí)使用Task parallelism和Data parallelism

3. C4.5 parallel implementation

水平劃分策略，與SLIQ (SPRINT: A scalable parallel classifier for data mining)類似
連續(xù)屬性的lists途样，根據(jù)屬性的值江醇，進(jìn)行全局的sorting
C4.5的limitation：對(duì)連續(xù)屬性，每個(gè)node反復(fù)地sort訓(xùn)練examples
并行tree構(gòu)建過(guò)程主要是兩個(gè)問(wèn)題：split和找到最佳的split
每個(gè)processor統(tǒng)計(jì)本地?cái)?shù)據(jù)的每個(gè)屬性的分布情況何暇，然后發(fā)送給其他的processor陶夜；最佳split找到后，創(chuàng)建child node裆站，相應(yīng)地劃分?jǐn)?shù)據(jù)
為每個(gè)屬性建立獨(dú)立的list条辟，這樣能夠避免每次evaluate一個(gè)連續(xù)屬性時(shí)都要重復(fù)排序
SPRINT避免保存class list黔夭，把屬性list擴(kuò)展其他兩個(gè)fields，訓(xùn)練數(shù)據(jù)的class label和global index

最后編輯于：2017.12.03 03:52:47

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末羽嫡，一起剝皮案震驚了整個(gè)濱河市纠修，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌厂僧，老刑警劉巖扣草，帶你破解...
沈念sama閱讀 218,036評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異颜屠，居然都是意外死亡辰妙，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,046評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)甫窟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)密浑，“玉大人，你說(shuō)我怎么就攤上這事粗井《疲” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,411評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵浇衬，是天一觀的道長(zhǎng)懒构。經(jīng)常有香客問(wèn)我，道長(zhǎng)耘擂，這世上最難降的妖魔是什么胆剧？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,622評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮醉冤，結(jié)果婚禮上秩霍，老公的妹妹穿的比我還像新娘。我一直安慰自己蚁阳，他們只是感情好铃绒，可當(dāng)我...
茶點(diǎn)故事閱讀 67,661評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著螺捐，像睡著了一般颠悬。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上归粉，一...
開(kāi)封第一講書(shū)人閱讀 51,521評(píng)論 1贊 304
城市分裂傳說(shuō)
那天椿疗，我揣著相機(jī)與錄音，去河邊找鬼糠悼。笑死届榄，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的倔喂。我是一名探鬼主播铝条，決...
沈念sama閱讀 40,288評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼靖苇，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了班缰？” 一聲冷哼從身側(cè)響起贤壁，我...
開(kāi)封第一講書(shū)人閱讀 39,200評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎埠忘，沒(méi)想到半個(gè)月后脾拆，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,644評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡莹妒，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,837評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年名船，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片旨怠。...
茶點(diǎn)故事閱讀 39,953評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡渠驼，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出鉴腻，到底是詐尸還是另有隱情迷扇，我是刑警寧澤，帶...
沈念sama閱讀 35,673評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布爽哎，位于F島的核電站蜓席，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏倦青。R本人自食惡果不足惜瓮床，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,281評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望产镐。院中可真熱鬧，春花似錦踢步、人聲如沸癣亚。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,889評(píng)論 0贊 22
一樁弒父案获印，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)述雾。三九已至，卻和暖如春兼丰，著一層夾襖步出監(jiān)牢的瞬間玻孟，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,011評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工鳍征，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留黍翎，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,119評(píng)論 3贊 370
代替公主和親
正文我出身青樓艳丛，卻偏偏與公主長(zhǎng)得像匣掸，于是被迫代替她去往敵國(guó)和親趟紊。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,901評(píng)論 2贊 355

Parallel Implementation of Decision Tree Learning Algorithms

1. Intro

2. Related Work

2.1. Task parallelism

2.2. Data parallelism

2.3. Hybrid parallelism

3. C4.5 parallel implementation

推薦閱讀更多精彩內(nèi)容