「關(guān)聯(lián)分析」18關(guān)聯(lián)分析之Aprior算法與FP-growth算法

1.關(guān)聯(lián)分析

????關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間的相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系，分析顧客的購買習(xí)慣即寒。通過了解哪些商品頻繁地被顧客同時購買，這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價目表設(shè)計唠帝、商品促銷、商品的排放和基于購買模式的顧客劃分生蚁。

2.相關(guān)概念

支持度：A、B同時發(fā)生的概率Support(A==>B)=P(A and B)

置信度：如果A發(fā)生档悠，B發(fā)生的概率Confidence(A==>B)=P(B|A)

3.Aprior算法

（1）原理

????Aprior算法是一種找頻繁項目集的基本算法。其基本原理是逐層搜索的迭代：頻繁K項Lk集用于搜索頻繁（K+1）項集Lk+1望浩，如此下去辖所，直到不能找到維度更高的頻繁項集為止。

????這種方法依賴連接和剪枝這兩步來實現(xiàn)磨德。算法的第一次遍歷僅僅計算每個項目的具體值的數(shù)量缘回，以確定大型1項集。隨后的遍歷典挑，第k次遍歷酥宴，包括兩個階段。

????首先您觉，使用在第（k-1）次遍歷中找到的項集Lk-1和產(chǎn)生候選項集Ck拙寡。

????接著掃描數(shù)據(jù)庫，計算Ck中候選的支持度琳水。用Hash樹可以有效地確定Ck中包含在一個給定的事務(wù)t中的候選肆糕。如果某項集滿足最小支持度，則稱它為頻繁項集在孝。

（2）步驟：

①設(shè)定最小支持度s和最小置信度c诚啃；

②Apriori算法使用候選項集。首先產(chǎn)生出候選的項的集合浑玛，即候選項集绍申，若候選項集的支持度大于或等于最小支持度，則該候選項集為頻繁項集顾彰；

③在Apriori算法的過程中极阅，首先從數(shù)據(jù)庫讀入所有的事務(wù)，每個項都被看作候選1-項集涨享，得出各項的支持度筋搏，再使用頻繁1-項集集合來產(chǎn)生候選2-項集，因為先驗原理保證所有非頻繁的1-項集的超集都是非頻繁的厕隧；

④再掃描數(shù)據(jù)庫奔脐，得出候選2-項集集合，再找出頻繁2-項集吁讨，并利用這些頻繁2-項集集合來產(chǎn)生候選3-項集髓迎；

⑤重復(fù)掃描數(shù)據(jù)庫，與最小支持度比較,產(chǎn)生更高層次的頻繁項集建丧，再從該集合里產(chǎn)生下一級候選項集排龄，直到不再產(chǎn)生新的候選項集為止。

（3）程序?qū)崿F(xiàn)：

????python自帶庫里沒有Aprior模塊翎朱，可以去網(wǎng)上自己下載橄维，然后封裝成自定義模塊尺铣，放在~/python/Lib/目錄下；也可以在程序里增加導(dǎo)入數(shù)據(jù)的模塊争舞，每次只要加入數(shù)據(jù)源即可凛忿。

4.FP-growth算法

（1）原理

????FP-growth算法是基于Apriori原理的，通過將數(shù)據(jù)集存儲在FP（Frequent Pattern)樹上發(fā)現(xiàn)頻繁項集竞川，但不能發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則店溢。FP-growth算法只需要對數(shù)據(jù)庫進(jìn)行兩次掃描，而Apriori算法在求每個潛在的頻繁項集時都需要掃描一次數(shù)據(jù)集流译，所以說Apriori算法是高效的逞怨。

（2）步驟

①掃描第一遍數(shù)據(jù)庫，找出頻繁項福澡；

②將記錄按照頻繁項集的支持度由大到小順序重新排列叠赦；

③掃描第二遍數(shù)據(jù)庫，產(chǎn)生FP-tree革砸；

④得到頻繁項集除秀。

（3）實例

數(shù)據(jù)如下：

數(shù)據(jù)源

其FP-tree為：

FP-tree

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市算利，隨后出現(xiàn)的幾起案子册踩，更是在濱河造成了極大的恐慌，老刑警劉巖效拭，帶你破解...
沈念sama閱讀 221,331評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件暂吉，死亡現(xiàn)場離奇詭異，居然都是意外死亡缎患，警方通過查閱死者的電腦和手機(jī)慕的，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,372評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來挤渔，“玉大人肮街，你說我怎么就攤上這事∨械迹” “怎么了嫉父？”我有些...
開封第一講書人閱讀 167,755評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長眼刃。經(jīng)常有香客問我绕辖，道長，這世上最難降的妖魔是什么擂红？我笑而不...
開封第一講書人閱讀 59,528評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任仪际，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘弟头。我一直安慰自己，他們只是感情好涉茧，可當(dāng)我...
茶點故事閱讀 68,526評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布赴恨。她就那樣靜靜地躺著，像睡著了一般伴栓。火紅的嫁衣襯著肌膚如雪伦连。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,166評論 1贊 308
城市分裂傳說
那天钳垮，我揣著相機(jī)與錄音惑淳，去河邊找鬼。笑死饺窿，一個胖子當(dāng)著我的面吹牛歧焦，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播肚医，決...
沈念sama閱讀 40,768評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼绢馍，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了肠套？” 一聲冷哼從身側(cè)響起舰涌，我...
開封第一講書人閱讀 39,664評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎你稚，沒想到半個月后瓷耙，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,205評論 1贊 319
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡刁赖，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,290評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年搁痛，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乾闰。...
茶點故事閱讀 40,435評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡落追，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出涯肩，到底是詐尸還是另有隱情轿钠，我是刑警寧澤，帶...
沈念sama閱讀 36,126評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布病苗，位于F島的核電站疗垛，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏硫朦。R本人自食惡果不足惜贷腕，卻給世界環(huán)境...
茶點故事閱讀 41,804評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧泽裳，春花似錦瞒斩、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,276評論 0贊 23
一樁弒父案胸囱，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至瀑梗，卻和暖如春烹笔，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背抛丽。一陣腳步聲響...
開封第一講書人閱讀 33,393評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工谤职，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人亿鲜。一個月前我還...
沈念sama閱讀 48,818評論 3贊 376
代替公主和親
正文我出身青樓允蜈，卻偏偏與公主長得像，于是被迫代替她去往敵國和親蒿柳。傳聞我的和親對象是個殘疾皇子陷寝，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,442評論 2贊 359

「關(guān)聯(lián)分析」18關(guān)聯(lián)分析之Aprior算法與FP-growth算法

推薦閱讀更多精彩內(nèi)容