「關(guān)聯(lián)分析」18關(guān)聯(lián)分析之Aprior算法與FP-growth算法

1.關(guān)聯(lián)分析

????關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間的相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣即寒。通過了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價目表設(shè)計唠帝、商品促銷、商品的排放和基于購買模式的顧客劃分生蚁。

2.相關(guān)概念

支持度:A、B同時發(fā)生的概率Support(A==>B)=P(A and B)

置信度:如果A發(fā)生档悠,B發(fā)生的概率Confidence(A==>B)=P(B|A)

3.Aprior算法

(1)原理

????Aprior算法是一種找頻繁項目集的基本算法。其基本原理是逐層搜索的迭代:頻繁K項Lk集用于搜索頻繁(K+1)項集Lk+1望浩,如此下去辖所,直到不能找到維度更高的頻繁項集為止。

????這種方法依賴連接和剪枝這兩步來實現(xiàn)磨德。算法的第一次遍歷僅僅計算每個項目的具體值的數(shù)量缘回,以確定大型1項集。隨后的遍歷典挑,第k次遍歷酥宴,包括兩個階段。

????首先您觉,使用在第(k-1)次遍歷中找到的項集Lk-1和產(chǎn)生候選項集Ck拙寡。

????接著掃描數(shù)據(jù)庫,計算Ck中候選的支持度琳水。用Hash樹可以有效地確定Ck中包含在一個給定的事務(wù)t中的候選肆糕。如果某項集滿足最小支持度,則稱它為頻繁項集在孝。

(2)步驟:

①設(shè)定最小支持度s和最小置信度c诚啃;

②Apriori算法使用候選項集。首先產(chǎn)生出候選的項的集合浑玛,即候選項集绍申,若候選項集的支持度大于或等于最小支持度,則該候選項集為頻繁項集顾彰;

③在Apriori算法的過程中极阅,首先從數(shù)據(jù)庫讀入所有的事務(wù),每個項都被看作候選1-項集涨享,得出各項的支持度筋搏,再使用頻繁1-項集集合來產(chǎn)生候選2-項集,因為先驗原理保證所有非頻繁的1-項集的超集都是非頻繁的厕隧;

④再掃描數(shù)據(jù)庫奔脐,得出候選2-項集集合,再找出頻繁2-項集吁讨,并利用這些頻繁2-項集集合來產(chǎn)生候選3-項集髓迎;

⑤重復(fù)掃描數(shù)據(jù)庫,與最小支持度比較,產(chǎn)生更高層次的頻繁項集建丧,再從該集合里產(chǎn)生下一級候選項集排龄,直到不再產(chǎn)生新的候選項集為止。

(3)程序?qū)崿F(xiàn):

????python自帶庫里沒有Aprior模塊翎朱,可以去網(wǎng)上自己下載橄维,然后封裝成自定義模塊尺铣,放在~/python/Lib/目錄下;也可以在程序里增加導(dǎo)入數(shù)據(jù)的模塊争舞,每次只要加入數(shù)據(jù)源即可凛忿。

4.FP-growth算法

(1)原理

????FP-growth算法是基于Apriori原理的,通過將數(shù)據(jù)集存儲在FP(Frequent Pattern)樹上發(fā)現(xiàn)頻繁項集竞川,但不能發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則店溢。FP-growth算法只需要對數(shù)據(jù)庫進(jìn)行兩次掃描,而Apriori算法在求每個潛在的頻繁項集時都需要掃描一次數(shù)據(jù)集流译,所以說Apriori算法是高效的逞怨。

(2)步驟

①掃描第一遍數(shù)據(jù)庫,找出頻繁項福澡;

②將記錄按照頻繁項集的支持度由大到小順序重新排列叠赦;

③掃描第二遍數(shù)據(jù)庫,產(chǎn)生FP-tree革砸;

④得到頻繁項集除秀。

(3)實例

數(shù)據(jù)如下:

數(shù)據(jù)源

其FP-tree為:

FP-tree
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市算利,隨后出現(xiàn)的幾起案子册踩,更是在濱河造成了極大的恐慌,老刑警劉巖效拭,帶你破解...
    沈念sama閱讀 221,331評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件暂吉,死亡現(xiàn)場離奇詭異,居然都是意外死亡缎患,警方通過查閱死者的電腦和手機(jī)慕的,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,372評論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來挤渔,“玉大人肮街,你說我怎么就攤上這事∨械迹” “怎么了嫉父?”我有些...
    開封第一講書人閱讀 167,755評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長眼刃。 經(jīng)常有香客問我绕辖,道長,這世上最難降的妖魔是什么擂红? 我笑而不...
    開封第一講書人閱讀 59,528評論 1 296
  • 正文 為了忘掉前任仪际,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘弟头。我一直安慰自己,他們只是感情好涉茧,可當(dāng)我...
    茶點故事閱讀 68,526評論 6 397
  • 文/花漫 我一把揭開白布赴恨。 她就那樣靜靜地躺著,像睡著了一般伴栓。 火紅的嫁衣襯著肌膚如雪伦连。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,166評論 1 308
  • 那天钳垮,我揣著相機(jī)與錄音惑淳,去河邊找鬼。 笑死饺窿,一個胖子當(dāng)著我的面吹牛歧焦,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播肚医,決...
    沈念sama閱讀 40,768評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼绢馍,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了肠套?” 一聲冷哼從身側(cè)響起舰涌,我...
    開封第一講書人閱讀 39,664評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎你稚,沒想到半個月后瓷耙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,205評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡刁赖,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,290評論 3 340
  • 正文 我和宋清朗相戀三年搁痛,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乾闰。...
    茶點故事閱讀 40,435評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡落追,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出涯肩,到底是詐尸還是另有隱情轿钠,我是刑警寧澤,帶...
    沈念sama閱讀 36,126評論 5 349
  • 正文 年R本政府宣布病苗,位于F島的核電站疗垛,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏硫朦。R本人自食惡果不足惜贷腕,卻給世界環(huán)境...
    茶點故事閱讀 41,804評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧泽裳,春花似錦瞒斩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,276評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至瀑梗,卻和暖如春烹笔,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背抛丽。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工谤职, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人亿鲜。 一個月前我還...
    沈念sama閱讀 48,818評論 3 376
  • 正文 我出身青樓允蜈,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蒿柳。 傳聞我的和親對象是個殘疾皇子陷寝,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,442評論 2 359

推薦閱讀更多精彩內(nèi)容