挖掘思維——讓數(shù)據(jù)分析插上智能的翅膀

在數(shù)據(jù)分析中,模型是非常有用和有效的工具和數(shù)據(jù)分析應(yīng)用的場景涮因,在建立模型的過程中奸汇,數(shù)據(jù)挖掘很多時(shí)候能夠起到非常顯著的作用。伴隨著計(jì)算機(jī)科學(xué)的發(fā)展秀姐,模型也越來越向智能化和自動(dòng)化發(fā)展慈迈。對數(shù)據(jù)分析而言,了解數(shù)據(jù)挖掘背后的思想省有,可以有助于建立更具穩(wěn)定性的模型和更高效的模型痒留。

數(shù)據(jù)挖掘前世今生

數(shù)據(jù)模型很多時(shí)候就是一個(gè)類似Y=f(X)的函數(shù),這個(gè)函數(shù)貫穿了模型從構(gòu)思到建立蠢沿,從調(diào)試再到最后落地應(yīng)用的全部過程伸头。

Y=f(X)建立之路

對模型而言,其中的規(guī)則和參數(shù)舷蟀,最初是通過經(jīng)驗(yàn)判斷人為給出的恤磷。伴隨著統(tǒng)計(jì)方法和技術(shù)的發(fā)展,在模型的建立過程中雪侥,也引入了統(tǒng)計(jì)分析的過程碗殷。更進(jìn)一步地,隨著計(jì)算機(jī)科學(xué)的發(fā)展速缨,建模的過程锌妻,也被交給了機(jī)器來完成,因此數(shù)據(jù)挖掘也被用到了模型的建立中旬牲。

數(shù)據(jù)挖掘仿粹,是從大量數(shù)據(jù)中,挖掘出有價(jià)值信息的過程原茅。在有的地方吭历,數(shù)據(jù)挖掘也被成為是數(shù)據(jù)探礦,正如數(shù)據(jù)挖掘的英文data mining一樣擂橘,從數(shù)據(jù)中挖掘有價(jià)值的知識晌区,正如在礦山中采集鉆石一般,不斷去蕪存精通贞,不斷發(fā)掘數(shù)據(jù)新的價(jià)值朗若。數(shù)據(jù)挖掘是通過對數(shù)據(jù)不斷的學(xué)習(xí),從中發(fā)掘規(guī)律和信息的過程昌罩,因此也被稱為統(tǒng)計(jì)學(xué)習(xí)或者是機(jī)器學(xué)習(xí)哭懈。對數(shù)據(jù)挖掘而言,其應(yīng)用范圍廣泛茎用,除了建模遣总,在人工智能領(lǐng)域也有使用睬罗。

回到模型中,從經(jīng)驗(yàn)判斷到數(shù)據(jù)挖掘旭斥,建立模型的計(jì)算特征發(fā)生了極大的改變容达。

計(jì)算特征的發(fā)展

首先數(shù)據(jù)的維度開始從少變多,最初只有幾個(gè)維度琉预,到現(xiàn)在有上百個(gè)維度董饰。數(shù)據(jù)的體量,即記錄的條數(shù)也從少量到海量圆米,從過去了百條規(guī)模到了現(xiàn)在億條規(guī)模。伴隨著數(shù)據(jù)獲取的難度下降啄栓,數(shù)據(jù)的維度和記錄數(shù)量會(huì)越來越多娄帖。在這種情況下,數(shù)據(jù)的處理過程也越來越復(fù)雜昙楚,從過去簡單的幾次加減計(jì)算得到結(jié)果近速,到了現(xiàn)在必須要經(jīng)歷上億次的復(fù)雜運(yùn)算。同時(shí)堪旧,伴隨著計(jì)算性能的提升削葱,對于從數(shù)據(jù)中提取信息而言,也從漸漸深入淳梦,過去只能發(fā)現(xiàn)一眼看出的淺表信息析砸,如今可以不斷去挖掘隱含的知識。

數(shù)據(jù)挖掘的基本思想

數(shù)據(jù)挖掘的別名機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)一樣爆袍,數(shù)據(jù)挖掘的實(shí)質(zhì)是通過計(jì)算機(jī)的計(jì)算能力在一堆數(shù)據(jù)中發(fā)掘出規(guī)律并加以利用的過程首繁。因此對數(shù)據(jù)挖掘而言,就需要經(jīng)歷規(guī)則學(xué)習(xí)陨囊、規(guī)則驗(yàn)證和規(guī)則使用的過程弦疮。

數(shù)據(jù)挖掘的基本思想

規(guī)則學(xué)習(xí)又稱為模型訓(xùn)練,在這個(gè)步驟中蜘醋,有一個(gè)數(shù)據(jù)集將作為訓(xùn)練集胁塞。按照相關(guān)的算法和輸出規(guī)則的要求,從訓(xùn)練集中篩選出需要使用的變量压语,并根據(jù)這些變量生成相關(guān)的規(guī)則啸罢。有的時(shí)候,是將過去已經(jīng)發(fā)生的數(shù)據(jù)作為訓(xùn)練集无蜂,在對比已知的結(jié)果和輸入的變量的過程中伺糠,以盡可能降低輸出誤差的原則,擬合出相應(yīng)的模型斥季。

當(dāng)產(chǎn)生了規(guī)則后训桶,就需要驗(yàn)證規(guī)則的效果和準(zhǔn)確度累驮,這個(gè)時(shí)候就需要引入驗(yàn)證集。驗(yàn)證集和訓(xùn)練集具有相同的格式舵揭,既包含了已知的結(jié)果也包含了輸入的變量谤专。與訓(xùn)練集不同的是,對驗(yàn)證集的應(yīng)用是直接將規(guī)則應(yīng)用于驗(yàn)證集中午绳,去產(chǎn)生出相應(yīng)的輸出結(jié)果置侍,并用輸出的結(jié)果去對比實(shí)際情況,以來確定模型是否有效拦焚。如果有效的話蜡坊,就可以在實(shí)際的場景中應(yīng)用。如果效果不理想赎败,則回頭去調(diào)整模型

測試集是將模型在實(shí)際的場景中使用秕衙,是直接應(yīng)用模型的步驟。在測試集中僵刮,只包含輸入變量卻沒有像其他兩個(gè)數(shù)據(jù)一樣存在的已知結(jié)果据忘。正因?yàn)榻Y(jié)果未知,就需要用測試集通過模型去產(chǎn)生的輸出的結(jié)果搞糕。這個(gè)輸出結(jié)果勇吊,將在為結(jié)果產(chǎn)生以后進(jìn)行驗(yàn)證,只要有效窍仰,模型就會(huì)一直使用下去汉规。

數(shù)據(jù)挖掘的流程

數(shù)據(jù)挖掘與數(shù)據(jù)分析的流程相似,都是從數(shù)據(jù)中發(fā)現(xiàn)知識的過程辈赋,只不過由于數(shù)據(jù)體量和維度的原因鲫忍,數(shù)據(jù)挖掘在計(jì)算上最大。

數(shù)據(jù)挖掘的流程

對數(shù)據(jù)挖掘而言钥屈,首先是進(jìn)行數(shù)據(jù)獲取悟民,數(shù)據(jù)獲取的來源很多,有系統(tǒng)中自行記錄的數(shù)據(jù)篷就,對這種數(shù)據(jù)只要導(dǎo)出即可射亏,同時(shí)也有外來數(shù)據(jù),比如網(wǎng)頁爬取得數(shù)據(jù)竭业,或者是購買的數(shù)據(jù)智润,這些數(shù)據(jù)需要按照分析系統(tǒng)的需求進(jìn)行導(dǎo)入。

在完成了數(shù)據(jù)獲取步驟后未辆,就需要進(jìn)行數(shù)據(jù)處理窟绷,數(shù)據(jù)處理即是處理數(shù)據(jù)中的缺失值,錯(cuò)誤值以及異常值咐柜,按照相關(guān)的規(guī)則進(jìn)行修正或者刪除兼蜈,同時(shí)在數(shù)據(jù)處理中也需要根據(jù)變臉之間的關(guān)系攘残,產(chǎn)生出一系列的衍生變量∥辏總而言之歼郭,數(shù)據(jù)處理的結(jié)果是可以進(jìn)行分析的數(shù)據(jù),所有數(shù)據(jù)在進(jìn)行分析以前都需要完成數(shù)據(jù)處理的步驟辐棒。

如果數(shù)據(jù)在分布上存在較極端的情況病曾,就需要經(jīng)歷數(shù)據(jù)平衡的不走。例如對于要輸出的原始變量而言漾根,存在及其少量的一種類別以及及其大量的另一種類別泰涂,就像有大量的0和少量的1一樣,在這種情況下立叛,就需要對數(shù)據(jù)進(jìn)行平衡负敏,通過復(fù)制1或者削減0的形式生成平衡數(shù)據(jù)集。

當(dāng)完成數(shù)據(jù)平衡后秘蛇,將會(huì)把數(shù)據(jù)處理的結(jié)果分出一部分作為驗(yàn)證集使用,如果數(shù)據(jù)平衡性好顶考,那么剩下的部分作為訓(xùn)練集赁还,如果平衡性不好,那么平衡數(shù)據(jù)集就會(huì)作為訓(xùn)練集使用驹沿。當(dāng)有了訓(xùn)練集后艘策,就按照相關(guān)的算法對訓(xùn)練集進(jìn)行學(xué)習(xí),從而產(chǎn)生出相關(guān)的規(guī)則和參數(shù)渊季。當(dāng)有了規(guī)則以后朋蔫,就將產(chǎn)生的規(guī)則用在驗(yàn)證集中,通過對比已知結(jié)果和輸出結(jié)果之間的誤差情況却汉,來判斷是否通過驯妄。如果通過則在后面再測試集中使用,如果未通過合砂,就通過數(shù)據(jù)平衡青扔、參數(shù)調(diào)整,以及變量選擇等手段重新調(diào)整規(guī)則翩伪,并再次進(jìn)行驗(yàn)證微猖,直到通過驗(yàn)證。

對于驗(yàn)證集驗(yàn)證的步驟而言缘屹,在無監(jiān)督學(xué)習(xí)中沒有這個(gè)步驟凛剥,當(dāng)纏上規(guī)則后,就直接用于測試集轻姿。

數(shù)據(jù)挖掘周而復(fù)始

數(shù)據(jù)挖掘是一個(gè)周而復(fù)始的過程犁珠,在生成規(guī)則的過程中逻炊,不斷地對模型進(jìn)行調(diào)整,從而提升精度盲憎。同時(shí)也將多批次的歷史數(shù)據(jù)引入到數(shù)據(jù)挖掘的過程中嗅骄,進(jìn)行多次的驗(yàn)證,從而在時(shí)間上保證模型的穩(wěn)定性饼疙。

數(shù)據(jù)挖掘的模式

在數(shù)據(jù)挖掘中溺森,對于規(guī)則的獲取,存在三種方式窑眯,分別是監(jiān)督學(xué)習(xí)屏积,無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),這三種方式都是通過從數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)來制定規(guī)則磅甩。

在一個(gè)數(shù)據(jù)挖掘問題中炊林,變量可以分為自變量和因變量,規(guī)則是以自變量為輸入卷要,以因變量為輸出的結(jié)果渣聚,由此對數(shù)據(jù)挖掘問題,就把自變量定義為X僧叉,把因變量定義為Y奕枝。

獲取規(guī)則的方式,來源于對數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)

對于監(jiān)督學(xué)習(xí)而言瓶堕,訓(xùn)練集中包括了自變量X和因變量Y隘道,通過對比X和Y的關(guān)系,得除相應(yīng)的規(guī)則郎笆,同時(shí)再在驗(yàn)證集中谭梗,通過輸入驗(yàn)證集的自變量X,借助規(guī)則得到因變量Y的預(yù)測值宛蚓,再將Y的預(yù)測值與實(shí)際值進(jìn)行對比激捏,看是否可以將模型驗(yàn)證通過,如果通過了苍息,就把只包含自變量X的測試集用于規(guī)則中缩幸,最終輸出因變量Y的預(yù)測值。在監(jiān)督學(xué)習(xí)中竞思,因變量的實(shí)際值和預(yù)測值的對比表谊,就起到監(jiān)督的作用,在規(guī)則制定中需要盡量引導(dǎo)規(guī)則輸出的結(jié)果向?qū)嶋H值靠攏盖喷。

對無監(jiān)督學(xué)習(xí)而言穴翩,訓(xùn)練集中包归,就沒有包含因變量Y回怜,需要根據(jù)模型的目標(biāo),通過對自變量X的分析和對比來得出相關(guān)的規(guī)則余佃,并能夠產(chǎn)生合理的輸出結(jié)果,即Y跨算,在制定規(guī)則的過程中爆土,需要有一些人為的原則對規(guī)則進(jìn)行調(diào)整。當(dāng)完成調(diào)整后诸蚕,就可以把只包含自變量X的測試集放到規(guī)則中步势,去產(chǎn)生規(guī)則的結(jié)果Y。

對比監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)背犯,最大的區(qū)別就是坏瘩,在制定規(guī)則的過程中,是否有Y用于引導(dǎo)規(guī)則的生成漠魏。監(jiān)督學(xué)習(xí)中倔矾,有Y存在,生成規(guī)則過程中和生成規(guī)則時(shí)柱锹,也會(huì)對比Y的預(yù)測值和實(shí)際值哪自。而在無監(jiān)督學(xué)習(xí)中,就沒有Y作為對比的標(biāo)準(zhǔn)禁熏,相應(yīng)的規(guī)則都直接由X產(chǎn)生提陶。

半監(jiān)督學(xué)習(xí),與監(jiān)督學(xué)習(xí)類似匹层,也需要因變量Y參與到規(guī)則生成和規(guī)則驗(yàn)證中去。但是在訓(xùn)練集只用只有一少部分的對象既有自變量X和因變量Y锌蓄,還有大部分對象只包含了自變量X升筏。因此在對半監(jiān)督學(xué)習(xí)的規(guī)則生成中,需要有一些特殊的手段來處理只包含的自變量X的對象后瘸爽,再生成相關(guān)的規(guī)則您访。在后面的驗(yàn)證和測試的流程都與監(jiān)督學(xué)習(xí)一致。因而對于半監(jiān)督學(xué)習(xí)剪决,最重要的問題就是如何借助少量的因變量Y而產(chǎn)生出可以適用的規(guī)則灵汪。

數(shù)據(jù)挖掘的應(yīng)用場景

數(shù)據(jù)挖掘應(yīng)用的場景很多,通常有四種情況被廣泛的使用柑潦。

數(shù)據(jù)挖掘的應(yīng)用場景

首先是聚類分析享言,就是將不同的對象,根據(jù)其變量特征的分布自然地分成不同的類別渗鬼。此外是分類模型览露,這是針對已知的類別,構(gòu)建出分類的模型譬胎,通過分類的模型來探求其他未分類對象的類別差牛。第三是預(yù)測估計(jì)命锄,集根據(jù)對象的連續(xù)數(shù)據(jù)因變量,通過圍繞已知的維度偏化,構(gòu)建出預(yù)測因變量的模型脐恩,從而對因變量未知的對象進(jìn)行估計(jì)。最后是關(guān)聯(lián)分析侦讨,即通過探求數(shù)據(jù)對象之間的相關(guān)關(guān)系驶冒,來發(fā)現(xiàn)對象之間的聯(lián)系,在關(guān)聯(lián)分析中搭伤,更多是以對象之間的關(guān)系作為輸出只怎。

聚類分析

聚類分析是一種無監(jiān)督學(xué)習(xí)的數(shù)據(jù)挖掘方法,其目的是基于對象之間的特征怜俐,自然地將變量劃分為不同的類別身堡。在聚類分析中,基本的思想就是根據(jù)對象不同特征變量拍鲤,計(jì)算變量之間的距離贴谎,距離理得越近,就越有可能被劃為一類季稳,離得越遠(yuǎn)擅这,就越有可能被劃分到不同的類別中去。

聚類分析基本思想

例如在坐標(biāo)系中景鼠,B距離A的距離遠(yuǎn)遠(yuǎn)小于仲翎,B到C的距離,因此铛漓,AB更容易劃分為一類溯香,而BC更容易為不同的類別。通常來說浓恶,一個(gè)對象距離同類的距離是最近的玫坛,都小于其他類別中對象的距離。

在聚類分析中包晰,有兩種常用的方法湿镀,一種是K-means聚類,一種是層次聚類伐憾。

K-means聚類VS層次聚類

在K-means聚類中勉痴,是預(yù)先規(guī)定出要產(chǎn)生多少個(gè)類別的數(shù)量,再根據(jù)類別數(shù)量自動(dòng)聚成相應(yīng)的類塞耕。對K-means而言蚀腿,首先是隨機(jī)產(chǎn)生于類別數(shù)相同的初始點(diǎn),然后判斷每個(gè)點(diǎn)與初始點(diǎn)的距離,每個(gè)點(diǎn)選擇最近的一個(gè)初始點(diǎn)莉钙,作為其類別廓脆。當(dāng)類別產(chǎn)生后,在計(jì)算各個(gè)類別的中心點(diǎn)磁玉,然后計(jì)算每個(gè)點(diǎn)到中心點(diǎn)的距離停忿,并根據(jù)距離再次選擇類別。當(dāng)新類別產(chǎn)生后蚊伞,再次根據(jù)中心點(diǎn)重復(fù)選擇類別的過程席赂,直到中心點(diǎn)的變化不再明顯。最終根據(jù)中心點(diǎn)產(chǎn)生的類別时迫,就是聚類的結(jié)果颅停。正如圖中所示,一組對象中需要生成三個(gè)類別掠拳,各個(gè)類別之間都自然聚焦在一起癞揉。

在層次聚類中,不需要規(guī)定出類別的數(shù)量溺欧,最終聚類的數(shù)量可以根據(jù)人為要求進(jìn)行劃分喊熟。對層次聚類,首先每個(gè)對象都是單獨(dú)的類別姐刁,通過比較兩兩之間距離芥牌,首先把距離最小的兩個(gè)對象聚成一類。接著把距離次小的聚成一類聂使,然后就是不斷重復(fù)按距離最小的原則壁拉,不斷聚成一類的過程,直到所有對象都被聚成一類柏靶。在層次聚類中扇商,可以以一張樹狀圖來表示聚類的過程,如果要講對象分類的話宿礁,就可以從根節(jié)點(diǎn)觸發(fā),按照樹狀圖的分叉情況蔬芥,劃分出不同的類別來梆靖。在圖中,把一組對象分成了三個(gè)類別笔诵,可見這三個(gè)類別就是構(gòu)成了樹狀圖最開始的三個(gè)分支返吻。

聚類分析的過程,和分桔子其實(shí)很很像乎婿,人們通常都把特征相同的桔子分成一類测僵,聚類分析中,也是同樣的方式。


聚類分析案例

正如在這個(gè)例子中捍靠,有A-H的8個(gè)桔子沐旨,對每個(gè)桔子而言有提體積和變量兩個(gè)變量。通過將各個(gè)桔子投射到重量和體積構(gòu)成的坐標(biāo)系中榨婆,可以發(fā)現(xiàn)BEF距離很近磁携,ACG距離很近,而DH距離很近良风。如果聚成3類的話谊迄,可以是ACG、BEF烟央,DH各為一類统诺。如果是聚成兩類,BEFDH與ACG相對更近疑俭,因此可以是ACG為一類粮呢,而BEFDH為另外一類

分類模型

分類模型通常是通過監(jiān)督學(xué)習(xí)產(chǎn)生的,根據(jù)已知的對象的類別和其具體特征特征的數(shù)據(jù)怠硼,通過訓(xùn)練從而產(chǎn)生由特征判斷類別的規(guī)則鬼贱。在分類模型中,規(guī)則的輸出就是具體的類別香璃。

分類模型基本思想

分類模型的規(guī)則產(chǎn)生的過程中这难,類別判別的原則與訓(xùn)練集中各特征變量的分布息息相關(guān),通常就是在對比各個(gè)類別下特征變量的互相關(guān)系葡秒,而劃分出相關(guān)的規(guī)則姻乓,這個(gè)過程遵循的原則就是盡可能讓輸出的類別與實(shí)際的類別保持一致。

當(dāng)前眯牧,不管在學(xué)術(shù)研究領(lǐng)域還是業(yè)務(wù)應(yīng)用領(lǐng)域都有大量的分類模型蹋岩,通常來說,決策樹和樸素貝葉斯是非常普遍的分類模型算法学少,這兩個(gè)算法在一些文獻(xiàn)中也被列為十大數(shù)據(jù)挖掘算法剪个。

決策樹VS樸素貝葉斯

決策樹的規(guī)則生成算法是將對象按照相關(guān)的特診變量進(jìn)行依次拆分,在拆分中不斷迭代條件版确,最終劃分為最終的類別扣囊。決策樹的劃分過程,就像是一個(gè)樹一樣绒疗,從根節(jié)點(diǎn)觸發(fā)侵歇,依次開支散葉,最終形成分類準(zhǔn)則吓蘑。

在圖中惕虑,首先就按照年齡進(jìn)行分支,直接將所有對象分成了三堆,其中年齡在31-40歲的被劃定為購買類溃蔫,另外的兩堆對象健提,還需要繼續(xù)進(jìn)行分支。對年齡小于30歲酒唉,按照是否為學(xué)生進(jìn)行分支矩桂,其中是學(xué)生的被判定為購買類,不是學(xué)生的被判定為不買類痪伦。同樣對年齡大于40歲侄榴,按照信用等級進(jìn)行分類,信用等級高的被判定為不買類网沾,信息等級低的被判定為購買類癞蚕。就這樣,任何一個(gè)對象辉哥,都可以根據(jù)條件達(dá)成的情況桦山,最終到達(dá)購買或者不買的節(jié)點(diǎn),完成分類過程醋旦。

樸素貝葉斯的規(guī)則生成算法相對決策樹而言恒水,就沒有這么直觀了,其依賴于概率中的貝葉斯公式饲齐。由公式P(AB)=P(A/B)×P(B)=P(B/A)×P(A)得來的后驗(yàn)概率公式P(A/B)=P(B/A)×P(A)/P(B)钉凌,其中A類別,B表示條件即特征變量捂人。P(A/B)表示在特定條件下該類別的概率御雕,P(B/A)表示在特定類別下該條件的分布概率,P(A)表示已知的特定分類的概率滥搭,而P(B)表示已知的特定條件的概率酸纲。

在算法中,P(B/A)瑟匆、P(A)闽坡、P(B)都通過訓(xùn)練集能夠得到,再加上在條件一定時(shí)愁溜,P(B)是恒定的无午,同時(shí)每個(gè)條件互相獨(dú)立,根據(jù)概率公式祝谚,P(類別/總條件)是P(類別)和所有P(條件/類別)的乘積。因此在樸素貝葉斯中酣衷,最大的P(類別/總條件)對應(yīng)的類別交惯,就是被劃分的類別。

最近這幾年,網(wǎng)上總有要遠(yuǎn)離女司機(jī)的段子席爽,在網(wǎng)友心中女司機(jī)簡直如洪水猛獸一般意荤,這種說法一方面來自于個(gè)別事例的傳播,另外一方面也來自于女司機(jī)在低速駕駛時(shí)對他人的困擾造成的誤解只锻。其實(shí)玖像,對于女司機(jī)是不是應(yīng)該害怕的問題,就可以用分類模型的解決齐饮。

用分類模型解決女司機(jī)問題

已知道路上的車輛中的分布如下捐寥,會(huì)發(fā)生的事故的概率有0.11,而是安全的概率有0.89,車輛的分布就是對事件的原始分類分布祖驱。同時(shí)握恳,對發(fā)生條件的分布如下,發(fā)生事故時(shí)捺僻,男司機(jī)概率為0.9乡洼,女司機(jī)概率為0.1,在安全情況下時(shí)匕坯,男司機(jī)概率為0.2束昵,女司機(jī)概率為0.8。

分類模型案例計(jì)算流程

那么根據(jù)貝葉斯公式葛峻,可以知道锹雏,當(dāng)遇到男司機(jī)時(shí),發(fā)生事故的概率為0.1泞歉,而女司機(jī)是0.01,兩者的事故的概率都很低逼侦。對男女司機(jī)而言,其發(fā)生事故的概率都低于安全的概率腰耙,因此在職考慮性別的情況下榛丢,所有司機(jī)都是被分為安全類別,尤其是女司機(jī)挺庞,安全的概率遠(yuǎn)遠(yuǎn)大于事故晰赞。因此不能簡單的通過司機(jī)的性別,就做出是否危險(xiǎn)的判別选侨,尤其是遇到女司機(jī)掖鱼。

關(guān)聯(lián)分析

關(guān)聯(lián)分析模型常用于揭示事件之間的關(guān)系,是通過無監(jiān)督學(xué)習(xí)的方式援制,產(chǎn)生的輸出事件之間發(fā)生關(guān)系的規(guī)則戏挡。關(guān)聯(lián)分析最開始在零售領(lǐng)域常常用到,比如可以提供買了方便面時(shí)很多情況都會(huì)買火腿腸的關(guān)系晨仑,因此在某些情況下褐墅,關(guān)聯(lián)分析又被稱為購物籃分析拆檬。

關(guān)聯(lián)分析基本思想

在購物籃分析中,其核心思想就是對比單個(gè)事件發(fā)生的概率妥凳,和多個(gè)事件同時(shí)發(fā)生的概率的情況竟贯,如果同時(shí)發(fā)生的概率與單獨(dú)發(fā)生的概率相近,則可以考慮發(fā)生了一個(gè)事件后逝钥,很有可能會(huì)存在同時(shí)發(fā)生另外一個(gè)事件的情況屑那。

有事件X和事件Y,以及XY同時(shí)發(fā)生的概率艘款,在購物籃分析中持际,支持度是XY同時(shí)發(fā)生的概率,置信度是當(dāng)X發(fā)生了磷箕,Y也發(fā)生的條件概率选酗。


關(guān)聯(lián)分析算法

如果在規(guī)則中,兩個(gè)事件的支持度和置信度都達(dá)到了制定的閾值岳枷,則可以認(rèn)為這兩個(gè)事件具有強(qiáng)關(guān)聯(lián)的關(guān)系芒填。關(guān)聯(lián)分析正是體現(xiàn)了這種強(qiáng)關(guān)系。在強(qiáng)關(guān)系中空繁,還有提升度來確認(rèn)這種強(qiáng)關(guān)系的力度殿衰,提升度是指,當(dāng)X出現(xiàn)同時(shí)出現(xiàn)Y的概率盛泡,與Y總體出現(xiàn)的概率之比闷祥,即X對Y的置信度與Y發(fā)生概率的比值,通常來說提升度都是大于1的傲诵,提升度越大凯砍,說明強(qiáng)關(guān)系力度越大。

在關(guān)聯(lián)分析中拴竹,強(qiáng)關(guān)系存在兩種情況悟衩,這種情況具有不同的時(shí)間上的考慮,第一種是序列關(guān)系栓拜,即事情順次發(fā)生座泳,比如購買了A了以后又繼續(xù)購買B,另外一種是同時(shí)關(guān)聯(lián)幕与,即事件同時(shí)發(fā)生挑势,比如買了A的同時(shí)也買了B。

啤酒和尿布是關(guān)聯(lián)分析中的經(jīng)典案例啦鸣,盡管最近出現(xiàn)了這個(gè)只是編造的案例而已潮饱,然而去仍然能體現(xiàn)出關(guān)聯(lián)分析的價(jià)值出來。

在啤酒和尿布中發(fā)現(xiàn)關(guān)聯(lián)分析的價(jià)值

啤酒和尿布诫给,兩個(gè)看起來不無相關(guān)的物品香拉,卻可以通過關(guān)聯(lián)分析饲漾,找出進(jìn)行同時(shí)銷售的機(jī)會(huì)出來,其背后的原理就是發(fā)現(xiàn)了缕溉,啤酒和尿布之間的強(qiáng)關(guān)聯(lián)關(guān)系。

關(guān)聯(lián)分析案例計(jì)算過程

假設(shè)有尿布吃型,啤酒证鸥,零食,水果和香煙的五種商品勤晚,同時(shí)也知道了各個(gè)商品購買的清單枉层,根據(jù)清單可以提取單個(gè)產(chǎn)品的頻數(shù)和其對應(yīng)的概率,以及產(chǎn)品之間兩兩組合帶來頻數(shù)和概率赐写。根據(jù)支持度和置信度的計(jì)算公式鸟蜡,可以得到,每個(gè)產(chǎn)品組合的支持度挺邀,以及置信度揉忘。設(shè)置強(qiáng)關(guān)聯(lián)最小支出度閾值以及最小置信度閾值都為0.5時(shí),啤酒對尿布達(dá)到了強(qiáng)關(guān)聯(lián)的閾值端铛,因此啤酒對尿布這對組合可以認(rèn)為具有強(qiáng)關(guān)聯(lián)泣矛,因此在購買啤酒時(shí)推薦購買尿布,能夠增加尿布的銷量禾蚕。

預(yù)測估計(jì)

預(yù)測估計(jì)的規(guī)則您朽,是用來輸出連續(xù)的數(shù)值,即通過預(yù)測估計(jì)的規(guī)則换淆,模型輸出的是系列的數(shù)值哗总,這些數(shù)值可以進(jìn)行加減乘除的一系列計(jì)算。

預(yù)測估計(jì)基本思想

預(yù)測估計(jì)的規(guī)則通常以一個(gè)公式存在倍试,這個(gè)公式可以體現(xiàn)出要輸出的因變量Y與特征變量X的關(guān)系讯屈,最簡單的來說,像一條在坐標(biāo)系反應(yīng)Y和X關(guān)系的直線一樣易猫,知道了X是多少的情況耻煤,就可以根據(jù)線性關(guān)系,輸出對應(yīng)的Y准颓。這種思路正式用于生成回歸方程哈蝇,因此有的時(shí)候預(yù)測估計(jì)也被稱為是回歸。

在預(yù)測估計(jì)中攘已,首先是對比訓(xùn)練集中要輸出的因變量Y和特征變量X的關(guān)系炮赦,通常來說,X不只有一個(gè)样勃,而是有X1吠勘,X2性芬,X3,Xn等多個(gè)剧防,在這種情況下植锉,通過學(xué)習(xí)X1到Xn與Y的數(shù)學(xué)關(guān)系,從而產(chǎn)生出能夠基于X1到XN預(yù)測出Y的規(guī)則峭拘。如果規(guī)則通過驗(yàn)證集的驗(yàn)證俊庇,就可以在實(shí)習(xí)情況中與預(yù)測要輸出的因變量Y。

預(yù)測估計(jì)算法

預(yù)測估計(jì)的輸出變量可以是絕對值也可以是相對值鸡挠,在輸出絕對值的情況下辉饱,線性回歸是常用的模型,即生成一條關(guān)于Y與X1到Xn的直線方程拣展,用來預(yù)測Y彭沼。在輸出相對值得情況,邏輯回歸是常用的模型备埃。在邏輯回歸中姓惑,輸出的Y是概率,在規(guī)則中通過擬合X的直線瓜喇,產(chǎn)生出一個(gè)結(jié)果挺益,再將直線輸出結(jié)果進(jìn)行指數(shù)化轉(zhuǎn)換,最終結(jié)果就是的Y乘寒,即事件發(fā)生概率望众。

下面是一個(gè)用預(yù)測估計(jì)的模型來預(yù)測誰可以得獎(jiǎng)的例子,在這個(gè)例子中伞辛,并不是直接用模型預(yù)測得獎(jiǎng)的人員烂翰,而是通過對過去得獎(jiǎng)的人員的數(shù)據(jù)進(jìn)行學(xué)習(xí),從而得出計(jì)算得獎(jiǎng)概率的規(guī)則蚤氏,并通過學(xué)習(xí)到的規(guī)則甘耿,根據(jù)本次所有人的表現(xiàn)的數(shù)據(jù),來預(yù)測各自的將概率竿滨。

用預(yù)測估計(jì)知道得獎(jiǎng)概率

在這個(gè)例子中佳恬,共有7個(gè)變量,其中過去得獎(jiǎng)是作為0-1因變量存在于游,1表示得獎(jiǎng)毁葱,0表示未得獎(jiǎng)。在自變量中有另外6個(gè)變量贰剥。通過對歷史的數(shù)據(jù)的學(xué)習(xí)倾剿,能夠得到logit的計(jì)算公式,并根據(jù)概率換算的公式蚌成,得到概率的公式前痘。


再進(jìn)一步地凛捏,取得當(dāng)前數(shù)據(jù)后,根據(jù)概率公式芹缔,得到每個(gè)人為的得獎(jiǎng)概率坯癣,概率最大的即為最可能得獎(jiǎng)的人。

挖掘思維總結(jié)

在挖掘思維是與數(shù)據(jù)挖掘相關(guān)最欠,相比前面幾種思維而言坡锡,挖掘思維似乎要晦澀難懂一些,畢竟數(shù)據(jù)挖掘涉及的已經(jīng)不局限于簡單的數(shù)學(xué)窒所,而且還擴(kuò)充到了計(jì)算機(jī)科學(xué)層面。這里設(shè)置挖掘思維帆锋,其目的就是在解答吵取,當(dāng)數(shù)據(jù)量實(shí)在太大時(shí),維度實(shí)在太多時(shí)锯厢,應(yīng)該如何來處理的問題皮官。

挖掘思維總結(jié)

數(shù)據(jù)挖掘的實(shí)質(zhì),其實(shí)還是為了得到一個(gè)模型实辑,產(chǎn)生結(jié)果捺氢。當(dāng)數(shù)據(jù)需要特別復(fù)雜的計(jì)算過程時(shí),數(shù)據(jù)挖掘就能夠產(chǎn)生作用了剪撬。數(shù)據(jù)挖掘通常通過已知輸出的結(jié)果的數(shù)據(jù)中作為訓(xùn)練集產(chǎn)生出模型摄乒,再用另外一部分知道已知輸出結(jié)果的數(shù)據(jù)作為驗(yàn)證集來驗(yàn)證模型的可信程度,通過驗(yàn)證后残黑,再用到測試集中去取得實(shí)際的效果馍佑。

數(shù)據(jù)挖掘分為四種類型,就像前面所述梨水,四種類型分別是聚類分析拭荤、分類模型、關(guān)聯(lián)分析和預(yù)測估計(jì)疫诽。聚類分析是將數(shù)據(jù)對象舅世,根據(jù)其特征自然分成不同類別。分類模型是針對已知類別奇徒,構(gòu)建分類模型雏亚,探求未分類對象的類別。關(guān)聯(lián)分析是通過數(shù)據(jù)對象之間的相關(guān)關(guān)系逼龟,發(fā)現(xiàn)對象之間的聯(lián)系评凝。預(yù)測估計(jì)就是根據(jù)已知連續(xù)數(shù)據(jù)對象,構(gòu)建模型腺律,對未知對象估值奕短。

舉一個(gè)簡單的例子宜肉,知道一個(gè)班之間學(xué)生平時(shí)作業(yè)的情況,將學(xué)生自動(dòng)分成若干類別翎碑,就是聚類分析谬返,這些有可能是學(xué)霸型,學(xué)渣型日杈,還有可能是偏科型遣铝,到底類別怎么樣,事前都不知道莉擒,要聚類以后才知道酿炸。已知一部分學(xué)生的類別,而不知道另外一部分學(xué)生涨冀,就用分類模型的方式得出另外一些學(xué)生的類別填硕。知道一些學(xué)生掛語文的同時(shí)還容易掛哪些學(xué)科,就是關(guān)聯(lián)分析鹿鳖。從學(xué)生平時(shí)作業(yè)來預(yù)測他們期末考試分?jǐn)?shù)就是預(yù)測估計(jì)扁眯。

原文轉(zhuǎn)發(fā),功德無量翅帜!


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末姻檀,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子涝滴,更是在濱河造成了極大的恐慌绣版,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件歼疮,死亡現(xiàn)場離奇詭異僵娃,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)腋妙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進(jìn)店門默怨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人骤素,你說我怎么就攤上這事匙睹。” “怎么了济竹?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵痕檬,是天一觀的道長。 經(jīng)常有香客問我送浊,道長梦谜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮唁桩,結(jié)果婚禮上闭树,老公的妹妹穿的比我還像新娘。我一直安慰自己荒澡,他們只是感情好报辱,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著单山,像睡著了一般碍现。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上米奸,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天昼接,我揣著相機(jī)與錄音,去河邊找鬼悴晰。 笑死辩棒,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的膨疏。 我是一名探鬼主播,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼钻弄,長吁一口氣:“原來是場噩夢啊……” “哼佃却!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起窘俺,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤饲帅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后瘤泪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體灶泵,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年对途,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了赦邻。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,137評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡实檀,死狀恐怖惶洲,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情膳犹,我是刑警寧澤恬吕,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站须床,受9級特大地震影響铐料,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一钠惩、第九天 我趴在偏房一處隱蔽的房頂上張望柒凉。 院中可真熱鬧,春花似錦妻柒、人聲如沸扛拨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽绑警。三九已至,卻和暖如春央渣,著一層夾襖步出監(jiān)牢的瞬間计盒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工芽丹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留北启,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓拔第,卻偏偏與公主長得像咕村,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子蚊俺,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容