一铸董、前言
文中部分內(nèi)容來自書籍和網(wǎng)絡(luò)祟印,部分內(nèi)容為自己的理解。希望借助筆記的方式能夠加深自己對該部分知識的掌握粟害,也作為日后回顧的記錄蕴忆。
二、基本概念
很多小伙伴聽到數(shù)據(jù)挖掘這四個(gè)字的時(shí)候很困惑悲幅,雖然字面意思大家都知道套鹅,但是數(shù)據(jù)挖掘到底是個(gè)什么東西驻襟,需要用到什么技術(shù)來實(shí)現(xiàn)卻并不了解,下面我們就來剖析一下芋哭,到底什么是數(shù)據(jù)挖掘沉衣。
按照慣例,先來一個(gè)百度百科的定義:
數(shù)據(jù)挖掘(英語:Data mining)减牺,又譯為資料探勘豌习、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases拔疚,簡稱:KDD)中的一個(gè)步驟肥隆。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)稚失,并通過統(tǒng)計(jì)栋艳、在線分析處理、情報(bào)檢索句各、機(jī)器學(xué)習(xí)吸占、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。
根據(jù)定義可以看出凿宾,數(shù)據(jù)挖掘是一個(gè)過程結(jié)果的稱謂矾屯。即主要目標(biāo)是從數(shù)據(jù)中挖取隱藏的信息。挖取的過程中會采用許多技術(shù)初厚,包括運(yùn)用一系列統(tǒng)計(jì)方法件蚕、模式識別、機(jī)器學(xué)習(xí)(歸根結(jié)底都是統(tǒng)計(jì)方法啦)等等技術(shù)产禾,來實(shí)現(xiàn)挖取隱藏信息的目的排作。
引用一張圖來闡明數(shù)據(jù)挖掘在整個(gè)數(shù)據(jù)處理流程中的階段和作用:
三、挖掘的數(shù)據(jù)對象
數(shù)據(jù)庫數(shù)據(jù)
顧名思義亚情,就是存儲在數(shù)據(jù)庫中的數(shù)據(jù)妄痪。這里面的數(shù)據(jù)庫主要指關(guān)系型數(shù)據(jù)庫。數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是從多個(gè)數(shù)據(jù)源收集匯總的一個(gè)數(shù)據(jù)存儲庫势似,跟事務(wù)型數(shù)據(jù)庫的不同點(diǎn)在于它是面向主題的拌夏,有一定的分類和聚合。并且分為度量值和維度值即事實(shí)表和維度表這樣的區(qū)分履因,便于多維數(shù)據(jù)分析(OLAP)。事務(wù)數(shù)據(jù)
事務(wù)數(shù)據(jù)庫的每個(gè)記錄代表一個(gè)事務(wù)盹愚,就是我們常見的業(yè)務(wù)系統(tǒng)栅迄,訂單系統(tǒng)。例如京東的一次購物就有一條購物信息的記錄皆怕,這就是事務(wù)毅舆。其他類型的數(shù)據(jù)
除了以上類型的數(shù)據(jù)之外的其他數(shù)據(jù)西篓,包括時(shí)間相關(guān)或序列相關(guān)的數(shù)據(jù)、地理空間的數(shù)據(jù)憋活、文本數(shù)據(jù)以及圖片和音視頻等岂津。
四、挖掘的模式
特征化與區(qū)分
數(shù)據(jù)特征化是目標(biāo)數(shù)據(jù)的一般特性或特性的匯總悦即。
數(shù)據(jù)區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一個(gè)特性與一個(gè)或多個(gè)對比類對象的一般特性進(jìn)行比較吮成。頻繁模式、關(guān)聯(lián)和相關(guān)性
頻繁模式是數(shù)據(jù)中頻繁出現(xiàn)的模式用于預(yù)測分析的分類與回歸
分類(classification):分類規(guī)則辜梳、決策樹粱甫、數(shù)學(xué)公式、神經(jīng)網(wǎng)絡(luò)等作瞄。先從數(shù)據(jù)中選出分好類的訓(xùn)練集茶宵,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘技術(shù),建立分類模型宗挥,然后對沒有分類的數(shù)據(jù)進(jìn)行分類乌庶。這里的類是預(yù)定義好的,即個(gè)數(shù)是確定的契耿。
下圖中安拟,a是分類規(guī)則(IF-THEN規(guī)則), b是決策樹宵喂, c是神經(jīng)網(wǎng)絡(luò)
回歸(regression):建立連續(xù)值函數(shù)模型
相關(guān)分析(relevance analysis):在做分類和回歸之前糠赦,先識別與分類和回歸過程顯著相關(guān)的屬性,其他不相關(guān)的屬性可以不考慮锅棕。
-
聚類分析
聚類分析數(shù)據(jù)對象拙泽,不考慮分類。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類裸燎,不需要訓(xùn)練集顾瞻。
對象根據(jù)最大化類內(nèi)相似性、最小化類間相似性的原則進(jìn)行聚類或分組德绿。
例如下圖荷荤,找到具有共性的數(shù)據(jù),然后聚類:
-
離群點(diǎn)分析
分析數(shù)據(jù)集中與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象移稳。又稱為異常挖掘蕴纳。
五、數(shù)據(jù)挖掘使用的技術(shù)
統(tǒng)計(jì)學(xué)
研究數(shù)據(jù)的收集个粱、分析古毛、解釋和表示。運(yùn)用統(tǒng)計(jì)模型對數(shù)據(jù)建模、使用假設(shè)檢驗(yàn)來驗(yàn)證模型等稻薇。-
機(jī)器學(xué)習(xí)
-
監(jiān)督學(xué)習(xí)(supervised learning)
基本上是分類的同義詞嫂冻。學(xué)習(xí)中的監(jiān)督來自訓(xùn)練數(shù)據(jù)集中標(biāo)記的實(shí)例。 -
無監(jiān)督學(xué)習(xí)(unsupervised learning)
本質(zhì)上是聚類的同義詞塞椎。學(xué)習(xí)過程是無監(jiān)督的桨仿,因?yàn)檩斎氲膶?shí)例沒有類標(biāo)記。 -
半監(jiān)督學(xué)習(xí)(semi-supervised learning)
在學(xué)習(xí)模型時(shí)案狠,使用標(biāo)記的和未標(biāo)記的實(shí)例服傍。標(biāo)記的模型用來學(xué)習(xí)類模型,未標(biāo)記的實(shí)例用來進(jìn)一步改進(jìn)類邊界莺戒。 -
主動(dòng)學(xué)習(xí)(active learning)
讓用戶在學(xué)習(xí)過程中扮演主動(dòng)角色伴嗡,讓用戶對一個(gè)可能來自未標(biāo)記的實(shí)例集或由學(xué)習(xí)程序合成的實(shí)例進(jìn)行標(biāo)記。給定要求標(biāo)記數(shù)量的約束从铲。目的是通過主動(dòng)的從用戶獲取知識來提高模型質(zhì)量瘪校。
-
監(jiān)督學(xué)習(xí)(supervised learning)
信息檢索(IR)
是搜索文檔或文檔中信息的科學(xué)。假定搜索的數(shù)據(jù)是無結(jié)構(gòu)的名段,主要采用關(guān)鍵詞阱扬。