什么是數(shù)據(jù)挖掘?

一铸董、前言


文中部分內(nèi)容來自書籍和網(wǎng)絡(luò)祟印,部分內(nèi)容為自己的理解。希望借助筆記的方式能夠加深自己對該部分知識的掌握粟害,也作為日后回顧的記錄蕴忆。

二、基本概念


很多小伙伴聽到數(shù)據(jù)挖掘這四個(gè)字的時(shí)候很困惑悲幅,雖然字面意思大家都知道套鹅,但是數(shù)據(jù)挖掘到底是個(gè)什么東西驻襟,需要用到什么技術(shù)來實(shí)現(xiàn)卻并不了解,下面我們就來剖析一下芋哭,到底什么是數(shù)據(jù)挖掘沉衣。

按照慣例,先來一個(gè)百度百科的定義:

數(shù)據(jù)挖掘(英語:Data mining)减牺,又譯為資料探勘豌习、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases拔疚,簡稱:KDD)中的一個(gè)步驟肥隆。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)稚失,并通過統(tǒng)計(jì)栋艳、在線分析處理、情報(bào)檢索句各、機(jī)器學(xué)習(xí)吸占、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。

根據(jù)定義可以看出凿宾,數(shù)據(jù)挖掘是一個(gè)過程結(jié)果的稱謂矾屯。即主要目標(biāo)是從數(shù)據(jù)中挖取隱藏的信息。挖取的過程中會采用許多技術(shù)初厚,包括運(yùn)用一系列統(tǒng)計(jì)方法件蚕、模式識別、機(jī)器學(xué)習(xí)(歸根結(jié)底都是統(tǒng)計(jì)方法啦)等等技術(shù)产禾,來實(shí)現(xiàn)挖取隱藏信息的目的排作。

引用一張圖來闡明數(shù)據(jù)挖掘在整個(gè)數(shù)據(jù)處理流程中的階段和作用:

三、挖掘的數(shù)據(jù)對象


  • 數(shù)據(jù)庫數(shù)據(jù)
    顧名思義亚情,就是存儲在數(shù)據(jù)庫中的數(shù)據(jù)妄痪。這里面的數(shù)據(jù)庫主要指關(guān)系型數(shù)據(jù)庫。

  • 數(shù)據(jù)倉庫
    數(shù)據(jù)倉庫是從多個(gè)數(shù)據(jù)源收集匯總的一個(gè)數(shù)據(jù)存儲庫势似,跟事務(wù)型數(shù)據(jù)庫的不同點(diǎn)在于它是面向主題的拌夏,有一定的分類和聚合。并且分為度量值和維度值即事實(shí)表和維度表這樣的區(qū)分履因,便于多維數(shù)據(jù)分析(OLAP)。

  • 事務(wù)數(shù)據(jù)
    事務(wù)數(shù)據(jù)庫的每個(gè)記錄代表一個(gè)事務(wù)盹愚,就是我們常見的業(yè)務(wù)系統(tǒng)栅迄,訂單系統(tǒng)。例如京東的一次購物就有一條購物信息的記錄皆怕,這就是事務(wù)毅舆。

  • 其他類型的數(shù)據(jù)
    除了以上類型的數(shù)據(jù)之外的其他數(shù)據(jù)西篓,包括時(shí)間相關(guān)或序列相關(guān)的數(shù)據(jù)、地理空間的數(shù)據(jù)憋活、文本數(shù)據(jù)以及圖片和音視頻等岂津。

四、挖掘的模式


  • 特征化與區(qū)分
    數(shù)據(jù)特征化是目標(biāo)數(shù)據(jù)的一般特性或特性的匯總悦即。
    數(shù)據(jù)區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一個(gè)特性與一個(gè)或多個(gè)對比類對象的一般特性進(jìn)行比較吮成。

  • 頻繁模式、關(guān)聯(lián)和相關(guān)性
    頻繁模式是數(shù)據(jù)中頻繁出現(xiàn)的模式

  • 用于預(yù)測分析的分類與回歸
    分類(classification):分類規(guī)則辜梳、決策樹粱甫、數(shù)學(xué)公式、神經(jīng)網(wǎng)絡(luò)等作瞄。先從數(shù)據(jù)中選出分好類的訓(xùn)練集茶宵,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘技術(shù),建立分類模型宗挥,然后對沒有分類的數(shù)據(jù)進(jìn)行分類乌庶。這里的類是預(yù)定義好的,即個(gè)數(shù)是確定的契耿。
    下圖中安拟,a是分類規(guī)則(IF-THEN規(guī)則), b是決策樹宵喂, c是神經(jīng)網(wǎng)絡(luò)

回歸(regression):建立連續(xù)值函數(shù)模型
相關(guān)分析(relevance analysis):在做分類和回歸之前糠赦,先識別與分類和回歸過程顯著相關(guān)的屬性,其他不相關(guān)的屬性可以不考慮锅棕。

  • 聚類分析
    聚類分析數(shù)據(jù)對象拙泽,不考慮分類。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類裸燎,不需要訓(xùn)練集顾瞻。
    對象根據(jù)最大化類內(nèi)相似性最小化類間相似性的原則進(jìn)行聚類或分組德绿。
    例如下圖荷荤,找到具有共性的數(shù)據(jù),然后聚類:
  • 離群點(diǎn)分析
    分析數(shù)據(jù)集中與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象移稳。又稱為異常挖掘蕴纳。

五、數(shù)據(jù)挖掘使用的技術(shù)


  • 統(tǒng)計(jì)學(xué)
    研究數(shù)據(jù)的收集个粱、分析古毛、解釋和表示。運(yùn)用統(tǒng)計(jì)模型對數(shù)據(jù)建模、使用假設(shè)檢驗(yàn)來驗(yàn)證模型等稻薇。

  • 機(jī)器學(xué)習(xí)

    1. 監(jiān)督學(xué)習(xí)(supervised learning)
      基本上是分類的同義詞嫂冻。學(xué)習(xí)中的監(jiān)督來自訓(xùn)練數(shù)據(jù)集中標(biāo)記的實(shí)例。
    2. 無監(jiān)督學(xué)習(xí)(unsupervised learning)
      本質(zhì)上是聚類的同義詞塞椎。學(xué)習(xí)過程是無監(jiān)督的桨仿,因?yàn)檩斎氲膶?shí)例沒有類標(biāo)記。
    3. 半監(jiān)督學(xué)習(xí)(semi-supervised learning)
      在學(xué)習(xí)模型時(shí)案狠,使用標(biāo)記的和未標(biāo)記的實(shí)例服傍。標(biāo)記的模型用來學(xué)習(xí)類模型,未標(biāo)記的實(shí)例用來進(jìn)一步改進(jìn)類邊界莺戒。
    4. 主動(dòng)學(xué)習(xí)(active learning)
      讓用戶在學(xué)習(xí)過程中扮演主動(dòng)角色伴嗡,讓用戶對一個(gè)可能來自未標(biāo)記的實(shí)例集或由學(xué)習(xí)程序合成的實(shí)例進(jìn)行標(biāo)記。給定要求標(biāo)記數(shù)量的約束从铲。目的是通過主動(dòng)的從用戶獲取知識來提高模型質(zhì)量瘪校。
  • 信息檢索(IR)
    是搜索文檔或文檔中信息的科學(xué)。假定搜索的數(shù)據(jù)是無結(jié)構(gòu)的名段,主要采用關(guān)鍵詞阱扬。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市伸辟,隨后出現(xiàn)的幾起案子麻惶,更是在濱河造成了極大的恐慌,老刑警劉巖信夫,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件窃蹋,死亡現(xiàn)場離奇詭異,居然都是意外死亡静稻,警方通過查閱死者的電腦和手機(jī)警没,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來振湾,“玉大人杀迹,你說我怎么就攤上這事⊙禾拢” “怎么了树酪?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長大州。 經(jīng)常有香客問我续语,道長,這世上最難降的妖魔是什么摧茴? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任绵载,我火速辦了婚禮,結(jié)果婚禮上苛白,老公的妹妹穿的比我還像新娘娃豹。我一直安慰自己,他們只是感情好购裙,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布懂版。 她就那樣靜靜地躺著,像睡著了一般躏率。 火紅的嫁衣襯著肌膚如雪躯畴。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天薇芝,我揣著相機(jī)與錄音蓬抄,去河邊找鬼。 笑死夯到,一個(gè)胖子當(dāng)著我的面吹牛嚷缭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播耍贾,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼阅爽,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了荐开?” 一聲冷哼從身側(cè)響起付翁,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎晃听,沒想到半個(gè)月后百侧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡能扒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年佣渴,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赫粥。...
    茶點(diǎn)故事閱讀 38,163評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡观话,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出越平,到底是詐尸還是另有隱情频蛔,我是刑警寧澤,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布秦叛,位于F島的核電站晦溪,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏挣跋。R本人自食惡果不足惜三圆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧舟肉,春花似錦修噪、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至整慎,卻和暖如春脏款,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背裤园。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工撤师, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拧揽。 一個(gè)月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓剃盾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親强法。 傳聞我的和親對象是個(gè)殘疾皇子万俗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容