《數(shù)據(jù)挖掘(概念與技術(shù))》第一章 閱讀知識(shí)點(diǎn)

最近在自學(xué)《數(shù)據(jù)挖掘(概念與技術(shù))》历造,為了便于更好地理解此書(shū)甩十,在閱讀的同時(shí)也會(huì)用思維導(dǎo)圖將知識(shí)點(diǎn)列舉出來(lái),用來(lái)加深印象吭产,也便于以后復(fù)習(xí)侣监。

每一章都會(huì)寫(xiě)一篇文章,用來(lái)將整本書(shū)所涉及到的知識(shí)點(diǎn)羅列出來(lái)垮刹。也希望能對(duì)看到這篇文章的網(wǎng)友有所幫助达吞。

因?yàn)楹?jiǎn)書(shū)不支持導(dǎo)圖的格式或者表格的格式;所以以圖片的方式放了出來(lái)荒典。大家在查看時(shí)可以“查看原圖”酪劫,然后放大查看。





以下為知識(shí)點(diǎn)的文字版寺董,為了方便有需要的網(wǎng)友覆糟,同時(shí)也便于被搜索引擎抓取到

第一章 引論

數(shù)據(jù)挖掘把大型數(shù)據(jù)集轉(zhuǎn)換成知識(shí)

數(shù)據(jù)豐富,但信息貧乏

數(shù)據(jù)挖掘的步驟

數(shù)據(jù)預(yù)處理

數(shù)據(jù)清理

消除噪聲和刪除不一致數(shù)據(jù)

數(shù)據(jù)集成

多種數(shù)據(jù)源可以組合到一起

數(shù)據(jù)選擇

從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù)

數(shù)據(jù)變換

通過(guò)匯總或聚集操作遮咖,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式

數(shù)據(jù)挖掘

基本步驟滩字,使用智能方法提取數(shù)據(jù)模式

模式評(píng)估

根據(jù)某種興趣度度量,識(shí)別代表知識(shí)的真正有趣模式

知識(shí)表示

使用可視化和知識(shí)表示技術(shù)御吞,向用戶(hù)提供挖掘的知識(shí)

可供挖掘的數(shù)據(jù)類(lèi)型

數(shù)據(jù)庫(kù)數(shù)據(jù)

關(guān)系數(shù)據(jù)庫(kù)

表的匯總

每個(gè)表都包含一組屬性

元組是表中的記錄(行)麦箍,代表一個(gè)對(duì)象,被唯一的關(guān)鍵字標(biāo)識(shí)

實(shí)體-關(guān)系(ER)數(shù)據(jù)模型

實(shí)體

屬性

關(guān)系

關(guān)系數(shù)據(jù)庫(kù)是數(shù)據(jù)挖掘最常見(jiàn)陶珠、最豐富的信息源

數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫(kù)挟裂,存放在一致的模式下,并且通常駐留在單個(gè)站點(diǎn)上

數(shù)據(jù)倉(cāng)庫(kù)從歷史的角度提供信息揍诽,并且通常是匯總的

數(shù)據(jù)倉(cāng)庫(kù)用稱(chēng)作數(shù)據(jù)立方體的多維數(shù)據(jù)結(jié)構(gòu)建模诀蓉。其中,每個(gè)維對(duì)應(yīng)模式中的一個(gè)或一組屬性暑脆,而每個(gè)單元存放某種聚集度量值渠啤。

下鉆

向下展開(kāi)

上卷

向上匯總

事務(wù)數(shù)據(jù)

事務(wù)數(shù)據(jù)庫(kù)的每個(gè)記錄代表一個(gè)事務(wù),如顧客的一次購(gòu)物

其他類(lèi)型的數(shù)據(jù)

時(shí)間相關(guān)或序列數(shù)據(jù)

數(shù)據(jù)流

空間數(shù)據(jù)

萬(wàn)維網(wǎng)

等等

可供挖掘的(功能)模式

類(lèi)/概念區(qū)分

數(shù)據(jù)特征化

是目標(biāo)數(shù)據(jù)的一般特性或特征的匯總添吗。通常沥曹,通過(guò)查詢(xún)來(lái)收集對(duì)應(yīng)于用戶(hù)指定類(lèi)的數(shù)據(jù)

輸出:餅圖、條圖根资、曲線架专、多位數(shù)據(jù)立方體同窘、多維表、廣義關(guān)系部脚、特征規(guī)則

例:匯總一年之內(nèi)花費(fèi)5000美元以上的顧客特征

數(shù)據(jù)區(qū)分

是將目標(biāo)類(lèi)數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類(lèi)對(duì)象的一般性進(jìn)行比較想邦。

輸出:類(lèi)似于特征描述,但是區(qū)分描述應(yīng)當(dāng)包括比較度量委刘,以便幫助區(qū)別目標(biāo)類(lèi)和對(duì)比類(lèi)丧没。

例:定期購(gòu)買(mǎi)計(jì)算機(jī)產(chǎn)品的顧客和不經(jīng)常購(gòu)買(mǎi)這種產(chǎn)品的顧客。

挖掘頻繁模式锡移、關(guān)聯(lián)和相關(guān)性

頻繁模式

是在數(shù)據(jù)中頻繁出現(xiàn)的模式

類(lèi)型

頻繁項(xiàng)集

頻繁地在事務(wù)數(shù)據(jù)中一起出現(xiàn)的商品集合呕童。

頻繁子序列

顧客傾向于先購(gòu)買(mǎi)便攜機(jī),再購(gòu)買(mǎi)數(shù)碼相機(jī)淆珊,然后再購(gòu)買(mǎi)內(nèi)存卡

頻繁子結(jié)構(gòu)

子結(jié)構(gòu)可能涉及不同的結(jié)構(gòu)形式(圖夺饲、樹(shù)、表格)施符,可以與項(xiàng)集或子序列結(jié)合在一起往声。

挖掘頻繁模式導(dǎo)致發(fā)現(xiàn)數(shù)據(jù)中有趣的關(guān)聯(lián)和相關(guān)性。

單維關(guān)聯(lián)規(guī)則

包含單個(gè)謂詞的關(guān)聯(lián)規(guī)則

例:買(mǎi)計(jì)算機(jī)的顧客戳吝,會(huì)有一定可能買(mǎi)軟件

多維關(guān)聯(lián)規(guī)則

包含多個(gè)謂詞的關(guān)聯(lián)規(guī)則

例:年齡20-29歲&&收入為40000-49000美元的顧客浩销,購(gòu)買(mǎi)了計(jì)算機(jī)

用于預(yù)測(cè)分析的分類(lèi)和回歸

分類(lèi)

它找出描述和區(qū)分?jǐn)?shù)據(jù)類(lèi)或概念的模型,以便能夠使用模型預(yù)測(cè)類(lèi)標(biāo)號(hào)未知的對(duì)象的類(lèi)標(biāo)號(hào)

導(dǎo)出的模型如何表示

分類(lèi)規(guī)則(IF—THEN)

決策樹(shù)

類(lèi)似于流程圖的樹(shù)形結(jié)構(gòu)

數(shù)學(xué)公式

神經(jīng)網(wǎng)絡(luò)

回歸

建立連續(xù)值函數(shù)模型听哭;即回歸用來(lái)預(yù)測(cè)缺失的或難以獲得的數(shù)值數(shù)據(jù)值慢洋,而不是離散的類(lèi)標(biāo)號(hào)。

相關(guān)分析可能需要在分類(lèi)和回歸之前進(jìn)行陆盘,它試圖識(shí)別與分類(lèi)和回歸過(guò)程顯著相關(guān)的屬性普筹。我們將選取這些屬性用于分類(lèi)和回歸過(guò)程,其他屬性是不相關(guān)的隘马,可以不必考慮斑芜。

分類(lèi)預(yù)測(cè)類(lèi)別(離散的、無(wú)序的)標(biāo)號(hào)祟霍;而回歸預(yù)測(cè)連續(xù)值

聚類(lèi)分析

在許多情況下,開(kāi)始并不存在標(biāo)記類(lèi)的數(shù)據(jù)盈包》心牛可以通過(guò)聚類(lèi)產(chǎn)生數(shù)據(jù)組群的類(lèi)標(biāo)號(hào)

對(duì)象根據(jù)最大化類(lèi)內(nèi)相似性、最小化類(lèi)間相似性的原則進(jìn)行聚類(lèi)或分組(簇)

離群點(diǎn)分析

與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象呢燥,稱(chēng)之為離群點(diǎn)崭添。

大部分?jǐn)?shù)據(jù)挖掘方法都將離群點(diǎn)視為噪聲或異常而丟棄。然而叛氨,在一些應(yīng)用中(欺詐檢測(cè))呼渣,罕見(jiàn)的事件可能比正常出現(xiàn)的事件更令人感興趣棘伴。

判斷模式有趣的指標(biāo)

支持度

表示事務(wù)數(shù)據(jù)庫(kù)中滿(mǎn)足規(guī)則的事務(wù)所占的百分比

置信度

評(píng)估所發(fā)現(xiàn)的規(guī)則的確信程度

數(shù)據(jù)挖掘使用的技術(shù)

統(tǒng)計(jì)學(xué)

機(jī)器學(xué)習(xí)

監(jiān)督學(xué)習(xí)

分類(lèi)的同義詞

無(wú)監(jiān)督學(xué)習(xí)

聚類(lèi)的同義詞

半監(jiān)督學(xué)習(xí)

主動(dòng)學(xué)習(xí)

數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)

信息檢索

搜索

面向什么應(yīng)用

商務(wù)智能 BI

web搜索引擎

數(shù)據(jù)挖掘研究的主要課題

挖掘方法

挖掘各種新的知識(shí)類(lèi)型

挖掘多維空間中的知識(shí)

數(shù)據(jù)挖掘--跨學(xué)科的努力

提升網(wǎng)絡(luò)環(huán)境下的發(fā)現(xiàn)能力

處理不確定性、噪聲或不完成數(shù)據(jù)

模式評(píng)估和模式或約束指導(dǎo)的挖掘

用戶(hù)界面

交互挖掘

結(jié)合背景知識(shí)

特定的數(shù)據(jù)挖掘和數(shù)據(jù)挖掘查詢(xún)語(yǔ)言

數(shù)據(jù)挖掘結(jié)果的表示和可視化

有效性和可伸縮性

數(shù)據(jù)挖掘算法的有效性和可伸縮性

并行屁置、分布式和增量挖掘算法

數(shù)據(jù)庫(kù)類(lèi)型的多樣性

處理復(fù)雜的數(shù)據(jù)類(lèi)型

挖掘動(dòng)態(tài)的焊夸、網(wǎng)絡(luò)的、全球的數(shù)據(jù)庫(kù)

數(shù)據(jù)挖掘與社會(huì)

數(shù)據(jù)挖掘?qū)ι鐣?huì)的影響

保護(hù)隱私的數(shù)據(jù)挖掘

無(wú)形的數(shù)據(jù)挖掘




最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蓝角,一起剝皮案震驚了整個(gè)濱河市阱穗,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌使鹅,老刑警劉巖揪阶,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異患朱,居然都是意外死亡鲁僚,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)裁厅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)冰沙,“玉大人,你說(shuō)我怎么就攤上這事姐直【氲恚” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵声畏,是天一觀的道長(zhǎng)撞叽。 經(jīng)常有香客問(wèn)我,道長(zhǎng)插龄,這世上最難降的妖魔是什么愿棋? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮均牢,結(jié)果婚禮上糠雨,老公的妹妹穿的比我還像新娘。我一直安慰自己徘跪,他們只是感情好甘邀,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著垮庐,像睡著了一般松邪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上哨查,一...
    開(kāi)封第一講書(shū)人閱讀 49,772評(píng)論 1 290
  • 那天逗抑,我揣著相機(jī)與錄音,去河邊找鬼。 笑死邮府,一個(gè)胖子當(dāng)著我的面吹牛荧关,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播褂傀,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼忍啤,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了紊服?” 一聲冷哼從身側(cè)響起檀轨,我...
    開(kāi)封第一講書(shū)人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎欺嗤,沒(méi)想到半個(gè)月后参萄,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡煎饼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年讹挎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吆玖。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡筒溃,死狀恐怖刨肃,靈堂內(nèi)的尸體忽然破棺而出笆呆,到底是詐尸還是另有隱情嚎花,我是刑警寧澤呀闻,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站皆尔,受9級(jí)特大地震影響赚抡,放射性物質(zhì)發(fā)生泄漏蠢甲。R本人自食惡果不足惜掷匠,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一滥崩、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧讹语,春花似錦钙皮、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至才菠,卻和暖如春慌烧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鸠儿。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人进每。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓汹粤,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親田晚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子嘱兼,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容