最近在自學(xué)《數(shù)據(jù)挖掘(概念與技術(shù))》历造,為了便于更好地理解此書(shū)甩十,在閱讀的同時(shí)也會(huì)用思維導(dǎo)圖將知識(shí)點(diǎn)列舉出來(lái),用來(lái)加深印象吭产,也便于以后復(fù)習(xí)侣监。
每一章都會(huì)寫(xiě)一篇文章,用來(lái)將整本書(shū)所涉及到的知識(shí)點(diǎn)羅列出來(lái)垮刹。也希望能對(duì)看到這篇文章的網(wǎng)友有所幫助达吞。
因?yàn)楹?jiǎn)書(shū)不支持導(dǎo)圖的格式或者表格的格式;所以以圖片的方式放了出來(lái)荒典。大家在查看時(shí)可以“查看原圖”酪劫,然后放大查看。
以下為知識(shí)點(diǎn)的文字版寺董,為了方便有需要的網(wǎng)友覆糟,同時(shí)也便于被搜索引擎抓取到
第一章 引論
數(shù)據(jù)挖掘把大型數(shù)據(jù)集轉(zhuǎn)換成知識(shí)
數(shù)據(jù)豐富,但信息貧乏
數(shù)據(jù)挖掘的步驟
數(shù)據(jù)預(yù)處理
數(shù)據(jù)清理
消除噪聲和刪除不一致數(shù)據(jù)
數(shù)據(jù)集成
多種數(shù)據(jù)源可以組合到一起
數(shù)據(jù)選擇
從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù)
數(shù)據(jù)變換
通過(guò)匯總或聚集操作遮咖,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式
數(shù)據(jù)挖掘
基本步驟滩字,使用智能方法提取數(shù)據(jù)模式
模式評(píng)估
根據(jù)某種興趣度度量,識(shí)別代表知識(shí)的真正有趣模式
知識(shí)表示
使用可視化和知識(shí)表示技術(shù)御吞,向用戶(hù)提供挖掘的知識(shí)
可供挖掘的數(shù)據(jù)類(lèi)型
數(shù)據(jù)庫(kù)數(shù)據(jù)
關(guān)系數(shù)據(jù)庫(kù)
表的匯總
每個(gè)表都包含一組屬性
元組是表中的記錄(行)麦箍,代表一個(gè)對(duì)象,被唯一的關(guān)鍵字標(biāo)識(shí)
實(shí)體-關(guān)系(ER)數(shù)據(jù)模型
實(shí)體
屬性
關(guān)系
關(guān)系數(shù)據(jù)庫(kù)是數(shù)據(jù)挖掘最常見(jiàn)陶珠、最豐富的信息源
數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫(kù)挟裂,存放在一致的模式下,并且通常駐留在單個(gè)站點(diǎn)上
數(shù)據(jù)倉(cāng)庫(kù)從歷史的角度提供信息揍诽,并且通常是匯總的
數(shù)據(jù)倉(cāng)庫(kù)用稱(chēng)作數(shù)據(jù)立方體的多維數(shù)據(jù)結(jié)構(gòu)建模诀蓉。其中,每個(gè)維對(duì)應(yīng)模式中的一個(gè)或一組屬性暑脆,而每個(gè)單元存放某種聚集度量值渠啤。
下鉆
向下展開(kāi)
上卷
向上匯總
事務(wù)數(shù)據(jù)
事務(wù)數(shù)據(jù)庫(kù)的每個(gè)記錄代表一個(gè)事務(wù),如顧客的一次購(gòu)物
其他類(lèi)型的數(shù)據(jù)
時(shí)間相關(guān)或序列數(shù)據(jù)
數(shù)據(jù)流
空間數(shù)據(jù)
萬(wàn)維網(wǎng)
等等
可供挖掘的(功能)模式
類(lèi)/概念區(qū)分
數(shù)據(jù)特征化
是目標(biāo)數(shù)據(jù)的一般特性或特征的匯總添吗。通常沥曹,通過(guò)查詢(xún)來(lái)收集對(duì)應(yīng)于用戶(hù)指定類(lèi)的數(shù)據(jù)
輸出:餅圖、條圖根资、曲線架专、多位數(shù)據(jù)立方體同窘、多維表、廣義關(guān)系部脚、特征規(guī)則
例:匯總一年之內(nèi)花費(fèi)5000美元以上的顧客特征
數(shù)據(jù)區(qū)分
是將目標(biāo)類(lèi)數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類(lèi)對(duì)象的一般性進(jìn)行比較想邦。
輸出:類(lèi)似于特征描述,但是區(qū)分描述應(yīng)當(dāng)包括比較度量委刘,以便幫助區(qū)別目標(biāo)類(lèi)和對(duì)比類(lèi)丧没。
例:定期購(gòu)買(mǎi)計(jì)算機(jī)產(chǎn)品的顧客和不經(jīng)常購(gòu)買(mǎi)這種產(chǎn)品的顧客。
挖掘頻繁模式锡移、關(guān)聯(lián)和相關(guān)性
頻繁模式
是在數(shù)據(jù)中頻繁出現(xiàn)的模式
類(lèi)型
頻繁項(xiàng)集
頻繁地在事務(wù)數(shù)據(jù)中一起出現(xiàn)的商品集合呕童。
頻繁子序列
顧客傾向于先購(gòu)買(mǎi)便攜機(jī),再購(gòu)買(mǎi)數(shù)碼相機(jī)淆珊,然后再購(gòu)買(mǎi)內(nèi)存卡
頻繁子結(jié)構(gòu)
子結(jié)構(gòu)可能涉及不同的結(jié)構(gòu)形式(圖夺饲、樹(shù)、表格)施符,可以與項(xiàng)集或子序列結(jié)合在一起往声。
挖掘頻繁模式導(dǎo)致發(fā)現(xiàn)數(shù)據(jù)中有趣的關(guān)聯(lián)和相關(guān)性。
單維關(guān)聯(lián)規(guī)則
包含單個(gè)謂詞的關(guān)聯(lián)規(guī)則
例:買(mǎi)計(jì)算機(jī)的顧客戳吝,會(huì)有一定可能買(mǎi)軟件
多維關(guān)聯(lián)規(guī)則
包含多個(gè)謂詞的關(guān)聯(lián)規(guī)則
例:年齡20-29歲&&收入為40000-49000美元的顧客浩销,購(gòu)買(mǎi)了計(jì)算機(jī)
用于預(yù)測(cè)分析的分類(lèi)和回歸
分類(lèi)
它找出描述和區(qū)分?jǐn)?shù)據(jù)類(lèi)或概念的模型,以便能夠使用模型預(yù)測(cè)類(lèi)標(biāo)號(hào)未知的對(duì)象的類(lèi)標(biāo)號(hào)
導(dǎo)出的模型如何表示
分類(lèi)規(guī)則(IF—THEN)
決策樹(shù)
類(lèi)似于流程圖的樹(shù)形結(jié)構(gòu)
數(shù)學(xué)公式
神經(jīng)網(wǎng)絡(luò)
回歸
建立連續(xù)值函數(shù)模型听哭;即回歸用來(lái)預(yù)測(cè)缺失的或難以獲得的數(shù)值數(shù)據(jù)值慢洋,而不是離散的類(lèi)標(biāo)號(hào)。
相關(guān)分析可能需要在分類(lèi)和回歸之前進(jìn)行陆盘,它試圖識(shí)別與分類(lèi)和回歸過(guò)程顯著相關(guān)的屬性普筹。我們將選取這些屬性用于分類(lèi)和回歸過(guò)程,其他屬性是不相關(guān)的隘马,可以不必考慮斑芜。
分類(lèi)預(yù)測(cè)類(lèi)別(離散的、無(wú)序的)標(biāo)號(hào)祟霍;而回歸預(yù)測(cè)連續(xù)值
聚類(lèi)分析
在許多情況下,開(kāi)始并不存在標(biāo)記類(lèi)的數(shù)據(jù)盈包》心牛可以通過(guò)聚類(lèi)產(chǎn)生數(shù)據(jù)組群的類(lèi)標(biāo)號(hào)
對(duì)象根據(jù)最大化類(lèi)內(nèi)相似性、最小化類(lèi)間相似性的原則進(jìn)行聚類(lèi)或分組(簇)
離群點(diǎn)分析
與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象呢燥,稱(chēng)之為離群點(diǎn)崭添。
大部分?jǐn)?shù)據(jù)挖掘方法都將離群點(diǎn)視為噪聲或異常而丟棄。然而叛氨,在一些應(yīng)用中(欺詐檢測(cè))呼渣,罕見(jiàn)的事件可能比正常出現(xiàn)的事件更令人感興趣棘伴。
判斷模式有趣的指標(biāo)
支持度
表示事務(wù)數(shù)據(jù)庫(kù)中滿(mǎn)足規(guī)則的事務(wù)所占的百分比
置信度
評(píng)估所發(fā)現(xiàn)的規(guī)則的確信程度
數(shù)據(jù)挖掘使用的技術(shù)
統(tǒng)計(jì)學(xué)
機(jī)器學(xué)習(xí)
監(jiān)督學(xué)習(xí)
分類(lèi)的同義詞
無(wú)監(jiān)督學(xué)習(xí)
聚類(lèi)的同義詞
半監(jiān)督學(xué)習(xí)
主動(dòng)學(xué)習(xí)
數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)
信息檢索
搜索
面向什么應(yīng)用
商務(wù)智能 BI
web搜索引擎
數(shù)據(jù)挖掘研究的主要課題
挖掘方法
挖掘各種新的知識(shí)類(lèi)型
挖掘多維空間中的知識(shí)
數(shù)據(jù)挖掘--跨學(xué)科的努力
提升網(wǎng)絡(luò)環(huán)境下的發(fā)現(xiàn)能力
處理不確定性、噪聲或不完成數(shù)據(jù)
模式評(píng)估和模式或約束指導(dǎo)的挖掘
用戶(hù)界面
交互挖掘
結(jié)合背景知識(shí)
特定的數(shù)據(jù)挖掘和數(shù)據(jù)挖掘查詢(xún)語(yǔ)言
數(shù)據(jù)挖掘結(jié)果的表示和可視化
有效性和可伸縮性
數(shù)據(jù)挖掘算法的有效性和可伸縮性
并行屁置、分布式和增量挖掘算法
數(shù)據(jù)庫(kù)類(lèi)型的多樣性
處理復(fù)雜的數(shù)據(jù)類(lèi)型
挖掘動(dòng)態(tài)的焊夸、網(wǎng)絡(luò)的、全球的數(shù)據(jù)庫(kù)
數(shù)據(jù)挖掘與社會(huì)
數(shù)據(jù)挖掘?qū)ι鐣?huì)的影響
保護(hù)隱私的數(shù)據(jù)挖掘
無(wú)形的數(shù)據(jù)挖掘