1.1 數(shù)據(jù)挖掘的定義與應(yīng)用
什么是數(shù)據(jù)挖掘,目前數(shù)據(jù)挖掘的定義仍然有著不同的理解,絕大部分人公認(rèn)的定義是:從數(shù)據(jù)中獲取知識(shí)怔檩。
數(shù)據(jù)挖掘利用了來自如下領(lǐng)域的思想:
(1)來自統(tǒng)計(jì)學(xué)的抽樣褪秀、估計(jì)和假設(shè)檢驗(yàn)。
(2)人工智能薛训、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法媒吗、建模分析和學(xué)習(xí)理論。
1.2 數(shù)據(jù)挖掘的第一個(gè)里程碑
1.C4.5算法
分類問題算法乙埃,C4.5的目標(biāo)是通過學(xué)習(xí)闸英,找到1個(gè)從屬性值到類別值得映射關(guān)系,并且這個(gè)映射
能用于對(duì)新的未知類別進(jìn)行分類介袜。
C4.5算法核心是ID3甫何,只是做了以下改進(jìn):
(1).用信息增益率來選擇屬性 (2)在構(gòu)建決策樹中剪枝?
(3)能夠完成對(duì)連續(xù)屬性的離散化處理 (4)能夠?qū)?b>不完整數(shù)據(jù)進(jìn)行處理
2.K-Means算法
是一種聚類算法,試圖找到數(shù)據(jù)中自然聚類中心遇伞。
3.Support Vector Machines(SVM支持向量機(jī))
應(yīng)用于分類與回歸分析中辙喂,將向量映射到一個(gè)更高的維度空間中,在這個(gè)空間建立一個(gè)最大間隔的超平面
4.The Apriori Algorithm(Apriori 算法)
Apriori算法是一種最具有影響力的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法鸠珠。在這里巍耗,所有支持度大于最小支持度的項(xiàng)集都稱為頻繁項(xiàng)集。
5.最大期望(EM)算法
最大期望(Expectation-Maximization,EX)算法是在概率模型中尋找參數(shù)最大似然估計(jì)的算法渐排。
6.AdaBoost 增強(qiáng)型算法
是一種迭代算法芍锦,其核心思想就是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練成不同的分類器,然后把這些弱分類器集合起來飞盆,構(gòu)成一個(gè)更強(qiáng)的最終分類器娄琉。