數(shù)據(jù)挖掘之分類模型
判別分析是在已知研究對(duì)象分成若干類型并已經(jīng)取得各種類型的一批已知樣本的觀測(cè)數(shù)據(jù)毫缆,在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式蚣常,然后對(duì)未知類型的樣品進(jìn)行判別分析盒粮。
聚類分析則是給定的一批樣品疟丙,要?jiǎng)澐值念愋蛯?shí)現(xiàn)并不知道余黎,正需要通過局內(nèi)分析來給以確定類型的重窟。
判別分析距離判別法
基本思想:首先根據(jù)已知分類的數(shù)據(jù),分別計(jì)算各類的重心即分組(類)的均值惧财,判別準(zhǔn)則是對(duì)任給的一次觀測(cè)巡扇,若它與第i類的重心距離最近,就認(rèn)為它來自第i類垮衷。至于距離的測(cè)定厅翔,可以根據(jù)實(shí)際需要采用歐氏距離、馬氏距離搀突、明科夫距離等刀闷。
Fisher判別法
基本思想:從兩個(gè)總體中抽取具有p個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù),借助方差分析的思想構(gòu)造一個(gè)判別函數(shù)或稱判別式
其中系數(shù)ci確定的原則是使兩組間的區(qū)別最大仰迁,而使每個(gè)組內(nèi)部的離差最小甸昏。
對(duì)于一個(gè)新的樣品,將它的p個(gè)指標(biāo)值代人判別式中求出y值徐许,然后與判別臨界值(或稱分界點(diǎn)(后面給出)進(jìn)行比較施蜜,就可以判別它應(yīng)屬于哪一個(gè)總體。在兩個(gè)總體先驗(yàn)概率相等的假設(shè)下绊寻,判別臨界值一般然ǘ铡:
最后悬秉,用F統(tǒng)計(jì)量來檢驗(yàn)判別效果,若FF則認(rèn)為判別有效冰蘑,否則判別無效和泌。以上描述的是兩總體判別,至于多總體判別方法則需要加以擴(kuò)展祠肥。Fisher判別法隨著總體數(shù)的增加武氓,建立的判別式也增加,因而計(jì)算比較復(fù)雜仇箱。
Bayes判別法
基本思想:
基本思想:假定對(duì)所研究的對(duì)象有一定的認(rèn)識(shí)县恕,即假設(shè)k個(gè)總體中,第i個(gè)總體Gi的先驗(yàn)概率為qi剂桥,概率密度函數(shù)為f(x)忠烛。利用bayes公式計(jì)算觀測(cè)樣品X來自第j個(gè)總體的后驗(yàn)概
率
當(dāng)
時(shí),將樣本X判為總體Gh权逗。
逐步判別法
基本思想與逐步回歸法類似美尸,采用“有進(jìn)有出”的算法,逐步引入變量斟薇,每次引入一個(gè)變量進(jìn)入判別式师坎,則同時(shí)考慮在較早引入判別式的某些作用不顯著的變量剔除出去。
聚類分析
聚類分析是一種無監(jiān)督的分類方法堪滨,即不預(yù)先指定類別胯陋。
根據(jù)分類對(duì)象不同,聚類分析可以分為樣本聚類(Q型)和變量聚類(R型)袱箱。樣本聚類針對(duì)觀測(cè)樣本進(jìn)行分類遏乔,而變量聚類則是試圖找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息犯眠。變量聚類是一種降維的方法按灶。
系統(tǒng)聚類法(分層聚類法)
基本思想:開始將每個(gè)樣本自成一類;然后求兩兩之間的距離筐咧,將距離最近的兩類合成一類鸯旁;如此重復(fù),直到所有樣本都合為一類為止量蕊。適用范圍:既適用于樣本聚類铺罢,也適用于變量聚類。并且距離分類準(zhǔn)則和距離計(jì)算方法都有多種残炮,可以依據(jù)具體情形選擇韭赘。
快速聚類法(K-均值聚類法)
基本思想:按照指定分類數(shù)目n,選擇n個(gè)初始聚類中心Zi=(i=1,2....n),計(jì)算每個(gè)觀測(cè)量(樣本)到各個(gè)聚類中心的距離势就,按照就近原則將其分別分到放入各類中泉瞻;重新計(jì)算聚類中心脉漏,繼續(xù)以上步驟;滿足停止條件時(shí)(如最大迭代次數(shù)等)則停止袖牙。使用范圍:要求用戶給定分類數(shù)目n侧巨,只適用于樣本聚類(Q型),不適用于變量聚類(R型)鞭达。
兩步聚類法(智能聚類方法)
基本思想:先進(jìn)行預(yù)聚類司忱,然后再進(jìn)行正式聚類。
適用范圍:屬于智能聚類方法畴蹭,用于解決海量數(shù)據(jù)或者具有復(fù)雜類別結(jié)構(gòu)的聚類分析問題坦仍。可以同時(shí)處理離散和連續(xù)變量叨襟,自動(dòng)選擇聚類數(shù)繁扎,可以處理超大樣本量的數(shù)據(jù)。
模糊聚類分析
采用模糊數(shù)學(xué)語言對(duì)事物按一定的要求進(jìn)行描述和分類的數(shù)學(xué)方法稱為模糊聚類分析糊闽。
(1)計(jì)算樣本或變量間的相似系數(shù)锻离,建立模糊相似矩陣;
(2)利用模糊運(yùn)算對(duì)相似矩陣進(jìn)行一系列的合成改造墓怀,生成模糊等價(jià)矩陣;
(3)最后根據(jù)不同的截取水平λ對(duì)模糊等價(jià)矩陣進(jìn)行截取分類
遺傳算法聚類
遺傳算法是一種模擬自然進(jìn)化的優(yōu)化搜索算法,它僅依靠適應(yīng)度函數(shù)就可以搜索最優(yōu)解卫键。介紹了一種基于遺傳算法的聚類分析方法,采用浮點(diǎn)數(shù)編碼方式對(duì)聚類的中心進(jìn)行編碼,并用特征向量與相應(yīng)聚類中心的歐氏距離的和來判斷聚類劃分的質(zhì)量,通過選擇傀履、交叉和變異操作對(duì)聚類中心的編碼進(jìn)行優(yōu)化,得到使聚類劃分效果最好的聚類中心。
SOM聚類算法
SOM神經(jīng)網(wǎng)絡(luò)是由芬蘭神經(jīng)網(wǎng)絡(luò)專家Kohonen教授提出的莉炉,該算法假設(shè)在輸入對(duì)象中存在一些拓?fù)浣Y(jié)構(gòu)或順序钓账,可以實(shí)現(xiàn)從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓?fù)涮卣鞅3中再|(zhì),與實(shí)際的大腦處理有很強(qiáng)的理論聯(lián)系絮宁。
SOM網(wǎng)絡(luò)包含輸入層和輸出層梆暮。輸入層對(duì)應(yīng)一個(gè)高維的輸入向量,輸出層由一系列組織在2維網(wǎng)格上的有序節(jié)點(diǎn)構(gòu)成绍昂,輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)通過權(quán)重向量連接啦粹。學(xué)習(xí)過程中,找到與之距離最短的輸出層單元窘游,即獲勝單元唠椭,對(duì)其更新。同時(shí)忍饰,將鄰近區(qū)域的權(quán)值更新贪嫂,使輸出節(jié)點(diǎn)保持輸入向量的拓?fù)涮卣鳌?/p>
算法流程:
(1) 網(wǎng)絡(luò)初始化,對(duì)輸出層每個(gè)節(jié)點(diǎn)權(quán)重賦初值艾蓝;
(2) 將輸入樣本中隨機(jī)選取輸入向量力崇,找到與輸入向量距離最小的權(quán)重向量斗塘;
(3) 定義獲勝單元,在獲勝單元的鄰近區(qū)域調(diào)整權(quán)重使其向輸入向量靠攏亮靴;
(4) 提供新樣本馍盟、進(jìn)行訓(xùn)練;
(5) 收縮鄰域半徑台猴、減小學(xué)習(xí)率朽合、重復(fù),直到小于允許值饱狂,輸出聚類結(jié)果曹步。
灰色聚類法
灰色聚類是將聚類對(duì)象對(duì)于不同聚類指標(biāo)所擁有的白化素,按幾個(gè)灰色類進(jìn)行歸納休讳,以判斷該聚類對(duì)象屬于哪一類讲婚。其一般步驟如下:
(一)確定聚類對(duì)象和聚類指標(biāo)
聚類對(duì)象記為:i∈{Ⅰ,Ⅱ俊柔,…}筹麸;聚類指標(biāo)為:k∈{1*,2*雏婶,…物赶,n*};給出不同聚類對(duì)象不同聚類指標(biāo)的白化數(shù)dik,構(gòu)成樣本矩陣D=[dik]
當(dāng)各個(gè)灰類的白化值在數(shù)量上相差太懸殊時(shí),應(yīng)先作無量綱化處理留晚。
(二)確定灰類及白化函數(shù)fkj(X)
一般取“高” 酵紫、“中” 、“低“三種灰類進(jìn)行分析错维,記為:j∈{1奖地,2,3}赋焕。?
fkj(djk)為第i個(gè)聚類對(duì)象的第k個(gè)指標(biāo)屬于第j個(gè)灰類時(shí)的白化函數(shù)值参歹。
(三)求標(biāo)定聚類權(quán)ηkj
(四)求聚類系數(shù)σij
σji為第i個(gè)聚類對(duì)象第j個(gè)灰類的聚類系數(shù)。
(五)構(gòu)造聚類矩陣
(六)聚類
對(duì)于任意i隆判,若σij*=max{σij犬庇,j=1,2蜜氨,3}械筛,則說明第i個(gè)聚類對(duì)象屬于第j個(gè)灰類。
神經(jīng)網(wǎng)絡(luò)分類方法
神經(jīng)網(wǎng)絡(luò)分類算法的重點(diǎn)是構(gòu)造閾值邏輯單元飒炎。一個(gè)閾值邏輯單元是一個(gè)對(duì)象埋哟,可以輸入一組加權(quán)系數(shù)的量,對(duì)它們進(jìn)行求和。如果這個(gè)和達(dá)到或者超過了某個(gè)閾值赤赊,則輸出一個(gè)量闯狱。比如,輸入值X1, X2, ..., Xn 和它們的權(quán)系數(shù):W1, W2, ..., Wn抛计,求和計(jì)算出的 Xi*Wi 哄孤,產(chǎn)生了激發(fā)層 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn)。其中吹截,Xi 是各條記錄出現(xiàn)頻率或其他參數(shù)瘦陈,Wi是實(shí)時(shí)特征評(píng)估模型中得到的權(quán)系數(shù)。
算法描述:
若和E都小于允許的誤差波俄,則學(xué)習(xí)過程結(jié)束晨逝,否則計(jì)算各層節(jié)點(diǎn)的輸出偏差,進(jìn)行誤差反向傳播懦铺,修改網(wǎng)絡(luò)連接權(quán)值和閾值捉貌。
網(wǎng)絡(luò)連接權(quán)值和節(jié)點(diǎn)閾值,經(jīng)過上述過程的反復(fù)修正冬念,逐漸趨于穩(wěn)定的值趁窃。
采用BPN法的過程中需要選擇的幾個(gè)參數(shù)
①學(xué)習(xí)率和慣性因子
BP算法本質(zhì)上是優(yōu)化計(jì)算中的梯度下降法,利用誤差對(duì)于權(quán)急前、閥值的一階導(dǎo)數(shù)信息來指導(dǎo)下一步的權(quán)值調(diào)整方向醒陆,以求最終得到誤差最小。為了保證算法的收斂性裆针,學(xué)習(xí)率必須小于某一上限统求,一般取0<<1而且越接近極小值,由于梯度變化值逐漸趨于零据块,算法的收斂就越來越慢。在網(wǎng)絡(luò)參數(shù)中折剃,學(xué)習(xí)率和慣性因子是很重要的另假,它們的取值直接影響到網(wǎng)絡(luò)的性能,主要是收斂速度怕犁。為提高學(xué)習(xí)速度边篮,應(yīng)采用大的。但太大卻可能導(dǎo)致在穩(wěn)定點(diǎn)附近振蕩奏甫,乃至不收斂戈轿。針對(duì)具體的網(wǎng)絡(luò)結(jié)構(gòu)模型和學(xué)習(xí)樣本,都存在一個(gè)最佳的學(xué)習(xí)率和慣性因子阵子,它們的取值范圍一般0~1之間思杯,視實(shí)際情況而定。
②初始權(quán)值和閾值
在前饋多層神經(jīng)網(wǎng)絡(luò)的BP算法中,初始權(quán)色乾、閾值一般是在一個(gè)固定范圍內(nèi)按均勻分布隨機(jī)產(chǎn)生的誊册。一般認(rèn)為初始權(quán)值范圍為-1~+1之間,初始權(quán)值的選擇對(duì)于局部極小點(diǎn)的防止和網(wǎng)絡(luò)收斂速度的提高均有一定程度的影響暖璧,如果初始權(quán)值范圍選擇不當(dāng)案怯,學(xué)習(xí)過程一開始就可能進(jìn)入“假飽和”現(xiàn)象,甚至進(jìn)入局部極小點(diǎn)澎办,網(wǎng)絡(luò)根本不收斂嘲碱。初始權(quán)、閾值的選擇因具體的網(wǎng)絡(luò)結(jié)構(gòu)模式和訓(xùn)練樣本不同而有所差別局蚀,一般應(yīng)視實(shí)際情況而定麦锯。
③收斂誤差界值Emin
在網(wǎng)絡(luò)訓(xùn)練過程中應(yīng)根據(jù)實(shí)際情況預(yù)先確定誤差界值。誤差界值的選擇完全根據(jù)網(wǎng)絡(luò)模型的收斂速度大小和具體樣本的學(xué)習(xí)精度來確定至会。當(dāng)Emin值選擇較小時(shí)离咐,學(xué)習(xí)效果好,但收斂速度慢奉件,訓(xùn)練次數(shù)增加宵蛀。如果Emin值取得較大時(shí)則相反