分類問題

數(shù)據(jù)挖掘之分類模型

判別分析是在已知研究對(duì)象分成若干類型并已經(jīng)取得各種類型的一批已知樣本的觀測(cè)數(shù)據(jù)毫缆,在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式蚣常,然后對(duì)未知類型的樣品進(jìn)行判別分析盒粮。

聚類分析則是給定的一批樣品疟丙,要?jiǎng)澐值念愋蛯?shí)現(xiàn)并不知道余黎,正需要通過局內(nèi)分析來給以確定類型的重窟。


判別分析距離判別法

基本思想:首先根據(jù)已知分類的數(shù)據(jù),分別計(jì)算各類的重心即分組(類)的均值惧财,判別準(zhǔn)則是對(duì)任給的一次觀測(cè)巡扇,若它與第i類的重心距離最近,就認(rèn)為它來自第i類垮衷。至于距離的測(cè)定厅翔,可以根據(jù)實(shí)際需要采用歐氏距離、馬氏距離搀突、明科夫距離等刀闷。

Fisher判別法

基本思想:從兩個(gè)總體中抽取具有p個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù),借助方差分析的思想構(gòu)造一個(gè)判別函數(shù)或稱判別式

其中系數(shù)ci確定的原則是使兩組間的區(qū)別最大仰迁,而使每個(gè)組內(nèi)部的離差最小甸昏。

對(duì)于一個(gè)新的樣品,將它的p個(gè)指標(biāo)值代人判別式中求出y值徐许,然后與判別臨界值(或稱分界點(diǎn)(后面給出)進(jìn)行比較施蜜,就可以判別它應(yīng)屬于哪一個(gè)總體。在兩個(gè)總體先驗(yàn)概率相等的假設(shè)下绊寻,判別臨界值一般然ǘ铡:

最后悬秉,用F統(tǒng)計(jì)量來檢驗(yàn)判別效果,若FF則認(rèn)為判別有效冰蘑,否則判別無效和泌。以上描述的是兩總體判別,至于多總體判別方法則需要加以擴(kuò)展祠肥。Fisher判別法隨著總體數(shù)的增加武氓,建立的判別式也增加,因而計(jì)算比較復(fù)雜仇箱。



Bayes判別法

基本思想:

基本思想:假定對(duì)所研究的對(duì)象有一定的認(rèn)識(shí)县恕,即假設(shè)k個(gè)總體中,第i個(gè)總體Gi的先驗(yàn)概率為qi剂桥,概率密度函數(shù)為f(x)忠烛。利用bayes公式計(jì)算觀測(cè)樣品X來自第j個(gè)總體的后驗(yàn)概


當(dāng)

時(shí),將樣本X判為總體Gh权逗。



逐步判別法

基本思想與逐步回歸法類似美尸,采用“有進(jìn)有出”的算法,逐步引入變量斟薇,每次引入一個(gè)變量進(jìn)入判別式师坎,則同時(shí)考慮在較早引入判別式的某些作用不顯著的變量剔除出去。



聚類分析

聚類分析是一種無監(jiān)督的分類方法堪滨,即不預(yù)先指定類別胯陋。

根據(jù)分類對(duì)象不同,聚類分析可以分為樣本聚類(Q型)和變量聚類(R型)袱箱。樣本聚類針對(duì)觀測(cè)樣本進(jìn)行分類遏乔,而變量聚類則是試圖找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息犯眠。變量聚類是一種降維的方法按灶。


系統(tǒng)聚類法(分層聚類法)

基本思想:開始將每個(gè)樣本自成一類;然后求兩兩之間的距離筐咧,將距離最近的兩類合成一類鸯旁;如此重復(fù),直到所有樣本都合為一類為止量蕊。適用范圍:既適用于樣本聚類铺罢,也適用于變量聚類。并且距離分類準(zhǔn)則和距離計(jì)算方法都有多種残炮,可以依據(jù)具體情形選擇韭赘。


快速聚類法(K-均值聚類法)

基本思想:按照指定分類數(shù)目n,選擇n個(gè)初始聚類中心Zi=(i=1,2....n),計(jì)算每個(gè)觀測(cè)量(樣本)到各個(gè)聚類中心的距離势就,按照就近原則將其分別分到放入各類中泉瞻;重新計(jì)算聚類中心脉漏,繼續(xù)以上步驟;滿足停止條件時(shí)(如最大迭代次數(shù)等)則停止袖牙。使用范圍:要求用戶給定分類數(shù)目n侧巨,只適用于樣本聚類(Q型),不適用于變量聚類(R型)鞭达。



兩步聚類法(智能聚類方法)

基本思想:先進(jìn)行預(yù)聚類司忱,然后再進(jìn)行正式聚類。

適用范圍:屬于智能聚類方法畴蹭,用于解決海量數(shù)據(jù)或者具有復(fù)雜類別結(jié)構(gòu)的聚類分析問題坦仍。可以同時(shí)處理離散和連續(xù)變量叨襟,自動(dòng)選擇聚類數(shù)繁扎,可以處理超大樣本量的數(shù)據(jù)。


模糊聚類分析

采用模糊數(shù)學(xué)語言對(duì)事物按一定的要求進(jìn)行描述和分類的數(shù)學(xué)方法稱為模糊聚類分析糊闽。

(1)計(jì)算樣本或變量間的相似系數(shù)锻离,建立模糊相似矩陣

(2)利用模糊運(yùn)算對(duì)相似矩陣進(jìn)行一系列的合成改造墓怀,生成模糊等價(jià)矩陣

(3)最后根據(jù)不同的截取水平λ對(duì)模糊等價(jià)矩陣進(jìn)行截取分類



遺傳算法聚類

遺傳算法是一種模擬自然進(jìn)化的優(yōu)化搜索算法,它僅依靠適應(yīng)度函數(shù)就可以搜索最優(yōu)解卫键。介紹了一種基于遺傳算法的聚類分析方法,采用浮點(diǎn)數(shù)編碼方式對(duì)聚類的中心進(jìn)行編碼,并用特征向量與相應(yīng)聚類中心的歐氏距離的和來判斷聚類劃分的質(zhì)量,通過選擇傀履、交叉和變異操作對(duì)聚類中心的編碼進(jìn)行優(yōu)化,得到使聚類劃分效果最好的聚類中心。


SOM聚類算法

SOM神經(jīng)網(wǎng)絡(luò)是由芬蘭神經(jīng)網(wǎng)絡(luò)專家Kohonen教授提出的莉炉,該算法假設(shè)在輸入對(duì)象中存在一些拓?fù)浣Y(jié)構(gòu)或順序钓账,可以實(shí)現(xiàn)從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓?fù)涮卣鞅3中再|(zhì),與實(shí)際的大腦處理有很強(qiáng)的理論聯(lián)系絮宁。

SOM網(wǎng)絡(luò)包含輸入層和輸出層梆暮。輸入層對(duì)應(yīng)一個(gè)高維的輸入向量,輸出層由一系列組織在2維網(wǎng)格上的有序節(jié)點(diǎn)構(gòu)成绍昂,輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)通過權(quán)重向量連接啦粹。學(xué)習(xí)過程中,找到與之距離最短的輸出層單元窘游,即獲勝單元唠椭,對(duì)其更新。同時(shí)忍饰,將鄰近區(qū)域的權(quán)值更新贪嫂,使輸出節(jié)點(diǎn)保持輸入向量的拓?fù)涮卣鳌?/p>

算法流程:

(1) 網(wǎng)絡(luò)初始化,對(duì)輸出層每個(gè)節(jié)點(diǎn)權(quán)重賦初值艾蓝;

(2) 將輸入樣本中隨機(jī)選取輸入向量力崇,找到與輸入向量距離最小的權(quán)重向量斗塘;

(3) 定義獲勝單元,在獲勝單元的鄰近區(qū)域調(diào)整權(quán)重使其向輸入向量靠攏亮靴;

(4) 提供新樣本馍盟、進(jìn)行訓(xùn)練;

(5) 收縮鄰域半徑台猴、減小學(xué)習(xí)率朽合、重復(fù),直到小于允許值饱狂,輸出聚類結(jié)果曹步。


灰色聚類法

灰色聚類是將聚類對(duì)象對(duì)于不同聚類指標(biāo)所擁有的白化素,按幾個(gè)灰色類進(jìn)行歸納休讳,以判斷該聚類對(duì)象屬于哪一類讲婚。其一般步驟如下:

(一)確定聚類對(duì)象和聚類指標(biāo)

聚類對(duì)象記為:i∈{Ⅰ,Ⅱ俊柔,…}筹麸;聚類指標(biāo)為:k∈{1*,2*雏婶,…物赶,n*};給出不同聚類對(duì)象不同聚類指標(biāo)的白化數(shù)dik,構(gòu)成樣本矩陣D=[dik]

當(dāng)各個(gè)灰類的白化值在數(shù)量上相差太懸殊時(shí),應(yīng)先作無量綱化處理留晚。

(二)確定灰類及白化函數(shù)fkj(X)

一般取“高” 酵紫、“中” 、“低“三種灰類進(jìn)行分析错维,記為:j∈{1奖地,2,3}赋焕。?

fkj(djk)為第i個(gè)聚類對(duì)象的第k個(gè)指標(biāo)屬于第j個(gè)灰類時(shí)的白化函數(shù)值参歹。

(三)求標(biāo)定聚類權(quán)ηkj

(四)求聚類系數(shù)σij

σji為第i個(gè)聚類對(duì)象第j個(gè)灰類的聚類系數(shù)。

(五)構(gòu)造聚類矩陣

(六)聚類

對(duì)于任意i隆判,若σij*=max{σij犬庇,j=1,2蜜氨,3}械筛,則說明第i個(gè)聚類對(duì)象屬于第j個(gè)灰類。



神經(jīng)網(wǎng)絡(luò)分類方法

神經(jīng)網(wǎng)絡(luò)分類算法的重點(diǎn)是構(gòu)造閾值邏輯單元飒炎。一個(gè)閾值邏輯單元是一個(gè)對(duì)象埋哟,可以輸入一組加權(quán)系數(shù)的量,對(duì)它們進(jìn)行求和。如果這個(gè)和達(dá)到或者超過了某個(gè)閾值赤赊,則輸出一個(gè)量闯狱。比如,輸入值X1, X2, ..., Xn 和它們的權(quán)系數(shù):W1, W2, ..., Wn抛计,求和計(jì)算出的 Xi*Wi 哄孤,產(chǎn)生了激發(fā)層 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn)。其中吹截,Xi 是各條記錄出現(xiàn)頻率或其他參數(shù)瘦陈,Wi是實(shí)時(shí)特征評(píng)估模型中得到的權(quán)系數(shù)。

算法描述:

若和E都小于允許的誤差波俄,則學(xué)習(xí)過程結(jié)束晨逝,否則計(jì)算各層節(jié)點(diǎn)的輸出偏差,進(jìn)行誤差反向傳播懦铺,修改網(wǎng)絡(luò)連接權(quán)值和閾值捉貌。


網(wǎng)絡(luò)連接權(quán)值和節(jié)點(diǎn)閾值,經(jīng)過上述過程的反復(fù)修正冬念,逐漸趨于穩(wěn)定的值趁窃。

采用BPN法的過程中需要選擇的幾個(gè)參數(shù)

①學(xué)習(xí)率和慣性因子

BP算法本質(zhì)上是優(yōu)化計(jì)算中的梯度下降法,利用誤差對(duì)于權(quán)急前、閥值的一階導(dǎo)數(shù)信息來指導(dǎo)下一步的權(quán)值調(diào)整方向醒陆,以求最終得到誤差最小。為了保證算法的收斂性裆针,學(xué)習(xí)率必須小于某一上限统求,一般取0<<1而且越接近極小值,由于梯度變化值逐漸趨于零据块,算法的收斂就越來越慢。在網(wǎng)絡(luò)參數(shù)中折剃,學(xué)習(xí)率和慣性因子是很重要的另假,它們的取值直接影響到網(wǎng)絡(luò)的性能,主要是收斂速度怕犁。為提高學(xué)習(xí)速度边篮,應(yīng)采用大的。但太大卻可能導(dǎo)致在穩(wěn)定點(diǎn)附近振蕩奏甫,乃至不收斂戈轿。針對(duì)具體的網(wǎng)絡(luò)結(jié)構(gòu)模型和學(xué)習(xí)樣本,都存在一個(gè)最佳的學(xué)習(xí)率和慣性因子阵子,它們的取值范圍一般0~1之間思杯,視實(shí)際情況而定。

②初始權(quán)值和閾值

在前饋多層神經(jīng)網(wǎng)絡(luò)的BP算法中,初始權(quán)色乾、閾值一般是在一個(gè)固定范圍內(nèi)按均勻分布隨機(jī)產(chǎn)生的誊册。一般認(rèn)為初始權(quán)值范圍為-1~+1之間,初始權(quán)值的選擇對(duì)于局部極小點(diǎn)的防止和網(wǎng)絡(luò)收斂速度的提高均有一定程度的影響暖璧,如果初始權(quán)值范圍選擇不當(dāng)案怯,學(xué)習(xí)過程一開始就可能進(jìn)入“假飽和”現(xiàn)象,甚至進(jìn)入局部極小點(diǎn)澎办,網(wǎng)絡(luò)根本不收斂嘲碱。初始權(quán)、閾值的選擇因具體的網(wǎng)絡(luò)結(jié)構(gòu)模式和訓(xùn)練樣本不同而有所差別局蚀,一般應(yīng)視實(shí)際情況而定麦锯。

③收斂誤差界值Emin

在網(wǎng)絡(luò)訓(xùn)練過程中應(yīng)根據(jù)實(shí)際情況預(yù)先確定誤差界值。誤差界值的選擇完全根據(jù)網(wǎng)絡(luò)模型的收斂速度大小和具體樣本的學(xué)習(xí)精度來確定至会。當(dāng)Emin值選擇較小時(shí)离咐,學(xué)習(xí)效果好,但收斂速度慢奉件,訓(xùn)練次數(shù)增加宵蛀。如果Emin值取得較大時(shí)則相反

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市县貌,隨后出現(xiàn)的幾起案子术陶,更是在濱河造成了極大的恐慌,老刑警劉巖煤痕,帶你破解...
    沈念sama閱讀 210,914評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件梧宫,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡摆碉,警方通過查閱死者的電腦和手機(jī)塘匣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評(píng)論 2 383
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來巷帝,“玉大人忌卤,你說我怎么就攤上這事±闫茫” “怎么了驰徊?”我有些...
    開封第一講書人閱讀 156,531評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長堕阔。 經(jīng)常有香客問我棍厂,道長,這世上最難降的妖魔是什么超陆? 我笑而不...
    開封第一講書人閱讀 56,309評(píng)論 1 282
  • 正文 為了忘掉前任牺弹,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘例驹。我一直安慰自己捐韩,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評(píng)論 5 384
  • 文/花漫 我一把揭開白布鹃锈。 她就那樣靜靜地躺著荤胁,像睡著了一般。 火紅的嫁衣襯著肌膚如雪屎债。 梳的紋絲不亂的頭發(fā)上仅政,一...
    開封第一講書人閱讀 49,730評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音盆驹,去河邊找鬼圆丹。 笑死,一個(gè)胖子當(dāng)著我的面吹牛躯喇,可吹牛的內(nèi)容都是我干的辫封。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評(píng)論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼廉丽,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼倦微!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起正压,我...
    開封第一講書人閱讀 37,643評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤欣福,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后焦履,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拓劝,經(jīng)...
    沈念sama閱讀 44,095評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評(píng)論 2 325
  • 正文 我和宋清朗相戀三年嘉裤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了郑临。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,566評(píng)論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡屑宠,死狀恐怖牧抵,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情侨把,我是刑警寧澤,帶...
    沈念sama閱讀 34,253評(píng)論 4 328
  • 正文 年R本政府宣布妹孙,位于F島的核電站秋柄,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏蠢正。R本人自食惡果不足惜骇笔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧笨触,春花似錦懦傍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至虚吟,卻和暖如春寸认,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背串慰。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評(píng)論 1 264
  • 我被黑心中介騙來泰國打工偏塞, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人邦鲫。 一個(gè)月前我還...
    沈念sama閱讀 46,248評(píng)論 2 360
  • 正文 我出身青樓灸叼,卻偏偏與公主長得像,于是被迫代替她去往敵國和親庆捺。 傳聞我的和親對(duì)象是個(gè)殘疾皇子古今,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容