A 數(shù)據(jù)挖掘方法分類
1.描述性(沒(méi)有被解釋變量鸠补,無(wú)監(jiān)督學(xué)習(xí)),分析具有多個(gè)屬性的數(shù)據(jù)集嘀掸,找出潛在的模式紫岩,沒(méi)有因變量
場(chǎng)景:觀察個(gè)體之間的相似程度,例如根據(jù)年齡睬塌、性別泉蝌、收入等多因素進(jìn)行客戶細(xì)分,根據(jù)客戶對(duì)多個(gè)產(chǎn)品的購(gòu)買揩晴,發(fā)現(xiàn)產(chǎn)品之間的相關(guān)性
主要算法:聚類勋陪、關(guān)聯(lián)分析、因子分析硫兰、主成分分析诅愚、社交網(wǎng)絡(luò)分析
2.預(yù)測(cè)性(有被解釋變量,有監(jiān)督學(xué)習(xí)劫映,分類模型)违孝,用一個(gè)或者多個(gè)自變量預(yù)測(cè)因變量的值,即以歷史數(shù)據(jù)為訓(xùn)練資料泳赋,從中學(xué)習(xí)并建立模型等浊,將此模型運(yùn)用到當(dāng)前的數(shù)據(jù)上,推測(cè)未來(lái)的結(jié)果摹蘑。
場(chǎng)景:客戶是否會(huì)違約時(shí)一個(gè)因變量筹燕,可以根據(jù)客戶的性別、年齡衅鹿、收入撒踪、職位、經(jīng)濟(jì)情況大渤、歷史信用狀況等因素進(jìn)行預(yù)測(cè)
Y值類別:訓(xùn)練數(shù)據(jù)由自變量(X)和因變量(Y)組成制妄,Y是連續(xù)值——回歸,Y是分類值——分類
主要算法:決策樹泵三、線性回歸耕捞、Logistic回歸、支持向量機(jī)烫幕、神經(jīng)網(wǎng)絡(luò)俺抽、判別分析、较曼。磷斧。。
B.分類模型示例
預(yù)測(cè)類型 | 方法 | 適用場(chǎng)景 | 舉例 |
---|---|---|---|
估計(jì) | 線性回歸/回歸樹/神經(jīng)網(wǎng)絡(luò) | 這類問(wèn)題絕大多數(shù)下被解釋變量為連續(xù)變量 | 消費(fèi)額度預(yù)測(cè)/違約損失預(yù)測(cè) |
排序 | 邏輯回歸/決策樹/神經(jīng)網(wǎng)絡(luò) | 不存在穩(wěn)定的可辨識(shí)的分類結(jié)果,比如流失經(jīng)常是一個(gè)人為定義弛饭,而很少存在真實(shí)流失的情況 | 信用評(píng)分/流失預(yù)測(cè)/營(yíng)銷響應(yīng) |
決策 | 貝葉斯網(wǎng)絡(luò)/KNN/SVM/深度學(xué)習(xí) | 存在可以直接辨識(shí)的分類結(jié)果冕末,比如人臉圖像是被,是可以直接知道是否為某個(gè)人的臉 | 聲音識(shí)別/圖像識(shí)別/欺詐識(shí)別/違約推斷 |
標(biāo)注 | 隱馬爾可夫條件隨機(jī)場(chǎng) | 存在明確的分類分類侣颂,和決策的不同在于決策為二分類档桃,標(biāo)準(zhǔn)為多分類 | 信息抽取/自然語(yǔ)言處理/欺詐識(shí)別 |
在分類變量Y中,如果Y是二分類憔晒,如果是確定的藻肄,天生就有的,就是決策類模型丛晌,如果Y是人為定義的或者說(shuō)是根本不存在仅炊,只是強(qiáng)硬的分開的,就叫做排序類模型
參考資料:CDA《信用風(fēng)險(xiǎn)建呐熘耄》微專業(yè)