記-機器學(xué)習(xí)-預(yù)處理中數(shù)據(jù)集分布不均衡問題

數(shù)據(jù)不平衡以及危害

批發(fā)和零售業(yè) 118307
租賃和商務(wù)服務(wù)業(yè) 53294
制造業(yè) 49937
農(nóng)晦闰、林、牧仁热、漁業(yè) 48816
建筑業(yè) 33034
信息傳輸赊豌、軟件和信息技術(shù)服務(wù)業(yè) 17388
交通運輸蜀涨、倉儲和郵政業(yè) 15048
房地產(chǎn)業(yè) 12991
科學(xué)研究和技術(shù)服務(wù)業(yè) 9150
居民服務(wù)巧颈、修理和其他服務(wù)業(yè) 8052
金融業(yè) 7626
住宿和餐飲業(yè) 4390
文化闷祥、體育和娛樂業(yè) 4251
電力盛霎、熱力污朽、燃氣及水生產(chǎn)和供應(yīng)業(yè) 2943
水利散吵、環(huán)境和公共設(shè)施管理業(yè) 2235
采礦業(yè) 1694
教育 1390
衛(wèi)生和社會工作 488

以‘衛(wèi)生和社會工作’為正樣本，與其他負樣本比例懸殊，最終模型score對該類分類能力不足矾睦。

因此數(shù)據(jù)不平衡在分類問題中尤其值得關(guān)注晦款，不平衡的數(shù)據(jù)集分布使得模型擬合能力不足。

不均衡問題的解決思路以及代碼

采樣---包括過采樣（其中以SMOTE較為出色）和欠采樣枚冗；又稱上采樣與負采樣
加權(quán)---讓小樣本類別權(quán)重增加缓溅，提升小樣本類別的‘話語權(quán)’
集成方法---隨機森林
特征選擇---特征工程在特征表達或抽取后，特征選擇也可看做特征降維的一部分

采樣

上采樣（過采樣）赁温，其實就是以最多量的類為基準(zhǔn)坛怪，復(fù)制放大其他類數(shù)據(jù)達到平衡

缺點：數(shù)據(jù)單一、過擬合

優(yōu)化：SMOTE算法股囊，實際是利用已有樣本KNN隨機合成小樣本數(shù)據(jù)袜匿，達到數(shù)據(jù)平衡。

代碼：

from imblearn.over_sampling import SMOTE
sm = SMOTE(random_state=42)
X_sample, y_sample = sm.fit_sample(datas['feature'], datas['label'])

過采樣（上采樣）參考官網(wǎng)

下采樣稚疹，也就是以最小量的類數(shù)據(jù)為準(zhǔn)居灯，舍棄縮小其他類部分數(shù)據(jù)

缺點：可能丟失重要特征

代碼：

>>> from collections import Counter
>>> from sklearn.datasets import make_classification
>>> from imblearn.under_sampling import RandomUnderSampler # doctest: +NORMALIZE_WHITESPACE
>>> X, y = make_classification(n_classes=2, class_sep=2,
...  weights=[0.1, 0.9], n_informative=3, n_redundant=1, flip_y=0,
... n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)
>>> print('Original dataset shape %s' % Counter(y))
Original dataset shape Counter({1: 900, 0: 100})
>>> rus = RandomUnderSampler(random_state=42)
>>> X_res, y_res = rus.fit_resample(X, y)
>>> print('Resampled dataset shape %s' % Counter(y_res))
Resampled dataset shape Counter({0: 100, 1: 100})

下采樣參考官網(wǎng)

加權(quán)

from sklearn.svm import SVC
model_svm=SVC(class_weight='balanced')
model_svm.fit(x,y)

思路：對于分類中不同樣本數(shù)量的類別分別賦予不同的權(quán)重，一般是小樣本量類別權(quán)重高内狗，大樣本量類別權(quán)重低怪嫌。

特征選擇

特征較多的時候，特征選擇作為特征降維的一種方法其屏。

from sklearn.feature_selection import SelectKBest, SelectPercentile
from sklearn.feature_selection import f_classif, chi2, mutual_info_classif
from sklearn.svm import LinearSVC
from sklearn.feature_selection import RFE

estimator = LinearSVC()
sp = RFE(estimator=estimator)
# sp = SelectPercentile(mutual_info_classif, percentile=10)
# 得到返回至少含有10%特征信息的特征
X_result = sp.fit_transform(X, industry)

參考：

http://www.reibang.com/p/76dce1fca85b

https://blog.csdn.net/weixin_42243942/article/details/80480313

https://www.cnblogs.com/guoruibing/articles/9561035.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末喇勋，一起剝皮案震驚了整個濱河市缨该，隨后出現(xiàn)的幾起案子偎行，更是在濱河造成了極大的恐慌，老刑警劉巖贰拿，帶你破解...
沈念sama閱讀 219,110評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蛤袒，死亡現(xiàn)場離奇詭異，居然都是意外死亡膨更，警方通過查閱死者的電腦和手機妙真，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,443評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來荚守，“玉大人珍德，你說我怎么就攤上這事〈Ｑ” “怎么了锈候？”我有些...
開封第一講書人閱讀 165,474評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長敞贡。經(jīng)常有香客問我泵琳，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,881評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任获列，我火速辦了婚禮谷市，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘击孩。我一直安慰自己迫悠，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,902評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布溯壶。她就那樣靜靜地躺著及皂，像睡著了一般。火紅的嫁衣襯著肌膚如雪且改。梳的紋絲不亂的頭發(fā)上验烧，一...
開封第一講書人閱讀 51,698評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音又跛，去河邊找鬼碍拆。笑死，一個胖子當(dāng)著我的面吹牛慨蓝，可吹牛的內(nèi)容都是我干的感混。我是一名探鬼主播，決...
沈念sama閱讀 40,418評論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼礼烈，長吁一口氣：“原來是場噩夢啊……” “哼弧满！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起此熬，我...
開封第一講書人閱讀 39,332評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤庭呜，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后犀忱，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體募谎，經(jīng)...
沈念sama閱讀 45,796評論 1贊 316
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,968評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年阴汇，在試婚紗的時候發(fā)現(xiàn)自己被綠了数冬。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,110評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡搀庶，死狀恐怖拐纱，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情哥倔，我是刑警寧澤秸架，帶...
沈念sama閱讀 35,792評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站未斑，受9級特大地震影響咕宿，放射性物質(zhì)發(fā)生泄漏币绩。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,455評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一府阀、第九天我趴在偏房一處隱蔽的房頂上張望缆镣。院中可真熱鬧，春花似錦试浙、人聲如沸董瞻。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,003評論 0贊 22
一樁弒父案田巴，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽钠糊。三九已至，卻和暖如春壹哺，著一層夾襖步出監(jiān)牢的瞬間抄伍，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,130評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工管宵，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留截珍，地道東北人。一個月前我還...
沈念sama閱讀 48,348評論 3贊 373
代替公主和親
正文我出身青樓箩朴，卻偏偏與公主長得像岗喉，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子炸庞，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,047評論 2贊 355

記-機器學(xué)習(xí)-預(yù)處理中數(shù)據(jù)集分布不均衡問題

數(shù)據(jù)不平衡以及危害

不均衡問題的解決思路以及代碼

采樣

加權(quán)

特征選擇

參考：

推薦閱讀更多精彩內(nèi)容