數(shù)據(jù)挖掘?qū)嵺`任務(wù)1

任務(wù)1 - 數(shù)據(jù)分析（2天）

說(shuō)明：這份數(shù)據(jù)集是金融數(shù)據(jù)（非原始數(shù)據(jù)项贺，已經(jīng)處理過(guò)了），我們要做的是預(yù)測(cè)貸款用戶是否會(huì)逾期瞧捌。表格中 "status" 是結(jié)果標(biāo)簽：0表示未逾期讯赏，1表示逾期。

要求：數(shù)據(jù)切分方式 - 三七分诉瓦，其中測(cè)試集30%川队，訓(xùn)練集70%，隨機(jī)種子設(shè)置2018

任務(wù)1：對(duì)數(shù)據(jù)進(jìn)行探索和分析睬澡。時(shí)間：2天

數(shù)據(jù)類型的分析
無(wú)關(guān)特征刪除
數(shù)據(jù)類型轉(zhuǎn)換
缺失值處理
……以及你能想到和借鑒的數(shù)據(jù)分析處理

我的結(jié)果

主要步驟：
1.刪除重復(fù)行固额；
2.無(wú)關(guān)特征刪除: 刪除無(wú)關(guān)信息列，刪除值全一致的列煞聪；
3.數(shù)據(jù)類型轉(zhuǎn)換：利用pandas實(shí)現(xiàn)one hot encode的方式斗躏，轉(zhuǎn)換枚舉類型的object為int；
4.缺失值處理：有特殊含義填0或1昔脯，沒(méi)有特殊含義填眾數(shù)啄糙；
5.切分?jǐn)?shù)據(jù)：測(cè)試集30%，訓(xùn)練集70%栅干，隨機(jī)種子設(shè)置2018迈套；

#!/usr/bin/python
# -*- coding:utf-8 -*-
from sklearn.model_selection import train_test_split
import pandas as pd
data = pd.read_csv('data.csv', encoding='gbk')


# 1.刪除重復(fù)行；
data_clean = data.drop_duplicates()

# 2.無(wú)關(guān)特征刪除: 刪除無(wú)關(guān)信息列碱鳞，刪除值全一致的列桑李；
drop_columns = ['Unnamed: 0', 'trade_no', 'id_name', 'bank_card_no',
             'query_org_count', 'query_finance_count', 'query_cash_count', 'latest_query_time', ]

for data_col in data.columns:
    if len(data[data_col].unique()) == 1 and data_col not in drop_columns:
        drop_columns.append(data_col)

data_clean = data_clean.drop(drop_columns, axis=1)

# 3.數(shù)據(jù)類型轉(zhuǎn)換：利用pandas實(shí)現(xiàn)one hot encode的方式，轉(zhuǎn)換枚舉類型的object為int窿给；
data_clean = pd.get_dummies(data_clean, columns=['reg_preference_for_trad'])

# 4.缺失值處理：有特殊含義填0或1贵白，沒(méi)有特殊含義填眾數(shù)；
data_clean['student_feature'].fillna(0, inplace=True)

data_cols = data_clean.columns.values

for data_col in data_cols:
    fill_value = data_clean[data_col].value_counts().index[0]
    data_clean[data_col].fillna(fill_value, inplace=True)

# 5.切分?jǐn)?shù)據(jù)：測(cè)試集30%崩泡，訓(xùn)練集70%禁荒，隨機(jī)種子設(shè)置2018
train_data, test_data = train_test_split(data_clean, test_size=0.3, random_state=2018)
train_data.to_csv('training.csv', index=False, header=True)
test_data.to_csv('testing.csv', index=False, header=True)

最后編輯于：2019.08.06 17:28:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市角撞，隨后出現(xiàn)的幾起案子呛伴，更是在濱河造成了極大的恐慌，老刑警劉巖谒所，帶你破解...
沈念sama閱讀 221,635評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件热康，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡劣领，警方通過(guò)查閱死者的電腦和手機(jī)姐军，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,543評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人奕锌，你說(shuō)我怎么就攤上這事著觉。” “怎么了惊暴？”我有些...
開封第一講書人閱讀 168,083評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵饼丘，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我缴守，道長(zhǎng)葬毫，這世上最難降的妖魔是什么镇辉？我笑而不...
開封第一講書人閱讀 59,640評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任屡穗，我火速辦了婚禮，結(jié)果婚禮上忽肛，老公的妹妹穿的比我還像新娘村砂。我一直安慰自己，他們只是感情好屹逛，可當(dāng)我...
茶點(diǎn)故事閱讀 68,640評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布础废。她就那樣靜靜地躺著，像睡著了一般罕模。火紅的嫁衣襯著肌膚如雪评腺。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,262評(píng)論 1贊 308
城市分裂傳說(shuō)
那天淑掌，我揣著相機(jī)與錄音蒿讥，去河邊找鬼。笑死抛腕，一個(gè)胖子當(dāng)著我的面吹牛芋绸，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播担敌，決...
沈念sama閱讀 40,833評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼摔敛，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了全封？” 一聲冷哼從身側(cè)響起马昙，我...
開封第一講書人閱讀 39,736評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎刹悴，沒(méi)想到半個(gè)月后行楞，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,280評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡颂跨，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,369評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年敢伸，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片恒削。...
茶點(diǎn)故事閱讀 40,503評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡池颈，死狀恐怖尾序，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情躯砰，我是刑警寧澤每币，帶...
沈念sama閱讀 36,185評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站琢歇，受9級(jí)特大地震影響兰怠，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜李茫，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,870評(píng)論 3贊 333
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一揭保、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧魄宏，春花似錦秸侣、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,340評(píng)論 0贊 24
一樁弒父案味榛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至予跌，卻和暖如春搏色，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背券册。一陣腳步聲響...
開封第一講書人閱讀 33,460評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工频轿，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人汁掠。一個(gè)月前我還...
沈念sama閱讀 48,909評(píng)論 3贊 376
代替公主和親
正文我出身青樓略吨，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親考阱。傳聞我的和親對(duì)象是個(gè)殘疾皇子翠忠，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,512評(píng)論 2贊 359