泰坦尼克號(hào)系列(一)——數(shù)據(jù)初探和初步特征選取

【目錄】

問題背景

船沉了让腹,大家驚慌逃生远剩,但是沒有足夠的救生艇。是否獲救并非隨機(jī)骇窍,有些群體比其他人更有可能生存瓜晤,如婦女、兒童和上層階級(jí)等等腹纳。

數(shù)據(jù)集是乘客的個(gè)人信息以及存活狀況痢掠,根據(jù)已有數(shù)據(jù)集生成模型預(yù)測(cè)其他人的存活情況。

該問題是一個(gè)二分類問題嘲恍。

數(shù)據(jù)概覽

pandas中的dataframe類可以比較方便的處理.csv 文件足画,讀入train.csv中的數(shù)據(jù)如下:



先來看看訓(xùn)練集的一些基本情況:



由上面的數(shù)據(jù)可以看出訓(xùn)練集中一共含有891位乘客,12列屬性中年齡(714項(xiàng))和客艙(204項(xiàng))數(shù)據(jù)有缺省項(xiàng)佃牛。
屬性分析:

下面結(jié)合實(shí)際情況淹辞,分析一下12個(gè)屬性。
PassengerId:乘客Id俘侠,這個(gè)和Survived基本沒什么關(guān)系象缀。
Survived:0代表沒有獲救,1代表獲救爷速。
Pclass:1央星,2,3分別代表倉(cāng)位等級(jí)惫东;根據(jù)背景莉给,頭等艙可能會(huì)獲得更多的救援資源,優(yōu)先安排救援廉沮,要重點(diǎn)關(guān)注颓遏。
Name:姓名,這個(gè)關(guān)聯(lián)度不是很強(qiáng)滞时,可以放一放做備選州泊。
Sex:根據(jù)情景,可能會(huì)優(yōu)先救援女性漂洋,這個(gè)需要關(guān)注一下。
Age:一般來說會(huì)先安排小孩和老人力喷,青壯年的逃生概率會(huì)比較大刽漂,這個(gè)要看下具體情況,需要關(guān)注下弟孟。
SibSp:兄妹妻子等的個(gè)數(shù)贝咙,這個(gè)看起來是個(gè)對(duì)獲救有益的因子,互幫互助的話可能成功率更高拂募,可以關(guān)注下庭猩。
Parch:老人孩子的個(gè)數(shù)窟她,如果有老人和小孩,要先安排老人和小孩蔼水,然后才是自己震糖,看起來是個(gè)負(fù)相關(guān)因子,需要關(guān)注一下趴腋。
Ticket:船票號(hào)吊说,這個(gè)沒有發(fā)現(xiàn)明顯的規(guī)律,暫時(shí)先放一放优炬。
Fare:票價(jià)颁井,和Pclass可能有對(duì)應(yīng)關(guān)系,可以關(guān)注下蠢护。
Cabin:倉(cāng)位雅宾,這個(gè)是個(gè)地理位置特征,和獲救有一定的關(guān)系葵硕,但是無法結(jié)合具體的倉(cāng)位分布圖眉抬,不確定離甲板的距離,而且缺失項(xiàng)較多贬芥,這個(gè)前面可以先放一放吐辙,優(yōu)化的時(shí)候再做其他處理。
Embarked:港口蘸劈,這個(gè)可能和獲救有關(guān)系昏苏,可以關(guān)注下。

數(shù)值型屬性一覽:

下面看看數(shù)值型數(shù)據(jù)的基本分布情況:



由mean字段可以知道威沫,大約38%的人獲救了贤惯;結(jié)合分位數(shù),船上人員年齡集中在20-40之間棒掠,平均年齡約30歲孵构,pclass的1/4分位數(shù)是2,說明買1等艙的人數(shù)很少烟很。
我們看一下需要關(guān)注的屬性的分布情況:



由圖能進(jìn)一步得出的信息是:
  • 獲救的人數(shù)未達(dá)半數(shù)颈墅;
  • 3等艙的乘客非常多,遠(yuǎn)超其余2類雾袱;
  • 女性約占總?cè)藬?shù)的1/3恤筛;
  • 大多數(shù)人未同親人同行;
  • Fare與Pclass并未成階梯狀分布芹橡,fare與Survived的關(guān)系有待挖掘毒坛;
  • S港口登陸的乘客最多;
相關(guān)性分析:

進(jìn)一步,我們看一下各屬性與Survived之間的相關(guān)性:



Pclass:可以看到1等艙和2等艙的存活率明顯高于3等艙煎殷,說明存活率和艙位等級(jí)還是有關(guān)系的屯伞,這個(gè)可以作為因子。



Sex:女性的存活率要遠(yuǎn)高于男性豪直,Sex也是一個(gè)因子劣摇。

Age:年齡這個(gè)屬性和存活率的相關(guān)性不是特別明顯,但是真的不是優(yōu)先照顧老人和小孩嗎顶伞?這個(gè)屬性先放一放饵撑,后面優(yōu)化的時(shí)候再挖掘。



SibSp:由圖得知唆貌,在3和4的這個(gè)位置存活率較高滑潘,是不是越多存活率越高,這里不太確定锨咙,后面再挖掘语卤,這個(gè)屬性可以作為一個(gè)備用因子。

Parch:這個(gè)圖可以看到存活率隨父母小孩數(shù)量增加在增加酪刀,至于是不是越多越好這個(gè)圖看不出來粹舵,這個(gè)關(guān)系放到后面挖掘,這個(gè)屬性可以作為一個(gè)備用因子
票價(jià)竟然沒有顯著作用骂倘,fare這個(gè)屬性我們先放一放眼滤。
cabin這個(gè)屬性缺失項(xiàng)比較多,我們暫時(shí)先放棄历涝。



C港口的存活率最高诅需,Embarked屬性可以作為一個(gè)因子。

數(shù)據(jù)預(yù)處理

訓(xùn)練集中荧库,Age和Cabin是有缺失的堰塌。
通常遇到缺值的情況,我們會(huì)有幾種常見的處理方式:

  • 如果缺值的樣本占總數(shù)比例極高分衫,我們可能就直接舍棄了场刑,作為特征加入的話,可能反倒帶入noise蚪战,影響最后的結(jié)果了
  • 如果缺值的樣本適中牵现,而該屬性非連續(xù)值特征屬性(比如說類目屬性),那就把NaN作為一個(gè)新類別邀桑,加到類別特征中
  • 如果缺值的樣本適中施籍,而該屬性為連續(xù)值特征屬性,有時(shí)候我們會(huì)考慮給定一個(gè)step概漱,然后把它離散化,之后把NaN作為一個(gè)type加到屬性類目中喜喂。
  • 有些情況下瓤摧,缺失的值個(gè)數(shù)并不是特別多竿裂,那我們也可以試著根據(jù)已有的值,擬合一下數(shù)據(jù)照弥,補(bǔ)充上腻异。
    Age比較符合后面2種情況,從年齡的分布來看这揣,年齡比較符合正態(tài)分布悔常,這里我們?nèi)∧挲g的均值進(jìn)行填充。
    Cabin符合第一種情況给赞,我們先放棄机打。
    接下來,Sex和Embarked為非數(shù)值型數(shù)據(jù)片迅,我們先轉(zhuǎn)換成int型數(shù)據(jù)残邀。
    現(xiàn)在,選入的因子都成為數(shù)值型的了柑蛇,但是Age和Fare的幅度有點(diǎn)寬芥挣,這個(gè)會(huì)影響收斂速度〕芴ǎ可以用scikit-learn里面的preprocessing模塊對(duì)這倆屬性做一個(gè)scaling空免,將范圍鎖定到[-1,1]。
    現(xiàn)在盆耽,初步的數(shù)據(jù)處理完了蹋砚,接下來可以建模了。
    【目錄】
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末征字,一起剝皮案震驚了整個(gè)濱河市都弹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌匙姜,老刑警劉巖畅厢,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異氮昧,居然都是意外死亡框杜,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門袖肥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來咪辱,“玉大人,你說我怎么就攤上這事椎组∮涂瘢” “怎么了?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)专筷。 經(jīng)常有香客問我弱贼,道長(zhǎng),這世上最難降的妖魔是什么磷蛹? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任吮旅,我火速辦了婚禮,結(jié)果婚禮上味咳,老公的妹妹穿的比我還像新娘庇勃。我一直安慰自己,他們只是感情好槽驶,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布责嚷。 她就那樣靜靜地躺著,像睡著了一般捺檬。 火紅的嫁衣襯著肌膚如雪再层。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天堡纬,我揣著相機(jī)與錄音聂受,去河邊找鬼。 笑死烤镐,一個(gè)胖子當(dāng)著我的面吹牛蛋济,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播炮叶,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼碗旅,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了镜悉?” 一聲冷哼從身側(cè)響起祟辟,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎侣肄,沒想到半個(gè)月后旧困,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡稼锅,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年吼具,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矩距。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡拗盒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出锥债,到底是詐尸還是另有隱情陡蝇,我是刑警寧澤痊臭,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站毅整,受9級(jí)特大地震影響趣兄,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜悼嫉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望拼窥。 院中可真熱鬧戏蔑,春花似錦、人聲如沸鲁纠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽改含。三九已至情龄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間捍壤,已是汗流浹背骤视。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鹃觉,地道東北人专酗。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像盗扇,于是被迫代替她去往敵國(guó)和親祷肯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容