Keras 預(yù)測泰坦尼克號旅客生存概率

泰坦尼克數(shù)據(jù)集訓(xùn)練集共有1309項秒啦,經(jīng)過數(shù)據(jù)預(yù)處理會產(chǎn)生feature(9個)與label標(biāo)簽字段(是否生存陶舞?1:是捡多,2:否)司抱,最后輸入多層感知器模型訓(xùn)練筐眷,之后進(jìn)行預(yù)測
1.下載數(shù)據(jù)集
所需模塊

圖片.png

下載地址
url='http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls'
設(shè)置文件存儲路徑:(要自己新建data文件夾路徑,不然會報錯不存在文件夾习柠,后面的文件名一定要寫上匀谣,雖然我們本地沒有該文件)
filepath='C:\Users\zhangsheng\Desktop\Untitled Folder\data\titanic3.xls'

判斷文件是否存在,不存在就會下載
if not os.path.isfile(filepath):
result=urllib.request.urlretrieve(url,filepath)
print('download:',result)
2.使用pandas 的DataFrame讀取數(shù)據(jù)并進(jìn)行預(yù)處理
導(dǎo)入所需的模塊资溃,并使用pandas的read_excel()方法把xls文件讀取到DataFrame
然后查看前兩項旅客數(shù)據(jù)


圖片.png

(注意這里先要安裝xlrs模塊武翎,要不然會報錯沒有該模塊)
上面字段的survival是label標(biāo)簽,也就是我們要預(yù)測的目標(biāo)溶锭,其余都是特征字段
并且ticket(船票號碼)和cabin(艙位號碼)與預(yù)測結(jié)果無關(guān)宝恶,將其忽略。
我們選擇一下字段到DataFrame中趴捅,并顯示前兩項


圖片.png

還有以下問題必須處理5姹小!9鞍蟆综芥!
name 姓名字段在訓(xùn)練時不需要,必須先刪除欺栗,但在預(yù)測階段會使用
age 有些項的age字段是null毫痕,必須將null改為平均值
fare 同age
sex 性別字段是文字征峦,需轉(zhuǎn)換為0和1
embarked 登船港口有三個分類 需使用One-Hot Encoding 轉(zhuǎn)換

3.數(shù)據(jù)預(yù)處理

  1. 使用drop方法 刪除name
    df = all_df.drop(['name'],axis=1)
    找出含有null值的字段


    圖片.png

    計算age的平均值 age_mean,然后將null值替換為平均值迟几,fare同理


    圖片.png

性別字段是文字,使用map方法 轉(zhuǎn)換為0栏笆,1
將embarked字段轉(zhuǎn)換為一位有效編碼
查看轉(zhuǎn)換后的DataFrame


圖片.png

4.將DataFrame轉(zhuǎn)換為Array


圖片.png

第一個字段是label类腮,后面的是features

提取features和label
Label = ndarray[:,0] #冒號提取所有項,0字段是標(biāo)簽
Features = ndarray[:,1:]#冒號提取所有項蛉加,1:提取第一至最后字段蚜枢,即特征
查看前兩項:


圖片.png

5.將ndarray特征字段標(biāo)準(zhǔn)化
使用preprocessing.MinMaxScaler標(biāo)準(zhǔn)化,參數(shù)feature_range設(shè)置標(biāo)準(zhǔn)化的范圍(0针饥,1)


圖片.png

6.將數(shù)據(jù)分為訓(xùn)練集和測試集
按照8:2的比例厂抽,使用numpy.random.rand產(chǎn)生msk


圖片.png

定義數(shù)據(jù)預(yù)處理的函數(shù):將之前的預(yù)處理命令全部收集在函數(shù)中
對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)預(yù)處理


圖片.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市丁眼,隨后出現(xiàn)的幾起案子筷凤,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件藐守,死亡現(xiàn)場離奇詭異挪丢,居然都是意外死亡,警方通過查閱死者的電腦和手機卢厂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進(jìn)店門乾蓬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人慎恒,你說我怎么就攤上這事任内。” “怎么了融柬?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵族奢,是天一觀的道長。 經(jīng)常有香客問我丹鸿,道長越走,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任靠欢,我火速辦了婚禮廊敌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘门怪。我一直安慰自己骡澈,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布掷空。 她就那樣靜靜地躺著肋殴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪坦弟。 梳的紋絲不亂的頭發(fā)上护锤,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天,我揣著相機與錄音酿傍,去河邊找鬼烙懦。 笑死,一個胖子當(dāng)著我的面吹牛赤炒,可吹牛的內(nèi)容都是我干的氯析。 我是一名探鬼主播,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼莺褒,長吁一口氣:“原來是場噩夢啊……” “哼掩缓!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起遵岩,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤你辣,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绢记,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡扁达,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蠢熄。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片跪解。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖签孔,靈堂內(nèi)的尸體忽然破棺而出叉讥,到底是詐尸還是另有隱情,我是刑警寧澤饥追,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布图仓,位于F島的核電站,受9級特大地震影響但绕,放射性物質(zhì)發(fā)生泄漏救崔。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一捏顺、第九天 我趴在偏房一處隱蔽的房頂上張望六孵。 院中可真熱鬧,春花似錦幅骄、人聲如沸劫窒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽主巍。三九已至,卻和暖如春挪凑,著一層夾襖步出監(jiān)牢的瞬間孕索,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工岖赋, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留檬果,地道東北人。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓唐断,卻偏偏與公主長得像,于是被迫代替她去往敵國和親杭抠。 傳聞我的和親對象是個殘疾皇子脸甘,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容