大師兄的數(shù)據(jù)分析學(xué)習(xí)筆記(十四):機(jī)器學(xué)習(xí)與數(shù)據(jù)建模

大師兄的數(shù)據(jù)分析學(xué)習(xí)筆記(十三):特征預(yù)處理(四)
大師兄的數(shù)據(jù)分析學(xué)習(xí)筆記(十五):分類模型(一)

一、基礎(chǔ)概念

  • 學(xué)習(xí):通過接收到的數(shù)據(jù),歸納提取相同與不同。
  • 機(jī)器學(xué)習(xí):讓計(jì)算機(jī)以數(shù)據(jù)為基礎(chǔ)宴杀,進(jìn)行歸納與總結(jié)俭茧。
  • 模型:數(shù)據(jù)解釋現(xiàn)象的系統(tǒng)购桑,可以看做是機(jī)器學(xué)習(xí)產(chǎn)出的函數(shù)膀斋。

二茵典、關(guān)于機(jī)器學(xué)習(xí)

  • 機(jī)器學(xué)習(xí)根據(jù)是否有標(biāo)注屏积,可以分為監(jiān)督學(xué)習(xí)澡罚、非監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)
  • 機(jī)器學(xué)習(xí)的任務(wù)肾请,就是提煉出輸入數(shù)據(jù)標(biāo)注間的關(guān)系留搔,并進(jìn)行預(yù)測。
1. 監(jiān)督學(xué)習(xí)
  • 監(jiān)督學(xué)習(xí)就是有標(biāo)注的機(jī)器學(xué)習(xí)過程铛铁,標(biāo)注告訴模型在怎樣的特征下隔显,應(yīng)該輸出怎樣的結(jié)果却妨。
  • 根據(jù)標(biāo)注時(shí)離散值還是連續(xù)值監(jiān)督學(xué)習(xí)可以分為分類學(xué)習(xí)回歸學(xué)習(xí)括眠。

標(biāo)注是離散值:分類學(xué)習(xí)
標(biāo)注是連續(xù)值:回歸學(xué)習(xí)

2. 非監(jiān)督學(xué)習(xí)
  • 如果機(jī)器學(xué)習(xí)的過程沒有標(biāo)注彪标,叫做非監(jiān)督學(xué)習(xí)
  • 非監(jiān)督學(xué)習(xí)完全讓數(shù)據(jù)自己說話掷豺,將數(shù)據(jù)的特征在不同的模型中進(jìn)行不同的表現(xiàn)捞烟。
  • 非監(jiān)督學(xué)習(xí)經(jīng)常分為聚類分析關(guān)聯(lián)分析
3. 半監(jiān)督學(xué)習(xí)
  • 如果機(jī)器學(xué)習(xí)的過程部分有標(biāo)注当船,叫做半監(jiān)督學(xué)習(xí)题画。
  • 半監(jiān)督學(xué)習(xí)中,有標(biāo)注的數(shù)據(jù)可以作用于沒有標(biāo)注的數(shù)據(jù)德频,規(guī)范和引導(dǎo)聚類關(guān)聯(lián)的方向苍息。
  • 同時(shí),沒有標(biāo)注的數(shù)據(jù)也可以作用于有標(biāo)注的數(shù)據(jù)壹置,時(shí)刻獲得模型對(duì)數(shù)據(jù)的影響和反饋竞思。

三、關(guān)于數(shù)據(jù)集

  • 在建模前钞护,通常會(huì)將數(shù)據(jù)集分成三個(gè)部分:訓(xùn)練集盖喷、驗(yàn)證集測試集,這種方法也叫作交叉驗(yàn)證难咕。
  • 這三部分?jǐn)?shù)據(jù)集的比例通常却浮:6:2:2
  • 如果只將數(shù)據(jù)分為訓(xùn)練集測試集步藕,比例通常取4:1
1. 訓(xùn)練集
  • 訓(xùn)練集是用來訓(xùn)練與擬合模型挑格。
  • 模型參數(shù)由訓(xùn)練集決定咙冗。
  • 訓(xùn)練集的數(shù)據(jù)越多,模型相對(duì)于整個(gè)數(shù)據(jù)集越準(zhǔn)確漂彤。
2. 驗(yàn)證集
  • 驗(yàn)證集是用于驗(yàn)證訓(xùn)練集訓(xùn)練出的模型雾消,進(jìn)行數(shù)據(jù)糾偏或比例預(yù)測,從多個(gè)模型中選出最優(yōu)模型挫望。
3. 測試集
  • 測試集用于模型泛化能力的考量立润,通過驗(yàn)證集得出最優(yōu)模型后,對(duì)模型進(jìn)行預(yù)測媳板,衡量模型的性能和分類能力桑腮。
  • 泛化能力指的是對(duì)未知數(shù)據(jù)或?qū)嶋H場景數(shù)據(jù)的預(yù)測能力。
  • 如果數(shù)據(jù)集在訓(xùn)練集驗(yàn)證集數(shù)據(jù)表現(xiàn)良好蛉幸,但在測試集數(shù)據(jù)中表現(xiàn)較差破讨,這種現(xiàn)象稱為過擬合現(xiàn)象丛晦。
4. 分類方法
  • 為了全面衡量模型的質(zhì)量,數(shù)據(jù)集的分類選取通常是隨機(jī)的提陶。
  • 有時(shí)為了更全面的考察模型烫沙,會(huì)使用K-fold叉驗(yàn)證
  • 將數(shù)據(jù)集分成k份,每份輪流做一遍測試集隙笆,其它作訓(xùn)練集锌蓄。
>>>import os
>>>import pandas as pd
>>>from sklearn.model_selection import train_test_split

>>>df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>X_tt,X_validation = train_test_split(df,test_size=0.2)
>>>X_train,X_test = train_test_split(X_tt,test_size=0.25)
>>>print(f"X_train:{len(X_train)}")
>>>print(f"X_validation:{len(X_validation)}")
>>>print(f"X_test:{len(X_test)}")
X_train:882
X_validation:294
X_test:294
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市撑柔,隨后出現(xiàn)的幾起案子瘸爽,更是在濱河造成了極大的恐慌,老刑警劉巖乏冀,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蝶糯,死亡現(xiàn)場離奇詭異,居然都是意外死亡辆沦,警方通過查閱死者的電腦和手機(jī)昼捍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來肢扯,“玉大人妒茬,你說我怎么就攤上這事∥党浚” “怎么了乍钻?”我有些...
    開封第一講書人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長铭腕。 經(jīng)常有香客問我银择,道長,這世上最難降的妖魔是什么累舷? 我笑而不...
    開封第一講書人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任浩考,我火速辦了婚禮,結(jié)果婚禮上被盈,老公的妹妹穿的比我還像新娘析孽。我一直安慰自己,他們只是感情好只怎,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開白布袜瞬。 她就那樣靜靜地躺著,像睡著了一般身堡。 火紅的嫁衣襯著肌膚如雪邓尤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音裁赠,去河邊找鬼殿漠。 笑死,一個(gè)胖子當(dāng)著我的面吹牛佩捞,可吹牛的內(nèi)容都是我干的绞幌。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼一忱,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼莲蜘!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起帘营,我...
    開封第一講書人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤票渠,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后芬迄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體问顷,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年禀梳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杜窄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出煤篙,到底是詐尸還是另有隱情,我是刑警寧澤扫外,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站廓脆,受9級(jí)特大地震影響筛谚,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜停忿,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一驾讲、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧瞎嬉,春花似錦、人聲如沸厚柳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽别垮。三九已至便监,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背烧董。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來泰國打工毁靶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人逊移。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓预吆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親胳泉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子拐叉,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容