大師兄的數(shù)據(jù)分析學(xué)習(xí)筆記(十三):特征預(yù)處理(四)
大師兄的數(shù)據(jù)分析學(xué)習(xí)筆記(十五):分類模型(一)
一、基礎(chǔ)概念
- 學(xué)習(xí):通過接收到的數(shù)據(jù),歸納提取相同與不同。
- 機(jī)器學(xué)習(xí):讓計(jì)算機(jī)以數(shù)據(jù)為基礎(chǔ)宴杀,進(jìn)行歸納與總結(jié)俭茧。
- 模型:數(shù)據(jù)解釋現(xiàn)象的系統(tǒng)购桑,可以看做是機(jī)器學(xué)習(xí)產(chǎn)出的函數(shù)膀斋。
二茵典、關(guān)于機(jī)器學(xué)習(xí)
- 機(jī)器學(xué)習(xí)根據(jù)是否有標(biāo)注屏积,可以分為監(jiān)督學(xué)習(xí)澡罚、非監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。
- 機(jī)器學(xué)習(xí)的任務(wù)肾请,就是提煉出輸入數(shù)據(jù)與標(biāo)注間的關(guān)系留搔,并進(jìn)行預(yù)測。
1. 監(jiān)督學(xué)習(xí)
- 監(jiān)督學(xué)習(xí)就是有標(biāo)注的機(jī)器學(xué)習(xí)過程铛铁,標(biāo)注告訴模型在怎樣的特征下隔显,應(yīng)該輸出怎樣的結(jié)果却妨。
- 根據(jù)標(biāo)注時(shí)離散值還是連續(xù)值,監(jiān)督學(xué)習(xí)可以分為分類學(xué)習(xí)和回歸學(xué)習(xí)括眠。
標(biāo)注是離散值:分類學(xué)習(xí)
標(biāo)注是連續(xù)值:回歸學(xué)習(xí)
2. 非監(jiān)督學(xué)習(xí)
- 如果機(jī)器學(xué)習(xí)的過程沒有標(biāo)注彪标,叫做非監(jiān)督學(xué)習(xí)。
- 非監(jiān)督學(xué)習(xí)完全讓數(shù)據(jù)自己說話掷豺,將數(shù)據(jù)的特征在不同的模型中進(jìn)行不同的表現(xiàn)捞烟。
- 非監(jiān)督學(xué)習(xí)經(jīng)常分為聚類分析和關(guān)聯(lián)分析。
3. 半監(jiān)督學(xué)習(xí)
- 如果機(jī)器學(xué)習(xí)的過程部分有標(biāo)注当船,叫做半監(jiān)督學(xué)習(xí)题画。
- 半監(jiān)督學(xué)習(xí)中,有標(biāo)注的數(shù)據(jù)可以作用于沒有標(biāo)注的數(shù)據(jù)德频,規(guī)范和引導(dǎo)聚類和關(guān)聯(lián)的方向苍息。
- 同時(shí),沒有標(biāo)注的數(shù)據(jù)也可以作用于有標(biāo)注的數(shù)據(jù)壹置,時(shí)刻獲得模型對(duì)數(shù)據(jù)的影響和反饋竞思。
三、關(guān)于數(shù)據(jù)集
- 在建模前钞护,通常會(huì)將數(shù)據(jù)集分成三個(gè)部分:訓(xùn)練集盖喷、驗(yàn)證集和測試集,這種方法也叫作交叉驗(yàn)證难咕。
- 這三部分?jǐn)?shù)據(jù)集的比例通常却浮:6:2:2。
- 如果只將數(shù)據(jù)分為訓(xùn)練集和測試集步藕,比例通常取4:1。
1. 訓(xùn)練集
- 訓(xùn)練集是用來訓(xùn)練與擬合模型挑格。
- 模型的參數(shù)由訓(xùn)練集決定咙冗。
- 訓(xùn)練集的數(shù)據(jù)越多,模型相對(duì)于整個(gè)數(shù)據(jù)集越準(zhǔn)確漂彤。
2. 驗(yàn)證集
- 驗(yàn)證集是用于驗(yàn)證訓(xùn)練集訓(xùn)練出的模型雾消,進(jìn)行數(shù)據(jù)糾偏或比例預(yù)測,從多個(gè)模型中選出最優(yōu)模型挫望。
3. 測試集
- 測試集用于模型泛化能力的考量立润,通過驗(yàn)證集得出最優(yōu)模型后,對(duì)模型進(jìn)行預(yù)測媳板,衡量模型的性能和分類能力桑腮。
- 泛化能力指的是對(duì)未知數(shù)據(jù)或?qū)嶋H場景數(shù)據(jù)的預(yù)測能力。
- 如果數(shù)據(jù)集在訓(xùn)練集和驗(yàn)證集數(shù)據(jù)表現(xiàn)良好蛉幸,但在測試集數(shù)據(jù)中表現(xiàn)較差破讨,這種現(xiàn)象稱為過擬合現(xiàn)象丛晦。
4. 分類方法
- 為了全面衡量模型的質(zhì)量,數(shù)據(jù)集的分類選取通常是隨機(jī)的提陶。
- 有時(shí)為了更全面的考察模型烫沙,會(huì)使用K-fold叉驗(yàn)證:
- 將數(shù)據(jù)集分成k份,每份輪流做一遍測試集隙笆,其它作訓(xùn)練集锌蓄。
>>>import os
>>>import pandas as pd
>>>from sklearn.model_selection import train_test_split
>>>df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>X_tt,X_validation = train_test_split(df,test_size=0.2)
>>>X_train,X_test = train_test_split(X_tt,test_size=0.25)
>>>print(f"X_train:{len(X_train)}")
>>>print(f"X_validation:{len(X_validation)}")
>>>print(f"X_test:{len(X_test)}")
X_train:882
X_validation:294
X_test:294