數(shù)據(jù)建模
數(shù)據(jù)建模指的是對(duì)收集到的各類數(shù)據(jù)的抽象組織,確定數(shù)據(jù)庫需管轄的范圍要尔、數(shù)據(jù)的組織形式等直至轉(zhuǎn)化成現(xiàn)實(shí)的數(shù)據(jù)庫舍杜。合理的建模可以幫助數(shù)據(jù)分析師進(jìn)行探索性研究和預(yù)測(cè)性研究赵辕,在本部分我們將介紹Python中常見的模型既绩,以幫助你在后續(xù)工作中進(jìn)行應(yīng)用。
Logistic模型
Logistic模型是一個(gè)經(jīng)典的二分類算法还惠,在進(jìn)行二分類計(jì)算時(shí)經(jīng)常用到饲握。例如判斷某種病毒是陰性還是陽性,判斷某商品是否被購買等蚕键。Logistic模型的思想來源于sigmoid函數(shù)救欧,sigmoid最初應(yīng)用于生物學(xué),又被稱為S型生長曲線嚎幸。其函數(shù)表達(dá)式也可以寫作:
不難看出颜矿,當(dāng)x軸范圍擴(kuò)大時(shí),sigmoid函數(shù)類似于一個(gè)在0和1之間的跳躍函數(shù)嫉晶。那么sigmoid函數(shù)又如何變到了logistic函數(shù)呢骑疆?其實(shí)并不難,Logistic函數(shù)其實(shí)只是把每個(gè)特征進(jìn)行加權(quán)后相加的和作為sigmoid函數(shù)的自變量代入進(jìn)函數(shù)中替废。
隨機(jī)森林模型
集成學(xué)習(xí) Ensemble Learning
集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí)箍铭,并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。而隨機(jī)森林屬于集成學(xué)習(xí)中的 Bagging(Bootstrap Aggregation 的簡稱)方法椎镣。
決策樹是機(jī)器學(xué)習(xí)常見的分類算法诈火,是監(jiān)督學(xué)習(xí)。簡單來講状答,決策樹就是帶有特殊含義的數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu)冷守,其每個(gè)根結(jié)點(diǎn)(非葉子結(jié)點(diǎn))代表數(shù)據(jù)的特征標(biāo)簽,根據(jù)該特征不同的特征值將數(shù)據(jù)劃分成幾個(gè)子集惊科,每個(gè)子集都是這個(gè)根結(jié)點(diǎn)的子樹拍摇,然后對(duì)每個(gè)子樹遞歸劃分下去,而決策樹的每個(gè)葉子結(jié)點(diǎn)則是數(shù)據(jù)的最終類別標(biāo)簽馆截。
Boosting
Boosting是一種框架算法,主要是通過對(duì)樣本集的操作獲得樣本子集,然后用弱分類算法在樣本子集上訓(xùn)練生成一系列的基分類器充活。
Bagging
Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。主要想法是分別訓(xùn)練幾個(gè)不同的模型蜡娶,然后讓所有模型表決測(cè)試樣例的輸出混卵。
構(gòu)造隨機(jī)森林的 4 個(gè)步驟
Step 1:隨機(jī)抽樣,訓(xùn)練決策樹
一個(gè)樣本容量為N的樣本窖张,有放回的抽取N次幕随,每次抽取1個(gè),最終形成了N個(gè)樣本宿接。這選擇好了的N個(gè)樣本用來訓(xùn)練一個(gè)決策樹合陵,作為決策樹根節(jié)點(diǎn)處的樣本枢赔。
Step 2:隨機(jī)選取屬性,做節(jié)點(diǎn)分裂屬性
當(dāng)每個(gè)樣本有M個(gè)屬性時(shí)拥知,在決策樹的每個(gè)節(jié)點(diǎn)需要分裂時(shí)踏拜,隨機(jī)從這M個(gè)屬性中選取出m個(gè)屬性,滿足條件m << M低剔。然后從這m個(gè)屬性中采用某種策略(比如說信息增益)來選擇1個(gè)屬性作為該節(jié)點(diǎn)的分裂屬性速梗。
Step 3:重復(fù)步驟二,直到不能再分裂
決策樹形成過程中每個(gè)節(jié)點(diǎn)都要按照步驟2來分裂(很容易理解襟齿,如果下一次該節(jié)點(diǎn)選出來的那一個(gè)屬性是剛剛其父節(jié)點(diǎn)分裂時(shí)用過的屬性姻锁,則該節(jié)點(diǎn)已經(jīng)達(dá)到了葉子節(jié)點(diǎn),無須繼續(xù)分裂了)猜欺。一直到不能夠再分裂為止位隶。注意整個(gè)決策樹形成過程中沒有進(jìn)行剪枝。
Step 4:建立大量決策樹开皿,形成森林
按照步驟1~3建立大量的決策樹涧黄,這樣就構(gòu)成了隨機(jī)森林了。