5 迅速了解到數(shù)據(jù)分析常用到的模型

數(shù)據(jù)建模

數(shù)據(jù)建模指的是對(duì)收集到的各類數(shù)據(jù)的抽象組織,確定數(shù)據(jù)庫需管轄的范圍要尔、數(shù)據(jù)的組織形式等直至轉(zhuǎn)化成現(xiàn)實(shí)的數(shù)據(jù)庫舍杜。合理的建模可以幫助數(shù)據(jù)分析師進(jìn)行探索性研究和預(yù)測(cè)性研究赵辕,在本部分我們將介紹Python中常見的模型既绩,以幫助你在后續(xù)工作中進(jìn)行應(yīng)用。

Logistic模型

Logistic模型是一個(gè)經(jīng)典的二分類算法还惠,在進(jìn)行二分類計(jì)算時(shí)經(jīng)常用到饲握。例如判斷某種病毒是陰性還是陽性,判斷某商品是否被購買等蚕键。Logistic模型的思想來源于sigmoid函數(shù)救欧,sigmoid最初應(yīng)用于生物學(xué),又被稱為S型生長曲線嚎幸。其函數(shù)表達(dá)式也可以寫作:S(x)=1/(1+e^{-x})

不難看出颜矿,當(dāng)x軸范圍擴(kuò)大時(shí),sigmoid函數(shù)類似于一個(gè)在0和1之間的跳躍函數(shù)嫉晶。那么sigmoid函數(shù)又如何變到了logistic函數(shù)呢骑疆?其實(shí)并不難,Logistic函數(shù)其實(shí)只是把每個(gè)特征進(jìn)行加權(quán)后相加的和作為sigmoid函數(shù)的自變量代入進(jìn)函數(shù)中替废。

隨機(jī)森林模型

集成學(xué)習(xí) Ensemble Learning

集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí)箍铭,并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。而隨機(jī)森林屬于集成學(xué)習(xí)中的 Bagging(Bootstrap Aggregation 的簡稱)方法椎镣。

決策樹是機(jī)器學(xué)習(xí)常見的分類算法诈火,是監(jiān)督學(xué)習(xí)。簡單來講状答,決策樹就是帶有特殊含義的數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu)冷守,其每個(gè)根結(jié)點(diǎn)(非葉子結(jié)點(diǎn))代表數(shù)據(jù)的特征標(biāo)簽,根據(jù)該特征不同的特征值將數(shù)據(jù)劃分成幾個(gè)子集惊科,每個(gè)子集都是這個(gè)根結(jié)點(diǎn)的子樹拍摇,然后對(duì)每個(gè)子樹遞歸劃分下去,而決策樹的每個(gè)葉子結(jié)點(diǎn)則是數(shù)據(jù)的最終類別標(biāo)簽馆截。

Boosting

Boosting是一種框架算法,主要是通過對(duì)樣本集的操作獲得樣本子集,然后用弱分類算法在樣本子集上訓(xùn)練生成一系列的基分類器充活。

Bagging

Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)。主要想法是分別訓(xùn)練幾個(gè)不同的模型蜡娶,然后讓所有模型表決測(cè)試樣例的輸出混卵。

構(gòu)造隨機(jī)森林的 4 個(gè)步驟

Step 1:隨機(jī)抽樣,訓(xùn)練決策樹

一個(gè)樣本容量為N的樣本窖张,有放回的抽取N次幕随,每次抽取1個(gè),最終形成了N個(gè)樣本宿接。這選擇好了的N個(gè)樣本用來訓(xùn)練一個(gè)決策樹合陵,作為決策樹根節(jié)點(diǎn)處的樣本枢赔。

Step 2:隨機(jī)選取屬性,做節(jié)點(diǎn)分裂屬性

當(dāng)每個(gè)樣本有M個(gè)屬性時(shí)拥知,在決策樹的每個(gè)節(jié)點(diǎn)需要分裂時(shí)踏拜,隨機(jī)從這M個(gè)屬性中選取出m個(gè)屬性,滿足條件m << M低剔。然后從這m個(gè)屬性中采用某種策略(比如說信息增益)來選擇1個(gè)屬性作為該節(jié)點(diǎn)的分裂屬性速梗。

Step 3:重復(fù)步驟二,直到不能再分裂

決策樹形成過程中每個(gè)節(jié)點(diǎn)都要按照步驟2來分裂(很容易理解襟齿,如果下一次該節(jié)點(diǎn)選出來的那一個(gè)屬性是剛剛其父節(jié)點(diǎn)分裂時(shí)用過的屬性姻锁,則該節(jié)點(diǎn)已經(jīng)達(dá)到了葉子節(jié)點(diǎn),無須繼續(xù)分裂了)猜欺。一直到不能夠再分裂為止位隶。注意整個(gè)決策樹形成過程中沒有進(jìn)行剪枝。

Step 4:建立大量決策樹开皿,形成森林

按照步驟1~3建立大量的決策樹涧黄,這樣就構(gòu)成了隨機(jī)森林了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末赋荆,一起剝皮案震驚了整個(gè)濱河市笋妥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌窄潭,老刑警劉巖春宣,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異嫉你,居然都是意外死亡月帝,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門幽污,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嚷辅,“玉大人,你說我怎么就攤上這事油挥。” “怎么了款熬?”我有些...
    開封第一講書人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵深寥,是天一觀的道長。 經(jīng)常有香客問我贤牛,道長惋鹅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任殉簸,我火速辦了婚禮闰集,結(jié)果婚禮上沽讹,老公的妹妹穿的比我還像新娘。我一直安慰自己武鲁,他們只是感情好爽雄,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著沐鼠,像睡著了一般挚瘟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上饲梭,一...
    開封第一講書人閱讀 49,784評(píng)論 1 290
  • 那天乘盖,我揣著相機(jī)與錄音,去河邊找鬼憔涉。 笑死订框,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的兜叨。 我是一名探鬼主播穿扳,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼浪腐!你這毒婦竟也來了纵揍?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤议街,失蹤者是張志新(化名)和其女友劉穎泽谨,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體特漩,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡吧雹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了涂身。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片雄卷。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蛤售,靈堂內(nèi)的尸體忽然破棺而出丁鹉,到底是詐尸還是另有隱情,我是刑警寧澤悴能,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布揣钦,位于F島的核電站,受9級(jí)特大地震影響漠酿,放射性物質(zhì)發(fā)生泄漏冯凹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一炒嘲、第九天 我趴在偏房一處隱蔽的房頂上張望宇姚。 院中可真熱鬧匈庭,春花似錦、人聲如沸浑劳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽呀洲。三九已至紊选,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間道逗,已是汗流浹背兵罢。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留滓窍,地道東北人卖词。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像吏夯,于是被迫代替她去往敵國和親此蜈。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容