《統(tǒng)計(jì)學(xué)習(xí)》--統(tǒng)計(jì)學(xué)習(xí)及監(jiān)督學(xué)習(xí)概論

統(tǒng)計(jì)學(xué)習(xí)及監(jiān)督學(xué)習(xí)概論

簡(jiǎn)介

  • 概論主要敘述統(tǒng)計(jì)學(xué)習(xí)的一些基本概念,對(duì)統(tǒng)計(jì)學(xué)習(xí)有個(gè)初步了解萝映,個(gè)人是先讀了后面的章節(jié)交惯,發(fā)現(xiàn)第一章才是最重要的墅诡,故重點(diǎn)介紹。

目錄

  • 統(tǒng)計(jì)學(xué)習(xí)介紹
  • 統(tǒng)計(jì)學(xué)習(xí)分類
  • 統(tǒng)計(jì)學(xué)習(xí)方法三要素
  • 模型評(píng)估與模型選擇
  • 正則化與交叉驗(yàn)證
  • 泛化能力
  • 生成模型與判別模型
  • 監(jiān)督學(xué)習(xí)應(yīng)用
  • 總結(jié)

統(tǒng)計(jì)學(xué)習(xí)介紹

統(tǒng)計(jì)學(xué)習(xí)的特點(diǎn)

  • 以計(jì)算機(jī)及網(wǎng)絡(luò)為平臺(tái)
  • 數(shù)據(jù)為研究對(duì)象障癌,數(shù)據(jù)驅(qū)動(dòng)
  • 目的是對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析
  • 以方法為中心凌外,構(gòu)建模型進(jìn)行預(yù)測(cè)與分析
  • 統(tǒng)計(jì)學(xué)習(xí)涉及概率論、統(tǒng)計(jì)學(xué)涛浙、信息論康辑、計(jì)算理論、最優(yōu)化理論等多個(gè)領(lǐng)域

統(tǒng)計(jì)學(xué)習(xí)的對(duì)象

  • 統(tǒng)計(jì)學(xué)習(xí)的對(duì)象是數(shù)據(jù)轿亮,提取數(shù)據(jù)特征疮薇、抽象數(shù)據(jù)模型、挖掘數(shù)據(jù)知識(shí)我注、對(duì)數(shù)據(jù)進(jìn)行分析與預(yù)測(cè)按咒。

統(tǒng)計(jì)學(xué)習(xí)的目的

  • 主要目的是對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析,特別是未知的新數(shù)據(jù)但骨,同時(shí)也考慮如何提高學(xué)習(xí)效率励七。

統(tǒng)計(jì)學(xué)習(xí)的方法

  • 統(tǒng)計(jì)學(xué)習(xí)有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)奔缠、強(qiáng)化學(xué)習(xí)等組成掠抬。
  • 統(tǒng)計(jì)學(xué)習(xí)方法的三要素:模型的假設(shè)空間、模型選擇的準(zhǔn)則和模型學(xué)習(xí)的算法校哎。
統(tǒng)計(jì)學(xué)習(xí)方法的步驟
  • 得到一個(gè)有限的訓(xùn)練集合两波。
  • 確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合贬蛙。
  • 確定模型選擇的準(zhǔn)則雨女,即學(xué)習(xí)的策略。
  • 實(shí)現(xiàn)求解最優(yōu)化模型的算法阳准,即學(xué)習(xí)的算法氛堕。
  • 通過(guò)學(xué)習(xí)算法選擇最優(yōu)模型。
  • 利用學(xué)習(xí)的最優(yōu)模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)分析野蝇。

統(tǒng)計(jì)學(xué)習(xí)的研究

  • 包括統(tǒng)計(jì)學(xué)習(xí)方法讼稚、理論括儒、應(yīng)用三個(gè)方面。

統(tǒng)計(jì)學(xué)習(xí)的重要性

  • 統(tǒng)計(jì)學(xué)習(xí)是處理海量數(shù)據(jù)的有效方法
  • 統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)智能化的有效手段
  • 統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)科學(xué)的一個(gè)重要組成部分锐想,屬于信息這一維

統(tǒng)計(jì)學(xué)習(xí)的分類

基本分類

  • 統(tǒng)計(jì)學(xué)習(xí)或機(jī)器學(xué)習(xí)一般包括監(jiān)督學(xué)習(xí)帮寻、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)赠摇。有時(shí)還包括半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)
監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)是指從標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測(cè)模型的機(jī)器學(xué)習(xí)問(wèn)題固逗,標(biāo)注數(shù)據(jù)表示輸入輸出的對(duì)應(yīng)關(guān)系,預(yù)測(cè)模型對(duì)給定的輸入產(chǎn)生相應(yīng)的輸出藕帜。監(jiān)督學(xué)習(xí)本質(zhì)是學(xué)習(xí)輸入到輸出的映射統(tǒng)計(jì)規(guī)律烫罩。

  • 輸入與輸出的所有可能取值的集合分別稱為輸入空間與輸出空間,通常輸出空間遠(yuǎn)遠(yuǎn)小于輸出空間洽故。
  • 每個(gè)具體的輸入是一個(gè)實(shí)例贝攒,通常由特征向量表示,所有的特征向量存在的空間稱為特征空間时甚。
  • 輸入變量與輸出變量均為連續(xù)變量的預(yù)測(cè)問(wèn)題稱為回歸問(wèn)題隘弊;輸出變量為有限個(gè)離散變量的預(yù)測(cè)問(wèn)題稱為分類問(wèn)題;輸入變量與輸出變量均為變量序列的預(yù)測(cè)問(wèn)題稱為標(biāo)注問(wèn)題
  • 監(jiān)督學(xué)習(xí)假設(shè)輸入變量與輸出變量遵循聯(lián)合概率分布荒适,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)是依聯(lián)合概率分布獨(dú)立同分布產(chǎn)生的
  • 監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個(gè)由輸入到輸出的映射梨熙,模型屬于輸入空間到輸出空間的映射的集合,這個(gè)集合就是假設(shè)空間
  • 監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測(cè)兩個(gè)過(guò)程吻贿,由學(xué)習(xí)系統(tǒng)和預(yù)測(cè)系統(tǒng)完成串结,學(xué)習(xí)過(guò)程中,學(xué)習(xí)系統(tǒng)利用給定的訓(xùn)練數(shù)據(jù)集舅列,通過(guò)學(xué)習(xí)得到一個(gè)模型肌割,表示為條件概率分布或決策函數(shù)。在預(yù)測(cè)過(guò)程中帐要,預(yù)測(cè)系統(tǒng)對(duì)于給定的測(cè)試樣本集輸入把敞,給出相應(yīng)的輸出
無(wú)監(jiān)督學(xué)習(xí)
  • 無(wú)監(jiān)督學(xué)習(xí)是指從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測(cè)模型的機(jī)器學(xué)習(xí),無(wú)標(biāo)注數(shù)據(jù)是自然得到的數(shù)據(jù)榨惠,預(yù)測(cè)模型表示數(shù)據(jù)的類別奋早、轉(zhuǎn)換或概率。本質(zhì)是學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律或潛在結(jié)構(gòu)赠橙。
  • 輸入與輸出的所有可能取值的集合分別稱為輸入空間與輸出空間耽装,通常輸出空間遠(yuǎn)遠(yuǎn)小于輸出空間。
  • 每個(gè)具體的輸入是一個(gè)實(shí)例期揪,通常由特征向量表示掉奄,所有的特征向量存在的空間稱為特征空間。
  • 模型可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的聚類凤薛、降維或者概率估計(jì)姓建。
  • 無(wú)監(jiān)督學(xué)習(xí)旨在從假設(shè)空間中選出在給定評(píng)價(jià)標(biāo)準(zhǔn)下的最優(yōu)模型诞仓。
強(qiáng)化學(xué)習(xí)
  • 強(qiáng)化學(xué)習(xí)是指智能系統(tǒng)在與環(huán)境的連續(xù)互動(dòng)中學(xué)習(xí)最優(yōu)行為策略的機(jī)器學(xué)習(xí)問(wèn)題。假設(shè)智能系統(tǒng)與環(huán)境的互動(dòng)基于馬爾可夫決策過(guò)程速兔,智能系統(tǒng)能觀測(cè)到的是與環(huán)境互動(dòng)得到數(shù)據(jù)序列墅拭。強(qiáng)化學(xué)習(xí)本質(zhì)是學(xué)習(xí)最優(yōu)的序貫決策。
  • 強(qiáng)化學(xué)習(xí)的馬爾可夫決策過(guò)程是狀態(tài)涣狗、獎(jiǎng)勵(lì)谍婉、動(dòng)作序列上的隨機(jī)過(guò)程,由五元組 S 有限狀態(tài)集合屑柔、A 有限動(dòng)作集合屡萤、P 狀態(tài)轉(zhuǎn)移概率函數(shù)珍剑、r 獎(jiǎng)勵(lì)函數(shù)掸宛、衰減系數(shù)
  • 馬爾可夫決策過(guò)程,下一個(gè)狀態(tài)只依賴于前一個(gè)狀態(tài)與動(dòng)作招拙,由狀態(tài)轉(zhuǎn)移概率函數(shù)表示唧瘾。下一個(gè)獎(jiǎng)勵(lì)依賴于前一個(gè)狀態(tài)s和動(dòng)作,由獎(jiǎng)勵(lì)函數(shù)表示别凤。
  • 價(jià)值函數(shù)或者狀態(tài)價(jià)值函數(shù)定義為策略Π從某一個(gè)狀態(tài)s開始的長(zhǎng)期累積獎(jiǎng)勵(lì)的數(shù)學(xué)期望饰序。
  • 動(dòng)作價(jià)值函數(shù)定義為策略Π的從某一個(gè)狀態(tài)s和動(dòng)作a開始的長(zhǎng)期累積獎(jiǎng)勵(lì)的數(shù)學(xué)期望。
半監(jiān)督學(xué)習(xí)與主動(dòng)學(xué)習(xí)
  • 半監(jiān)督學(xué)習(xí)是指利用標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)學(xué)習(xí)預(yù)測(cè)模型的機(jī)器學(xué)習(xí)問(wèn)題规哪。半監(jiān)督學(xué)習(xí)旨在利用未標(biāo)注數(shù)據(jù)中的信息求豫,輔助標(biāo)注數(shù)據(jù),進(jìn)行監(jiān)督學(xué)習(xí)诉稍,以較低成本達(dá)到較好的學(xué)習(xí)效果蝠嘉。
  • 主動(dòng)學(xué)習(xí)是指機(jī)器不斷主動(dòng)給出實(shí)例讓教師進(jìn)行標(biāo)注,然后利用標(biāo)注數(shù)據(jù)學(xué)習(xí)預(yù)測(cè)模型的機(jī)器學(xué)習(xí)問(wèn)題杯巨。主動(dòng)學(xué)習(xí)的目標(biāo)是找出對(duì)學(xué)習(xí)最有幫助的實(shí)例讓教師標(biāo)注蚤告,以較小的標(biāo)注代價(jià),達(dá)到較好的學(xué)習(xí)效果服爷。
  • 半監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)更接近監(jiān)督學(xué)習(xí)杜恰。

按模型分類

概率模型與非概率模型
  • 條件概率分布最大化后得到函數(shù),函數(shù)歸一化后得到條件概率分布仍源,所有概率模型和非概率模型區(qū)別不在于輸入輸出之間的映射關(guān)系心褐,而在于內(nèi)在結(jié)構(gòu)。
  • 概率模型通沉龋可以表示為聯(lián)合概率分布形式逗爹,其中的變量表示輸入、輸出戳表、隱變量甚至是參數(shù)桶至。而非概率模型則不一定存在這樣的聯(lián)合概率分布昼伴。
  • 概率模型包含:決策樹、樸素貝葉斯镣屹、隱馬爾可夫模型圃郊、條件隨機(jī)場(chǎng)、概率潛在語(yǔ)義分析女蜈、潛在狄利克雷分配持舆、高斯混合模型等
  • 非概率模型包含:感知機(jī)、支持向量機(jī)伪窖、k近鄰逸寓、AdaBoost、k均值覆山、潛在語(yǔ)義分析以及神經(jīng)網(wǎng)絡(luò)等
  • 邏輯斯諦回歸既可以看作概率模型竹伸,又可以看作非概率模型。
  • 概率模型無(wú)論模型如何復(fù)雜簇宽,均可以用最基本的加法規(guī)則和乘法規(guī)則進(jìn)行概率推理勋篓。
線性模型與非線性模型
  • 如果輸入輸出映射函數(shù)是線性函數(shù),則稱模型是線性模型魏割,否則是非線性模型譬嚣。
  • 線性模型:感知機(jī)、線性支持向量機(jī)钞它、k近鄰拜银、k均值、潛在語(yǔ)義分析等
  • 非線性模型:核函數(shù)支持向量機(jī)遭垛、AdaBoost尼桶、神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)等
參數(shù)化模型和非參數(shù)化模型
  • 參數(shù)化模型假設(shè)模型參數(shù)的維度固定耻卡,模型可以由有限維參數(shù)完全刻畫
  • 非參數(shù)化模型假設(shè)模型的參數(shù)維度不固定或者說(shuō)無(wú)窮大疯汁,隨著訓(xùn)練數(shù)據(jù)量的增加而不斷增大。
  • 參數(shù)化模型:感知機(jī)卵酪、樸素貝葉斯幌蚊、邏輯斯諦回歸、k均值溃卡、高斯混合模型溢豆、潛在語(yǔ)義分析,概率潛在語(yǔ)義分析瘸羡、潛在狄利克雷分配等
  • 非參數(shù)化模型:決策樹漩仙、支持向量機(jī)、AdaBoost、k近鄰等

按算法分類

  • 分為在線學(xué)習(xí)與批量學(xué)習(xí)队他,在線學(xué)習(xí)通常比批量學(xué)習(xí)更難卷仑,很難學(xué)到預(yù)測(cè)準(zhǔn)確率更高的模型,因?yàn)槊看文P透轮恤镎郏梢岳玫臄?shù)據(jù)有限锡凝。
在線學(xué)習(xí)
  • 在線學(xué)習(xí)是指每次接受一個(gè)樣本,之后學(xué)習(xí)模型垢啼,并不斷重復(fù)該操作的機(jī)器學(xué)習(xí)
  • 利用隨機(jī)梯度下降的感知機(jī)學(xué)習(xí)算法就是在線學(xué)習(xí)算法
批量學(xué)習(xí)
  • 批量學(xué)習(xí)是指一次接受所有的數(shù)據(jù)窜锯,學(xué)習(xí)模型,之后進(jìn)行預(yù)測(cè)芭析。

按技巧分類

貝葉斯學(xué)習(xí)
  • 貝葉斯學(xué)習(xí)锚扎,又稱貝葉斯推理,是統(tǒng)計(jì)學(xué)習(xí)馁启、機(jī)器學(xué)習(xí)中的重要方法
核方法學(xué)習(xí)

后續(xù)補(bǔ)充

統(tǒng)計(jì)學(xué)習(xí)方法三要素

  • 模型驾孔、策略、算法
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末进统,一起剝皮案震驚了整個(gè)濱河市助币,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌螟碎,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件迹栓,死亡現(xiàn)場(chǎng)離奇詭異掉分,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)克伊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門酥郭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人愿吹,你說(shuō)我怎么就攤上這事不从。” “怎么了犁跪?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵椿息,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我坷衍,道長(zhǎng)寝优,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任枫耳,我火速辦了婚禮乏矾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己钻心,他們只是感情好凄硼,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著捷沸,像睡著了一般帆喇。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上亿胸,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天坯钦,我揣著相機(jī)與錄音,去河邊找鬼侈玄。 笑死婉刀,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的序仙。 我是一名探鬼主播突颊,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼潘悼!你這毒婦竟也來(lái)了律秃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤治唤,失蹤者是張志新(化名)和其女友劉穎棒动,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宾添,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡船惨,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了缕陕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片粱锐。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖扛邑,靈堂內(nèi)的尸體忽然破棺而出怜浅,到底是詐尸還是另有隱情,我是刑警寧澤蔬崩,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布恶座,位于F島的核電站,受9級(jí)特大地震影響舱殿,放射性物質(zhì)發(fā)生泄漏奥裸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一沪袭、第九天 我趴在偏房一處隱蔽的房頂上張望湾宙。 院中可真熱鬧樟氢,春花似錦、人聲如沸侠鳄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)伟恶。三九已至碴开,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間博秫,已是汗流浹背潦牛。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留挡育,地道東北人巴碗。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像即寒,于是被迫代替她去往敵國(guó)和親橡淆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容