1.機器學(xué)習(xí)假設(shè)訓(xùn)練集樣本獨立同分布
機器學(xué)習(xí)建立在當前獲取到的歷史數(shù)據(jù) [訓(xùn)練集]慷蠕,對未來數(shù)據(jù)進行預(yù)測著淆、模擬。
https://www.zhihu.com/question/41222495/answer/790291550
選定模型,優(yōu)化參數(shù)匀谣,使 likelihood 最大倒信。
- 極大似然估計 (MLE) 是經(jīng)驗風(fēng)險最小化 (ERM) 的一個例子. 當模型是條件概率分布, 損失函數(shù)是對數(shù)損失函數(shù)時, 經(jīng)驗風(fēng)險最小化等價于極大似然估計.
- 貝葉斯估計中的最大后驗概率估計 (MAP) 是結(jié)構(gòu)風(fēng)險最小化 (SRM) 的一個例子. 當模型是條件概率分布, 損失函數(shù)是對數(shù)損失函數(shù), 模型復(fù)雜度由模型的先驗概率表示時, 結(jié)構(gòu)風(fēng)險最小化等價于最大后驗概率估計.
1.1 獨立同分布 independent and identical distribution
- x1,x2 不獨立科贬,說明其具備一定相關(guān)性,即之間存在某種函數(shù)關(guān)系,取值互相影響
- 同分布:對于離散變量有相同分布律榜掌,對于連續(xù)變量有相同的概率密度函數(shù) PDF优妙;也反映了訓(xùn)練集中這些數(shù)據(jù)屬于同一 task
1.2 likelihood 極大似然估計 MLE
當樣本符合獨立性假設(shè)后,likelihood 轉(zhuǎn)化為 各個樣本發(fā)生概率之積
likelihood 取 max憎账,再使用 log 將乘法轉(zhuǎn)化為加法套硼,即 條件對數(shù)似然,起到簡化問題作用
2.貝葉斯公式與先驗后驗
參考:https://zhuanlan.zhihu.com/p/38567891
2.1 全概率與貝葉斯
二者互為“逆”定義
- 全概率:由因推果
- 貝葉斯:由果溯因
右側(cè)分子 是 全概率公式中右側(cè)求和的某一項
右側(cè)分母 是 全概率公式中右側(cè)求和
2.2 先驗 prior 后驗 posterior
貝葉斯判斷 A 事件的發(fā)生源于哪個因素的概率胞皱,類比分類問題
此時分母即此樣本已經(jīng)產(chǎn)生
判斷這個樣本屬于哪個類邪意,即
- 先驗概率:,由數(shù)據(jù)集統(tǒng)計信息得到的各類發(fā)生概率反砌,預(yù)先得到的先驗知識
- 后驗概率:雾鬼,取樣本后,計算屬于某個已知類的概率
先驗后驗關(guān)系
- 宴树,已知樣本中策菜,類所占概率
- ,已知樣本中酒贬,假設(shè)類又憨,發(fā)生的概率
- ,取樣本同衣,此概率常視為常數(shù)
- 竟块,取樣完成后,計算后驗概率
實例耐齐,假設(shè)有兩個盒子浪秘,分別為紅色和藍色。
在紅色盒子中放著2個青蘋果和6個橙子埠况,在藍色盒子中放著1個橙子和3個青蘋果
假設(shè)每次實驗的時候會隨機從某個盒子里挑出一個水果
- 隨機變量表示挑出的是哪個盒子耸携,
- 隨機變量表示挑中的是哪種水果,的取值為"a (apple)"和"o (orange)"辕翰。
現(xiàn)取出1個橘子夺衍,求其取自紅盒的概率,此例中
- 紅盒這個類發(fā)生的概率
- 假設(shè)是紅盒喜命,取出橘子的概率
- 取出水果是橘子的概率(全概率求解)
- 事實取出橘子沟沙,來自紅盒的概率
3. 樸素貝葉斯 Naive Bayes
樸素貝葉斯分類器 - 維基百科
獨立性假設(shè):https://zhuanlan.zhihu.com/p/35605570
https://sylvanassun.github.io/2017/12/20/2017-12-20-naive_bayes/
兩個獨立性假設(shè)上
- 數(shù)據(jù)樣本獨立同分布,樣本之間獨立壁榕,使訓(xùn)練集樣本整體 likelihood 求解簡單
- 特征條件獨立性假設(shè)矛紫,樣本內(nèi)部特征獨立,使條件概率求解簡單
樣本內(nèi)部特征:比如圖像表示成維向量牌里,這個特征獨立使條件概率求解簡單
總結(jié)來看颊咬,假設(shè) 2 是為了實際 code 需要從提取特征維度讓條件概率獨立
NB 是生成模型,分子等價于聯(lián)合分布