統(tǒng)計(jì)學(xué)習(xí)方法概論

統(tǒng)計(jì)學(xué)習(xí)方法概論

  • 統(tǒng)計(jì)學(xué)習(xí)
  • 監(jiān)督學(xué)習(xí)
  • 統(tǒng)計(jì)學(xué)習(xí)三要素
  • 模型評估與模型選擇
  • 泛化能力
  • 生成模型與判別模型
  • 分類問題
  • 標(biāo)注問題
  • 回歸問題

最小二乘法擬合曲線


統(tǒng)計(jì)學(xué)習(xí)方法的三要素:模型六敬、策略和算法龟梦;

統(tǒng)計(jì)學(xué)習(xí)

  1. 統(tǒng)計(jì)學(xué)習(xí)(statistical learning)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對數(shù)據(jù)進(jìn)行預(yù)測與分析的一門學(xué)科。統(tǒng)計(jì)學(xué)習(xí)也稱為統(tǒng)計(jì)機(jī)器學(xué)習(xí)(statistical machine learning)杂伟。

  2. 赫爾伯特·西蒙(Herbert A. Simon)曾對“學(xué)習(xí)”給出以下定義:“如果一個系統(tǒng)能夠通過執(zhí)行某個過程改進(jìn)它的性能祭芦,這就是學(xué)習(xí)筷笨。”按照這一觀點(diǎn)龟劲,統(tǒng)計(jì)學(xué)習(xí)就是計(jì)算機(jī)系統(tǒng)通過運(yùn)用數(shù)據(jù)及統(tǒng)計(jì)方法提高系統(tǒng)性能的機(jī)器學(xué)習(xí)∥赶模現(xiàn)在,當(dāng)人們提及機(jī)器學(xué)習(xí)時昌跌,往往是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)仰禀。

  3. 統(tǒng)計(jì)學(xué)習(xí)的對象是數(shù)據(jù)(data)。它從數(shù)據(jù)出發(fā)蚕愤,提取數(shù)據(jù)的特征答恶,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識萍诱,又回到對數(shù)據(jù)的分析與預(yù)測中去悬嗓。
    提取數(shù)據(jù)特征、抽象數(shù)據(jù)模型裕坊、發(fā)現(xiàn)數(shù)據(jù)知識包竹、數(shù)據(jù)分析預(yù)測

  4. 統(tǒng)計(jì)學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律性,這是統(tǒng)計(jì)學(xué)習(xí)的前提。

  5. 數(shù)據(jù)分為由連續(xù)變量和離散變量表示的類型周瞎。

  6. 統(tǒng)計(jì)學(xué)習(xí)用于對數(shù)據(jù)進(jìn)行預(yù)測與分析苗缩,特別是對未知新數(shù)據(jù)進(jìn)行預(yù)測與分析。對數(shù)據(jù)的預(yù)測可以使計(jì)算機(jī)更加智能化声诸,或者說使計(jì)算機(jī)的某些性能得到提高酱讶;對數(shù)據(jù)的分析可以讓人們獲取新的知識,給人們帶來新的發(fā)現(xiàn)双絮。

  7. 從給定的浴麻、有限的得问、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)(training data)集合出發(fā)囤攀,假設(shè)數(shù)據(jù)是獨(dú)立同分布產(chǎn)生的;并且假設(shè)要學(xué)習(xí)的模型屬于某個函數(shù)的集合宫纬,稱為假設(shè)空間(hypothesis space)焚挠;應(yīng)用某個評價準(zhǔn)則(evaluation criterion),從假設(shè)空間中選取一個最優(yōu)的模型漓骚,使它對已知訓(xùn)練數(shù)據(jù)及未知測試數(shù)據(jù)(test data)在給定的評價準(zhǔn)則下有最優(yōu)的預(yù)測蝌衔;最優(yōu)模型的選取由算法實(shí)現(xiàn)。這樣蝌蹂,統(tǒng)計(jì)學(xué)習(xí)方法包括模型的假設(shè)空間噩斟、模型選擇的準(zhǔn)則以及模型學(xué)習(xí)的算法,稱其為統(tǒng)計(jì)學(xué)習(xí)方法的三要素孤个,簡稱為模型(model)剃允、策略(strategy)和算法(algorithm)。
    獨(dú)立同分布:在概率統(tǒng)計(jì)理論中齐鲤,指隨機(jī)過程中斥废,任何時刻的取值都為隨機(jī)變量,如果這些隨機(jī)變量服從同一分布给郊,并且互相獨(dú)立牡肉,那么這些隨機(jī)變量是獨(dú)立同分布。

  8. 現(xiàn)實(shí)中的數(shù)據(jù)不但規(guī)模大淆九,而且常常具有不確定性统锤,統(tǒng)計(jì)學(xué)習(xí)往往是處理這類數(shù)據(jù)最強(qiáng)有力的工具。

監(jiān)督學(xué)習(xí)

  1. 在監(jiān)督學(xué)習(xí)中炭庙,將輸入與輸出所有可能取值的集合分別稱為輸入空間(input space)與輸出空間(output space)饲窿。輸入與輸出空間可以是有限元素的集合,也可以是整個歐氏空間煤搜。輸入空間與輸出空間可以是同一個空間免绿,也可以是不同的空間;但通常輸出空間遠(yuǎn)遠(yuǎn)小于輸入空間擦盾。

  2. 每個具體的輸入是一個實(shí)例(instance)嘲驾,通常由特征向量(feature vector)表示淌哟。這時,所有特征向量存在的空間稱為特征空間(feature space)辽故。特征空間的每一維對應(yīng)于一個特征徒仓。有時輸入空間與特征空間為相同的空間,對它們不予區(qū)分誊垢;有時輸入空間與特征空間為不同的空間掉弛,將實(shí)例從輸入空間映射到特征空間。模型實(shí)際上都是定義在特征空間上的喂走。

  3. 人們根據(jù)輸入殃饿、輸出變量的不同類型,對預(yù)測任務(wù)給予不同的名稱:輸入變量與輸出變量均為連續(xù)變量的預(yù)測問題稱為回歸問題芋肠;輸出變量為有限個離散變量的預(yù)測問題稱為分類問題乎芳;輸入變量與輸出變量均為變量序列的預(yù)測問題稱為標(biāo)注問題。

  4. 監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y)帖池。

  5. 監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型奈惑,由條件概率分布 P(Y|X) 或決策函數(shù)(decision function)Y=f(X) 表示,隨具體學(xué)習(xí)方法而定睡汹。

統(tǒng)計(jì)學(xué)習(xí)三要素

  1. 在監(jiān)督學(xué)習(xí)過程中肴甸,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)。模型的假設(shè)空間(hypothesis space)包含所有可能的條件概率分布或決策函數(shù)囚巴。

  2. 統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)在于從假設(shè)空間中選取最優(yōu)模型原在。

  3. 損失函數(shù)度量模型一次預(yù)測的好壞,風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測的好壞文兢。

  4. 損失函數(shù)是f(X)和Y的非負(fù)實(shí)值函數(shù)士败,記作 L(Y,f(X))淌喻。
    常用損失函數(shù):
    0-1 損失函數(shù)
    L(Y,f(X))=\begin{cases} 1, \ \ \ \ \ \ Y \neq f(X) \\ 0, \ \ \ \ \ \ Y = f(X) \end{cases}


    平方損失函數(shù)
    L(Y,f(X))=(Y-F(X))^2


    絕對損失函數(shù)
    L(Y,f(X))= \mid Y -f(X) \mid


    對數(shù)損失函數(shù)或?qū)?shù)似然損失函數(shù)
    L(Y,f(X)=-\log P(Y\mid X)

  5. 損失函數(shù)值越小唠帝,模型就越好膏蚓。由于模型的輸入、輸出(X,Y)是隨機(jī)變量兼呵,遵循聯(lián)合分布 P(X,Y)兔辅,所以損失函數(shù)的期望是:
    R_{exp}(f) = E_p[L(Y,f(X))]=\int_{x\times y}L(y, f(x))P(x, y)dxdy
    這是理論上模型 f(X) 關(guān)于聯(lián)合分布 P(X,Y) 的平均意義下的損失,稱為風(fēng)險(xiǎn)函數(shù)(risk function)或期望損失(expected loss)击喂。

  6. 給定訓(xùn)練數(shù)據(jù)集 T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}维苔,模型 f(X) 關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)或經(jīng)驗(yàn)損失(empirical loss),記作 R_{emp}
    R_{emp}(f) = \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))

  7. 期望風(fēng)險(xiǎn) R_{exp}(f) 是模型關(guān)于聯(lián)合分布的期望損失懂昂,經(jīng)驗(yàn)風(fēng)險(xiǎn) R_{emp}(f) 是模型關(guān)于訓(xùn)練樣本集的平均損失介时。

  8. 根據(jù)大數(shù)定律,當(dāng)樣本容量N趨于無窮時,經(jīng)驗(yàn)風(fēng)險(xiǎn) R_{emp}(f) 趨于期望風(fēng)險(xiǎn) R_{exp}(f) 沸柔。所以一個很自然的想法是用經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)期望風(fēng)險(xiǎn)循衰。但是,由于現(xiàn)實(shí)中訓(xùn)練樣本數(shù)目有限褐澎,甚至很小会钝,所以用經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)期望風(fēng)險(xiǎn)常常并不理想,要對經(jīng)驗(yàn)風(fēng)險(xiǎn)進(jìn)行一定的矯正工三。這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個基本策略:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化和結(jié)構(gòu)風(fēng)險(xiǎn)最小化迁酸。

  9. 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization,ERM)的策略認(rèn)為俭正,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型奸鬓。根據(jù)這一策略,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求最優(yōu)模型就是求解最優(yōu)化問題:
    min_{f\in F} \frac {1}{N}\sum_{i=1}^NL(y_i,f(x))
    其中段审,F 是假設(shè)空間全蝶。

  10. 當(dāng)模型是條件概率分布闹蒜,損失函數(shù)是對數(shù)損失函數(shù)時寺枉,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價于極大似然估計(jì)

  11. 結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization绷落,SRM)是為了防止過擬合而提出來的策略姥闪。結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價于正則化(regularization)。結(jié)構(gòu)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng)(regularizer)或罰項(xiàng)(penalty term)砌烁。

  12. 在假設(shè)空間筐喳、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下,結(jié)構(gòu)風(fēng)險(xiǎn)的定義是:
    R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)
    其中 J(f) 為模型的復(fù)雜度函喉,是定義在假設(shè)空間上的泛函避归。模型 f 越復(fù)雜,復(fù)雜度 J(f) 就越大管呵;反之梳毙,模型 f 越簡單,復(fù)雜度 J(f) 就越小捐下。也就是說账锹,復(fù)雜度表示了對復(fù)雜模型的懲罰\lambda≥0 是系數(shù)坷襟,用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度奸柬。結(jié)構(gòu)風(fēng)險(xiǎn)小需要經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同時小。結(jié)構(gòu)風(fēng)險(xiǎn)小的模型往往對訓(xùn)練數(shù)據(jù)以及未知的測試數(shù)據(jù)都有較好的預(yù)測婴程。

  13. 結(jié)構(gòu)風(fēng)險(xiǎn)最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型廓奕。所以求最優(yōu)模型,就是求解最優(yōu)化問題:
    min_{f\in F} \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)

模型評估與模型選擇

  1. 假設(shè)學(xué)習(xí)到的模型是 Y=\hat{f}(X) ,訓(xùn)練誤差是模型關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失:
    R_{emp}(\hat{f}) = \frac{1}{N}\sum_{i=1}^NL(y_i,\hat{f}(x_i))
    測試誤差是模型關(guān)于測試數(shù)據(jù)集的平均損失:
    e_{test} = \frac{1}{N^t}\sum_{i=1}^{N^t}L(y_i,\hat{f}(x_i))
    其中桌粉,其中 N 是訓(xùn)練樣本容量授段,N^t 是測試樣本容量。

  2. 訓(xùn)練誤差的大小番甩,對判斷給定的問題是不是一個容易學(xué)習(xí)的問題是有意義的侵贵,但本質(zhì)上不重要。測試誤差反映了學(xué)習(xí)方法對未知的測試數(shù)據(jù)集的預(yù)測能力缘薛,是學(xué)習(xí)中的重要概念窍育。

  3. 通常將學(xué)習(xí)方法對未知數(shù)據(jù)的預(yù)測能力稱為泛化能力(generalization ability)。

  4. 如果一味追求提高對訓(xùn)練數(shù)據(jù)的預(yù)測能力宴胧,所選模型的復(fù)雜度則往往會比真模型更高漱抓。這種現(xiàn)象稱為過擬合(over-fitting)。過擬合是指學(xué)習(xí)時選擇的模型所包含的參數(shù)過多恕齐,以致于出現(xiàn)這一模型對已知數(shù)據(jù)預(yù)測得很好乞娄,但對未知數(shù)據(jù)預(yù)測得很差的現(xiàn)象∠云纾可以說模型選擇旨在避免過擬合并提高模型的預(yù)測能力仪或。

  5. 模型選擇的典型方法是正則化(regularization)。正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn)士骤,是在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個正則化項(xiàng)(regularizer)或罰項(xiàng)(penalty term)范删。正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜拷肌,正則化值就越大到旦。正則化一般具有如下形式:
    min_{f\in F} \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)
    例如,回歸問題中巨缘,損失函數(shù)是平方損失添忘,正則化項(xiàng)可以是參數(shù)向量的L2范數(shù):
    L(\omega) = \frac{1}{N}\sum_{i=1}^N(f(x_i;\omega)-y_i)^2+\frac{\lambda}{2} \mid\mid \omega \mid\mid^2
    其中,\mid\mid \omega \mid\mid 表示向量 \omega 的 L2 范數(shù)若锁。

  6. 正則化符合奧卡姆剃刀(Occam's razor)原理搁骑。奧卡姆剃刀原理應(yīng)用于模型選擇時變?yōu)橐韵孪敕ǎ涸谒锌赡苓x擇的模型中,能夠很好地解釋已知數(shù)據(jù)并且十分簡單才是最好的模型拴清,也就是應(yīng)該選擇的模型靶病。從貝葉斯估計(jì)的角度來看,正則化項(xiàng)對應(yīng)于模型的先驗(yàn)概率口予÷χ埽可以假設(shè)復(fù)雜的模型有較小的先驗(yàn)概率,簡單的模型有較大的先驗(yàn)概率沪停。

  7. 另一種常用的模型選擇方法是交叉驗(yàn)證(cross validation)煤辨。

  8. 簡單交叉驗(yàn)證方法如下:首先隨機(jī)地將已給數(shù)據(jù)分為兩部分裳涛,一部分作為訓(xùn)練集,另一部分作為測試集(例如众辨,70%的數(shù)據(jù)為訓(xùn)練集端三,30%的數(shù)據(jù)為測試集);然后用訓(xùn)練集在各種條件下(例如鹃彻,不同的參數(shù)個數(shù))訓(xùn)練模型郊闯,從而得到不同的模型;在測試集上評價各個模型的測試誤差蛛株,選出測試誤差最小的模型团赁。

  9. S折交叉驗(yàn)證(S-fold cross validation)方法如下:首先隨機(jī)地將已給數(shù)據(jù)切分為S個互不相交的大小相同的子集;然后利用S-1個子集的數(shù)據(jù)訓(xùn)練模型谨履,利用余下的子集測試模型欢摄;將這一過程對可能的S種選擇重復(fù)進(jìn)行;最后選出S次評測中平均測試誤差最小的模型笋粟。

  10. 留一交叉驗(yàn)證(leave-one-out cross validation)是S折交叉驗(yàn)證的特殊情形怀挠,即 S=N。往往在數(shù)據(jù)缺乏的情況下使用害捕。

泛化能力

  1. 泛化誤差反映了學(xué)習(xí)方法的泛化能力绿淋,如果一種方法學(xué)習(xí)的模型比另一種方法學(xué)習(xí)的模型具有更小的泛化誤差,那么這種方法就更有效吨艇。事實(shí)上躬它,泛化誤差就是所學(xué)習(xí)到的模型的期望風(fēng)險(xiǎn)

生成模型與判別模型

  1. 監(jiān)督學(xué)習(xí)方法又可以分為生成方法(generative approach)和判別方法(discriminative approach)东涡。所學(xué)到的模型分別稱為生成模型(generative model)和判別模型(discriminative model)。

  2. 生成方法由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布 P(X,Y) 倘待,然后求出條件概率分布 P(Y|X) 作為預(yù)測的模型疮跑。這樣的方法之所以稱為生成方法,是因?yàn)槟P捅硎玖私o定輸入X產(chǎn)生輸出Y的生成關(guān)系凸舵。典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型祖娘。

  3. 判別方法由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)f(X)或者條件概率分布P(Y|X)作為預(yù)測的模型,即判別模型啊奄。判別方法關(guān)心的是對給定的輸入X渐苏,應(yīng)該預(yù)測什么樣的輸出Y。典型的判別模型包括:k近鄰法菇夸、感知機(jī)琼富、決策樹、邏輯斯諦回歸模型庄新、最大熵模型鞠眉、支持向量機(jī)薯鼠、提升方法和條件隨機(jī)場等。

  4. 生成方法的特點(diǎn):生成方法可以還原出聯(lián)合概率分布 P(X,Y)械蹋,而判別方法則不能出皇;生成方法的學(xué)習(xí)收斂速度更快,即當(dāng)樣本容量增加的時候哗戈,學(xué)到的模型可以更快地收斂于真實(shí)模型郊艘;當(dāng)存在隱變量時,仍可以用生成方法學(xué)習(xí)唯咬,此時判別方法就不能用暇仲。

  5. 判別方法的特點(diǎn):判別方法直接學(xué)習(xí)的是條件概率 P(Y|X) 或決策函數(shù) f(X) ,直接面對預(yù)測副渴,往往學(xué)習(xí)的準(zhǔn)確率更高奈附;由于直接學(xué)習(xí) P(Y|X)f(X) ,可以對數(shù)據(jù)進(jìn)行各種程度上的抽象煮剧、定義特征并使用特征斥滤,因此可以簡化學(xué)習(xí)問題。

分類問題

  1. 在監(jiān)督學(xué)習(xí)中勉盅,當(dāng)輸出變量Y取有限個離散值時佑颇,預(yù)測問題便成為分類問題。這時草娜,輸入變量X可以是離散的挑胸,也可以是連續(xù)的。

  2. 評價分類器性能的指標(biāo)一般是分類準(zhǔn)確率(accuracy)宰闰,其定義是:對于給定的測試數(shù)據(jù)集茬贵,分類器正確分類的樣本數(shù)與總樣本數(shù)之比。也就是損失函數(shù)是0-1損失時測試數(shù)據(jù)集上的準(zhǔn)確率移袍。

  3. 對于二類分類問題常用的評價指標(biāo)是精確率(precision)與召回率(recall)解藻。通常以關(guān)注的類為正類,其他類為負(fù)類葡盗,分類器在測試數(shù)據(jù)集上的預(yù)測或正確或不正確螟左,4種情況出現(xiàn)的總數(shù)分別記作:
    TP——將正類預(yù)測為正類數(shù);
    FN——將正類預(yù)測為負(fù)類數(shù)觅够;
    FP——將負(fù)類預(yù)測為正類數(shù)胶背;
    TN——將負(fù)類預(yù)測為負(fù)類數(shù)。


    精確率定義為:
    P = \frac{TP}{TP+FP}
    召回率定義為:
    R = \frac{TP}{TP+FN}
    其中喘先,精確率也稱查準(zhǔn)率钳吟,召回率也稱查全率。

  4. F_1 值苹祟,是精確率和召回率的調(diào)和均值砸抛,即
    \frac{2}{F_1} = \frac{1}{P} + \frac{1}{R}
    F_1 = \frac{2TP}{2TP+FP+FN}
    精確率和召回率都高時评雌,F_1 值也會高。

標(biāo)注問題

  1. 標(biāo)注(tagging)也是一個監(jiān)督學(xué)習(xí)問題直焙【岸可以認(rèn)為標(biāo)注問題是分類問題的一個推廣,標(biāo)注問題又是更復(fù)雜的結(jié)構(gòu)預(yù)測(structure prediction)問題的簡單形式奔誓。標(biāo)注問題的輸入是一個觀測序列斤吐,輸出是一個標(biāo)記序列或狀態(tài)序列。標(biāo)注問題的目標(biāo)在于學(xué)習(xí)一個模型厨喂,使它能夠?qū)τ^測序列給出標(biāo)記序列作為預(yù)測和措。注意,可能的標(biāo)記個數(shù)是有限的蜕煌,但其組合所成的標(biāo)記序列的個數(shù)是依序列長度呈指數(shù)級增長的派阱。

回歸問題

  1. 回歸用于預(yù)測輸入變量(自變量)和輸出變量(因變量)之間的關(guān)系,特別是當(dāng)輸入變量的值發(fā)生變化時斜纪,輸出變量的值隨之發(fā)生的變化贫母。回歸模型正是表示從輸入變量到輸出變量之間映射的函數(shù)盒刚∠倭樱回歸問題的學(xué)習(xí)等價于函數(shù)擬合:選擇一條函數(shù)曲線使其很好地?cái)M合已知數(shù)據(jù)且很好地預(yù)測未知數(shù)據(jù)。

  2. 回歸學(xué)習(xí)最常用的損失函數(shù)是平方損失函數(shù)因块,在此情況下橘原,回歸問題可以由著名的最小二乘法(least squares)求解。

最小二乘法擬合曲線

  1. 給定數(shù)據(jù) D=\{(x_1, y_2),(x_2,y_2),...,(x_n, y_n)\}涡上,擬合出函數(shù) f(x)趾断,則有誤差(殘差)r_i=f(x_i)-y_i ,此時誤差平方和最小時吓懈, f(x)y 的相似度最高歼冰。

  2. 一般 f(x) 為 n 次多項(xiàng)式,即 f(x)=\omega_0+\omega_1x^1+\omega_2x^2+...+\omega_nx^n 耻警,最小二乘法就是找出一組 \omega(\omega_1,\omega_2,...,\omega_n) 使誤差平方和最小,即 min \sum_{i=1}^n(f(x_i)-y_i)^2

  3. 假設(shè)目標(biāo)函數(shù)為 y=sin2\pi x甸怕,再加上一個正太分布的噪音干擾甘穿,下面將演示如何用多項(xiàng)式進(jìn)行擬合。
import numpy as np
import scipy as sp
from scipy.optimize import leastsq
import matplotlib.pyplot as plt


# 目標(biāo)函數(shù)
def target_function(x):
    return np.sin(2*np.pi*x)


# 多項(xiàng)式函數(shù)
def fitting_function(parms, x):
    # numpy.poly1d([1,2,3]) 生成 1x^2+2x^1+3
    return np.poly1d(parms)(x)


# 誤差函數(shù)
def residuals_function(parms, x, y):
    return fitting_function(parms, x) - y


# 誤差函數(shù)加入正則化
def residuals_function_with_regularization(parms, x, y):
    res = fitting_function(parms, x) - y
    regularizer = np.sqrt(0.5 * 0.001 * np.square(parms))
    return np.append(res, regularizer)
 

# 擬合過程
def fitting(m=0, withr=False):
    # m 為多項(xiàng)式的次方
    # 生成 x 點(diǎn)
    x_0 = np.linspace(0, 1, 10)
    x_1 = np.linspace(0, 1, 1000)
    
    # 計(jì)算 y 值梢杭,并加入正態(tài)分布噪音
    y_0 = [np.random.normal(0, 0.1) + yy for yy in target_function(x_0)]
    
    # 初始化多項(xiàng)式參數(shù)
    parms = np.random.rand(m+1)
    # 最小二乘法計(jì)算擬合函數(shù)參數(shù)
    if not withr:
        parms_lsq = leastsq(residuals_function, parms, args=(x_0, y_0))
    else:
        parms_lsq = leastsq(residuals_function_with_regularization, parms, args=(x_0, y_0))

    # 可視化
    plt.plot(x_1, target_function(x_1), label='target')
    plt.plot(x_1, fitting_function(parms_lsq[0], x_1), label='fitting')
    plt.plot(x_0, y_0, 'bo', label='noise')
    plt.legend()





當(dāng)參數(shù)等于 9 時温兼,多項(xiàng)式曲線通過了每個數(shù)據(jù)點(diǎn),但是造成了過擬合武契。因此需要引入正則化項(xiàng)(regularizer)募判,降低過擬合荡含。回歸問題中届垫,損失函數(shù)是平方損失释液,正則化可以是參數(shù)向量的 L2 范數(shù),也可以是 L1 范數(shù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末装处,一起剝皮案震驚了整個濱河市误债,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌妄迁,老刑警劉巖寝蹈,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異登淘,居然都是意外死亡箫老,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門黔州,熙熙樓的掌柜王于貴愁眉苦臉地迎上來耍鬓,“玉大人,你說我怎么就攤上這事辩撑〗缧保” “怎么了?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵合冀,是天一觀的道長各薇。 經(jīng)常有香客問我,道長君躺,這世上最難降的妖魔是什么峭判? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮棕叫,結(jié)果婚禮上林螃,老公的妹妹穿的比我還像新娘。我一直安慰自己俺泣,他們只是感情好疗认,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著伏钠,像睡著了一般横漏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上熟掂,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天缎浇,我揣著相機(jī)與錄音,去河邊找鬼赴肚。 笑死素跺,一個胖子當(dāng)著我的面吹牛二蓝,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播指厌,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼刊愚,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了仑乌?” 一聲冷哼從身側(cè)響起百拓,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎晰甚,沒想到半個月后衙传,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡厕九,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年蓖捶,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片扁远。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡俊鱼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出畅买,到底是詐尸還是另有隱情并闲,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布谷羞,位于F島的核電站帝火,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏湃缎。R本人自食惡果不足惜犀填,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望嗓违。 院中可真熱鬧九巡,春花似錦、人聲如沸蹂季。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽偿洁。三九已至佳窑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間父能,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工净神, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留何吝,地道東北人溉委。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像爱榕,于是被迫代替她去往敵國和親瓣喊。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容