統(tǒng)計(jì)學(xué)習(xí)方法概論
- 統(tǒng)計(jì)學(xué)習(xí)
- 監(jiān)督學(xué)習(xí)
- 統(tǒng)計(jì)學(xué)習(xí)三要素
- 模型評估與模型選擇
- 泛化能力
- 生成模型與判別模型
- 分類問題
- 標(biāo)注問題
- 回歸問題
最小二乘法擬合曲線
統(tǒng)計(jì)學(xué)習(xí)方法的三要素:模型六敬、策略和算法龟梦;
統(tǒng)計(jì)學(xué)習(xí)
- 統(tǒng)計(jì)學(xué)習(xí)(statistical learning)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對數(shù)據(jù)進(jìn)行預(yù)測與分析的一門學(xué)科。統(tǒng)計(jì)學(xué)習(xí)也稱為統(tǒng)計(jì)機(jī)器學(xué)習(xí)(statistical machine learning)杂伟。
- 赫爾伯特·西蒙(Herbert A. Simon)曾對“學(xué)習(xí)”給出以下定義:“如果一個系統(tǒng)能夠通過執(zhí)行某個過程改進(jìn)它的性能祭芦,這就是學(xué)習(xí)筷笨。”按照這一觀點(diǎn)龟劲,統(tǒng)計(jì)學(xué)習(xí)就是計(jì)算機(jī)系統(tǒng)通過運(yùn)用數(shù)據(jù)及統(tǒng)計(jì)方法提高系統(tǒng)性能的機(jī)器學(xué)習(xí)∥赶模現(xiàn)在,當(dāng)人們提及機(jī)器學(xué)習(xí)時昌跌,往往是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)仰禀。
- 統(tǒng)計(jì)學(xué)習(xí)的對象是數(shù)據(jù)(data)。它從數(shù)據(jù)出發(fā)蚕愤,提取數(shù)據(jù)的特征答恶,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識萍诱,又回到對數(shù)據(jù)的分析與預(yù)測中去悬嗓。
提取數(shù)據(jù)特征、抽象數(shù)據(jù)模型裕坊、發(fā)現(xiàn)數(shù)據(jù)知識包竹、數(shù)據(jù)分析預(yù)測
- 統(tǒng)計(jì)學(xué)習(xí)關(guān)于數(shù)據(jù)的基本
假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律性
,這是統(tǒng)計(jì)學(xué)習(xí)的前提。
- 數(shù)據(jù)分為由連續(xù)變量和離散變量表示的類型周瞎。
- 統(tǒng)計(jì)學(xué)習(xí)用于對數(shù)據(jù)進(jìn)行預(yù)測與分析苗缩,特別是對未知新數(shù)據(jù)進(jìn)行預(yù)測與分析。對數(shù)據(jù)的預(yù)測可以使計(jì)算機(jī)更加智能化声诸,或者說使計(jì)算機(jī)的某些性能得到提高酱讶;對數(shù)據(jù)的分析可以讓人們獲取新的知識,給人們帶來新的發(fā)現(xiàn)双絮。
- 從給定的浴麻、有限的得问、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)(training data)集合出發(fā)囤攀,假設(shè)數(shù)據(jù)是
獨(dú)立同分布
產(chǎn)生的;并且假設(shè)要學(xué)習(xí)的模型屬于某個函數(shù)的集合宫纬,稱為假設(shè)空間
(hypothesis space)焚挠;應(yīng)用某個評價準(zhǔn)則(evaluation criterion),從假設(shè)空間中選取一個最優(yōu)的模型漓骚,使它對已知訓(xùn)練數(shù)據(jù)及未知測試數(shù)據(jù)(test data)在給定的評價準(zhǔn)則下有最優(yōu)的預(yù)測蝌衔;最優(yōu)模型的選取由算法實(shí)現(xiàn)。這樣蝌蹂,統(tǒng)計(jì)學(xué)習(xí)方法包括模型的假設(shè)空間噩斟、模型選擇的準(zhǔn)則以及模型學(xué)習(xí)的算法,稱其為統(tǒng)計(jì)學(xué)習(xí)方法的三要素孤个,簡稱為模型(model)剃允、策略(strategy)和算法(algorithm)。
獨(dú)立同分布:在概率統(tǒng)計(jì)理論中齐鲤,指隨機(jī)過程中斥废,任何時刻的取值都為隨機(jī)變量,如果這些隨機(jī)變量服從同一分布给郊,并且互相獨(dú)立牡肉,那么這些隨機(jī)變量是獨(dú)立同分布。
- 現(xiàn)實(shí)中的數(shù)據(jù)不但規(guī)模大淆九,而且
常常具有不確定性
统锤,統(tǒng)計(jì)學(xué)習(xí)往往是處理這類數(shù)據(jù)最強(qiáng)有力的工具。
監(jiān)督學(xué)習(xí)
- 在監(jiān)督學(xué)習(xí)中炭庙,將輸入與輸出所有可能取值的集合分別稱為輸入空間(input space)與輸出空間(output space)饲窿。輸入與輸出空間可以是有限元素的集合,也可以是整個歐氏空間煤搜。輸入空間與輸出空間可以是同一個空間免绿,也可以是不同的空間;但
通常輸出空間遠(yuǎn)遠(yuǎn)小于輸入空間
擦盾。
- 每個具體的輸入是一個實(shí)例(instance)嘲驾,通常由
特征向量
(feature vector)表示淌哟。這時,所有特征向量存在的空間稱為特征空間
(feature space)辽故。特征空間的每一維對應(yīng)于一個特征徒仓。有時輸入空間與特征空間為相同的空間,對它們不予區(qū)分誊垢;有時輸入空間與特征空間為不同的空間掉弛,將實(shí)例從輸入空間映射到特征空間。模型實(shí)際上都是定義在特征空間上的喂走。
- 人們根據(jù)輸入殃饿、輸出變量的不同類型,對預(yù)測任務(wù)給予不同的名稱:輸入變量與輸出變量均為連續(xù)變量的預(yù)測問題稱為回歸問題芋肠;輸出變量為有限個離散變量的預(yù)測問題稱為分類問題乎芳;輸入變量與輸出變量均為變量序列的預(yù)測問題稱為標(biāo)注問題。
- 監(jiān)督學(xué)習(xí)
假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y)帖池。
- 監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型奈惑,由條件概率分布 或決策函數(shù)(decision function) 表示,隨具體學(xué)習(xí)方法而定睡汹。
統(tǒng)計(jì)學(xué)習(xí)三要素
- 在監(jiān)督學(xué)習(xí)過程中肴甸,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)。模型的假設(shè)空間(hypothesis space)包含所有可能的條件概率分布或決策函數(shù)囚巴。
- 統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)在于從假設(shè)空間中選取最優(yōu)模型原在。
- 損失函數(shù)度量模型一次預(yù)測的好壞,風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測的好壞文兢。
- 損失函數(shù)是f(X)和Y的非負(fù)實(shí)值函數(shù)士败,記作 淌喻。
常用損失函數(shù):
0-1 損失函數(shù)
平方損失函數(shù)
絕對損失函數(shù)
對數(shù)損失函數(shù)或?qū)?shù)似然損失函數(shù)
- 損失函數(shù)值越小唠帝,模型就越好膏蚓。由于模型的輸入、輸出(X,Y)是隨機(jī)變量兼呵,遵循聯(lián)合分布 兔辅,所以損失函數(shù)的期望是:
這是理論上模型 關(guān)于聯(lián)合分布 的平均意義下的損失,稱為風(fēng)險(xiǎn)函數(shù)
(risk function)或期望損失
(expected loss)击喂。
- 給定訓(xùn)練數(shù)據(jù)集 维苔,模型 關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為
經(jīng)驗(yàn)風(fēng)險(xiǎn)
(empirical risk)或經(jīng)驗(yàn)損失
(empirical loss),記作 :
- 期望風(fēng)險(xiǎn) 是模型關(guān)于聯(lián)合分布的
期望損失
懂昂,經(jīng)驗(yàn)風(fēng)險(xiǎn) 是模型關(guān)于訓(xùn)練樣本集的平均損失
介时。
- 根據(jù)大數(shù)定律,當(dāng)樣本容量N趨于無窮時,經(jīng)驗(yàn)風(fēng)險(xiǎn) 趨于期望風(fēng)險(xiǎn) 沸柔。所以一個很自然的想法是
用經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)期望風(fēng)險(xiǎn)
循衰。但是,由于現(xiàn)實(shí)中訓(xùn)練樣本數(shù)目有限褐澎,甚至很小会钝,所以用經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)期望風(fēng)險(xiǎn)常常并不理想,要對經(jīng)驗(yàn)風(fēng)險(xiǎn)進(jìn)行一定的矯正工三。這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個基本策略:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化和結(jié)構(gòu)風(fēng)險(xiǎn)最小化迁酸。
- 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization,ERM)的策略認(rèn)為俭正,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型奸鬓。根據(jù)這一策略,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求最優(yōu)模型就是求解最優(yōu)化問題:
其中段审, 是假設(shè)空間全蝶。
- 當(dāng)模型是條件概率分布闹蒜,損失函數(shù)是對數(shù)損失函數(shù)時寺枉,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價于
極大似然估計(jì)
。
- 結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization绷落,SRM)是為了防止過擬合而提出來的策略姥闪。結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價于正則化(regularization)。
結(jié)構(gòu)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng)(regularizer)或罰項(xiàng)(penalty term)砌烁。
- 在假設(shè)空間筐喳、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下,結(jié)構(gòu)風(fēng)險(xiǎn)的定義是:
其中 為模型的復(fù)雜度函喉,是定義在假設(shè)空間上的泛函避归。模型 越復(fù)雜,復(fù)雜度 就越大管呵;反之梳毙,模型 越簡單,復(fù)雜度 就越小捐下。也就是說账锹,復(fù)雜度表示了對復(fù)雜模型的懲罰
。 是系數(shù)坷襟,用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度奸柬。結(jié)構(gòu)風(fēng)險(xiǎn)小需要經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同時小。結(jié)構(gòu)風(fēng)險(xiǎn)小的模型往往對訓(xùn)練數(shù)據(jù)以及未知的測試數(shù)據(jù)都有較好的預(yù)測婴程。
- 結(jié)構(gòu)風(fēng)險(xiǎn)最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型廓奕。所以求最優(yōu)模型,就是求解最優(yōu)化問題:
模型評估與模型選擇
- 假設(shè)學(xué)習(xí)到的模型是 ,訓(xùn)練誤差是模型關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失:
測試誤差是模型關(guān)于測試數(shù)據(jù)集的平均損失:
其中桌粉,其中 是訓(xùn)練樣本容量授段, 是測試樣本容量。
-
訓(xùn)練誤差
的大小番甩,對判斷給定的問題是不是一個容易學(xué)習(xí)的問題是有意義的侵贵,但本質(zhì)上不重要。測試誤差
反映了學(xué)習(xí)方法對未知的測試數(shù)據(jù)集的預(yù)測能力缘薛,是學(xué)習(xí)中的重要概念窍育。
- 通常將學(xué)習(xí)方法對未知數(shù)據(jù)的預(yù)測能力稱為
泛化能力
(generalization ability)。
-
如果一味追求提高對訓(xùn)練數(shù)據(jù)的預(yù)測能力宴胧,所選模型的復(fù)雜度則往往會比真模型更高漱抓。這種現(xiàn)象稱為過擬合(over-fitting)。
過擬合是指學(xué)習(xí)時選擇的模型所包含的參數(shù)過多
恕齐,以致于出現(xiàn)這一模型對已知數(shù)據(jù)預(yù)測得很好乞娄,但對未知數(shù)據(jù)預(yù)測得很差的現(xiàn)象∠云纾可以說模型選擇旨在避免過擬合并提高模型的預(yù)測能力仪或。
-
模型選擇的典型方法是正則化(regularization)。
正則化
是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn)士骤,是在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個正則化項(xiàng)(regularizer)或罰項(xiàng)(penalty term)范删。正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜拷肌,正則化值就越大到旦。正則化一般具有如下形式:
例如,回歸問題中巨缘,損失函數(shù)是平方損失添忘,正則化項(xiàng)可以是參數(shù)向量的L2范數(shù):
其中, 表示向量 的 L2 范數(shù)若锁。
- 正則化符合
奧卡姆剃刀(Occam's razor)原理
搁骑。奧卡姆剃刀原理應(yīng)用于模型選擇時變?yōu)橐韵孪敕ǎ涸谒锌赡苓x擇的模型中,能夠很好地解釋已知數(shù)據(jù)并且十分簡單才是最好的模型拴清,也就是應(yīng)該選擇的模型靶病。從貝葉斯估計(jì)的角度來看,正則化項(xiàng)對應(yīng)于模型的先驗(yàn)概率口予÷χ埽可以假設(shè)復(fù)雜的模型有較小的先驗(yàn)概率,簡單的模型有較大的先驗(yàn)概率沪停。
-
另一種常用的模型選擇方法是交叉驗(yàn)證(cross validation)煤辨。
-
簡單交叉驗(yàn)證
方法如下:首先隨機(jī)地將已給數(shù)據(jù)分為兩部分裳涛,一部分作為訓(xùn)練集,另一部分作為測試集(例如众辨,70%的數(shù)據(jù)為訓(xùn)練集端三,30%的數(shù)據(jù)為測試集);然后用訓(xùn)練集在各種條件下(例如鹃彻,不同的參數(shù)個數(shù))訓(xùn)練模型郊闯,從而得到不同的模型;在測試集上評價各個模型的測試誤差蛛株,選出測試誤差最小的模型团赁。
-
S折交叉驗(yàn)證
(S-fold cross validation)方法如下:首先隨機(jī)地將已給數(shù)據(jù)切分為S個互不相交的大小相同的子集;然后利用S-1個子集的數(shù)據(jù)訓(xùn)練模型谨履,利用余下的子集測試模型欢摄;將這一過程對可能的S種選擇重復(fù)進(jìn)行;最后選出S次評測中平均測試誤差最小的模型笋粟。
-
留一交叉驗(yàn)證
(leave-one-out cross validation)是S折交叉驗(yàn)證的特殊情形怀挠,即 S=N。往往在數(shù)據(jù)缺乏的情況下使用害捕。
泛化能力
- 泛化誤差反映了學(xué)習(xí)方法的泛化能力绿淋,如果一種方法學(xué)習(xí)的模型比另一種方法學(xué)習(xí)的模型具有更小的泛化誤差,那么這種方法就更有效吨艇。事實(shí)上躬它,
泛化誤差就是所學(xué)習(xí)到的模型的期望風(fēng)險(xiǎn)
。
生成模型與判別模型
- 監(jiān)督學(xué)習(xí)方法又可以分為生成方法(generative approach)和判別方法(discriminative approach)东涡。所學(xué)到的模型分別稱為生成模型(generative model)和判別模型(discriminative model)。
- 生成方法由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布 倘待,然后求出條件概率分布 作為預(yù)測的模型疮跑。這樣的方法之所以稱為生成方法,是因?yàn)槟P捅硎玖私o定輸入X產(chǎn)生輸出Y的生成關(guān)系凸舵。典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型祖娘。
- 判別方法由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)f(X)或者條件概率分布P(Y|X)作為預(yù)測的模型,即判別模型啊奄。判別方法關(guān)心的是對給定的輸入X渐苏,應(yīng)該預(yù)測什么樣的輸出Y。典型的判別模型包括:k近鄰法菇夸、感知機(jī)琼富、決策樹、邏輯斯諦回歸模型庄新、最大熵模型鞠眉、支持向量機(jī)薯鼠、提升方法和條件隨機(jī)場等。
- 生成方法的特點(diǎn):生成方法可以還原出聯(lián)合概率分布 械蹋,而判別方法則不能出皇;生成方法的學(xué)習(xí)收斂速度更快,即當(dāng)樣本容量增加的時候哗戈,學(xué)到的模型可以更快地收斂于真實(shí)模型郊艘;當(dāng)存在隱變量時,仍可以用生成方法學(xué)習(xí)唯咬,此時判別方法就不能用暇仲。
- 判別方法的特點(diǎn):判別方法直接學(xué)習(xí)的是條件概率 或決策函數(shù) ,直接面對預(yù)測副渴,往往學(xué)習(xí)的準(zhǔn)確率更高奈附;由于直接學(xué)習(xí) 或 ,可以對數(shù)據(jù)進(jìn)行各種程度上的抽象煮剧、定義特征并使用特征斥滤,因此可以簡化學(xué)習(xí)問題。
分類問題
- 在監(jiān)督學(xué)習(xí)中勉盅,當(dāng)輸出變量Y取有限個離散值時佑颇,預(yù)測問題便成為分類問題。這時草娜,輸入變量X可以是離散的挑胸,也可以是連續(xù)的。
- 評價分類器性能的指標(biāo)一般是分類
準(zhǔn)確率
(accuracy)宰闰,其定義是:對于給定的測試數(shù)據(jù)集茬贵,分類器正確分類的樣本數(shù)與總樣本數(shù)之比。也就是損失函數(shù)是0-1損失時測試數(shù)據(jù)集上的準(zhǔn)確率移袍。
- 對于二類分類問題常用的評價指標(biāo)是
精確率
(precision)與召回率
(recall)解藻。通常以關(guān)注的類為正類,其他類為負(fù)類葡盗,分類器在測試數(shù)據(jù)集上的預(yù)測或正確或不正確螟左,4種情況出現(xiàn)的總數(shù)分別記作:
TP——將正類預(yù)測為正類數(shù);
FN——將正類預(yù)測為負(fù)類數(shù)觅够;
FP——將負(fù)類預(yù)測為正類數(shù)胶背;
TN——將負(fù)類預(yù)測為負(fù)類數(shù)。
精確率定義為:
召回率定義為:
其中喘先,精確率也稱查準(zhǔn)率钳吟,召回率也稱查全率。
-
值苹祟,是精確率和召回率的調(diào)和均值砸抛,即
精確率和召回率都高時评雌, 值也會高。
標(biāo)注問題
- 標(biāo)注(tagging)也是一個監(jiān)督學(xué)習(xí)問題直焙【岸可以認(rèn)為標(biāo)注問題是分類問題的一個推廣,標(biāo)注問題又是更復(fù)雜的結(jié)構(gòu)預(yù)測(structure prediction)問題的簡單形式奔誓。標(biāo)注問題的輸入是一個觀測序列斤吐,輸出是一個標(biāo)記序列或狀態(tài)序列。標(biāo)注問題的目標(biāo)在于學(xué)習(xí)一個模型厨喂,使它能夠?qū)τ^測序列給出標(biāo)記序列作為預(yù)測和措。注意,可能的標(biāo)記個數(shù)是有限的蜕煌,但其組合所成的標(biāo)記序列的個數(shù)是依序列長度呈指數(shù)級增長的派阱。
回歸問題
- 回歸用于預(yù)測輸入變量(自變量)和輸出變量(因變量)之間的關(guān)系,特別是當(dāng)輸入變量的值發(fā)生變化時斜纪,輸出變量的值隨之發(fā)生的變化贫母。回歸模型正是表示從輸入變量到輸出變量之間映射的函數(shù)盒刚∠倭樱回歸問題的學(xué)習(xí)等價于函數(shù)擬合:選擇一條函數(shù)曲線使其很好地?cái)M合已知數(shù)據(jù)且很好地預(yù)測未知數(shù)據(jù)。
- 回歸學(xué)習(xí)最常用的損失函數(shù)是平方損失函數(shù)因块,在此情況下橘原,回歸問題可以由著名的最小二乘法(least squares)求解。
最小二乘法擬合曲線
- 給定數(shù)據(jù) 涡上,擬合出函數(shù) 趾断,則有誤差(殘差) ,此時誤差平方和最小時吓懈, 與 的相似度最高歼冰。
- 一般 為 n 次多項(xiàng)式,即 耻警,最小二乘法就是找出一組 使誤差平方和最小,即
- 假設(shè)目標(biāo)函數(shù)為 甸怕,再加上一個正太分布的噪音干擾甘穿,下面將演示如何用多項(xiàng)式進(jìn)行擬合。
import numpy as np
import scipy as sp
from scipy.optimize import leastsq
import matplotlib.pyplot as plt
# 目標(biāo)函數(shù)
def target_function(x):
return np.sin(2*np.pi*x)
# 多項(xiàng)式函數(shù)
def fitting_function(parms, x):
# numpy.poly1d([1,2,3]) 生成 1x^2+2x^1+3
return np.poly1d(parms)(x)
# 誤差函數(shù)
def residuals_function(parms, x, y):
return fitting_function(parms, x) - y
# 誤差函數(shù)加入正則化
def residuals_function_with_regularization(parms, x, y):
res = fitting_function(parms, x) - y
regularizer = np.sqrt(0.5 * 0.001 * np.square(parms))
return np.append(res, regularizer)
# 擬合過程
def fitting(m=0, withr=False):
# m 為多項(xiàng)式的次方
# 生成 x 點(diǎn)
x_0 = np.linspace(0, 1, 10)
x_1 = np.linspace(0, 1, 1000)
# 計(jì)算 y 值梢杭,并加入正態(tài)分布噪音
y_0 = [np.random.normal(0, 0.1) + yy for yy in target_function(x_0)]
# 初始化多項(xiàng)式參數(shù)
parms = np.random.rand(m+1)
# 最小二乘法計(jì)算擬合函數(shù)參數(shù)
if not withr:
parms_lsq = leastsq(residuals_function, parms, args=(x_0, y_0))
else:
parms_lsq = leastsq(residuals_function_with_regularization, parms, args=(x_0, y_0))
# 可視化
plt.plot(x_1, target_function(x_1), label='target')
plt.plot(x_1, fitting_function(parms_lsq[0], x_1), label='fitting')
plt.plot(x_0, y_0, 'bo', label='noise')
plt.legend()
當(dāng)參數(shù)等于 9 時温兼,多項(xiàng)式曲線通過了每個數(shù)據(jù)點(diǎn),但是造成了過擬合武契。因此需要引入正則化項(xiàng)(regularizer)募判,降低過擬合荡含。回歸問題中届垫,損失函數(shù)是平方損失释液,正則化可以是參數(shù)向量的 L2 范數(shù),也可以是 L1 范數(shù)。