Author: Pan
Date:????2020/7/21
"A complete pattern-classification problem cast in a hight-dimension space nonlinearly is more likely to be linearly separable than in a low-dimension space."? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?????????????????????????????????????????????????--Cover's Theorem
1.核的定義與性質(zhì)挟伙,從異或問題談起咳焚。
在解釋上面這段話之前入问,我們需要先討論一個(gè)二維的異或問題双仍。
????在Fig.1 中,有兩類的點(diǎn),第一類是X形點(diǎn),還有一類是圓形的點(diǎn)。我們要做的事情是用一條直線將圖中的已知點(diǎn)分開(注意乓搬,只能用一條直線,將圖中平面切成兩半代虾,每一半的空間里只有一種類別,要么X,要么O)进肯。想象自己是象棋棋盤上的車,想要憑借一己之力將它們劃分個(gè)“楚河漢界”....這貌似是在開我玩笑,圖中這些有顏色的線沒有一條完成它們的使命棉磨,其實(shí)任何一條這個(gè)平面內(nèi)的直線都做不到江掩。
? ? 那么怎么辦呢? 炮帶著車從棋盤上飛了起來,那一刻乘瓤,車淚流滿面环形,他看見了新世界Fig.2。也就是一開始的那一段話衙傀,高維是比低維更容易線性可分的抬吟。要是所有問題都能這樣映射到高維就好了。
????這想法好到讓人感動(dòng)到想哭统抬,好到不真實(shí)火本,好到令我困惑第三個(gè)維度是怎么出現(xiàn)在我的生命中的。聪建。钙畔。
我們并不懂這樣一個(gè)從低維到高維的映射是如何發(fā)生的:
? ??????????????????????????
當(dāng)然金麸,我們可以選擇找,像神經(jīng)網(wǎng)絡(luò)一樣去找,即便假設(shè)空間大到讓模型哭泣擎析,經(jīng)常需要解決過擬合的問題,但神經(jīng)網(wǎng)絡(luò)本身也是個(gè)神跡钱骂。令人遺憾的是,今天我是個(gè)懶人,我能否在不通過這個(gè)的情況下叔锐,顯式的在低維里完成隱式的高維里的線性分類過程挪鹏?
? ? 首先见秽,我們既然不想知道這個(gè)映射到底是什么,那么我們需要知道什么讨盒,才能讓我們洞見高維分類的過程解取?
? ? 我們知道,在Fig.2中返顺,是那個(gè)(超)平面讓我們將兩類分開禀苦,那么本質(zhì)上是什么左右了我們的分類結(jié)果蔓肯?其實(shí)是超平面與點(diǎn)的內(nèi)積將其映射成一個(gè)數(shù),那個(gè)數(shù)的符號(hào)決定了類別振乏。
? ??Oh,內(nèi)積蔗包!
? ? 好的,也許我只需要知道內(nèi)積的結(jié)果就夠了慧邮。
? ? 所以定義我們的核來作為我們內(nèi)積的結(jié)果:
? ??
? ? 這個(gè)核可以看作高維內(nèi)積。
? ? 我們的目的是將特征空間上的點(diǎn)(原來空間中的點(diǎn))映射到再生核希爾伯特空間(reproducing kernel Hilbert space误澳;RKHS)(函數(shù)空間)
定理0:是個(gè)對(duì)稱正定核耻矮;是個(gè)高維空間;則存在唯一的希爾伯特空間忆谓;存在使得;
? ? 我們知道無窮維希爾伯特空間是有限維歐式空間的拓展裆装,有限維歐式空間是它的一個(gè)特例。
? ? 今天我們手上有個(gè)線性空間(向量空間)倡缠,我們知道基哨免,我們可以線性相加減,可以數(shù)乘昙沦,可以定位到空間里的每個(gè)點(diǎn)铁瞒。
? ? 我們想知道距離這樣的概念怎么辦呢,我們可以在其上定義范數(shù)桅滋,于是我們就有了賦范線性空間空間慧耍。(假如我們?cè)谶@里定義完備性,即空間里的柯西列都是收斂到該空間中的某個(gè)量,見Fig.3丐谋,我們將得到巴納赫空間芍碧。)我們想知道向量之間的角度怎么辦呢,我們可以在其上定義內(nèi)積号俐,于是我們就有了內(nèi)積空間泌豆。我們想在有限維數(shù)的空間中定義完備性,就可以得到有限維歐式空間吏饿。假如我們想在無限維空間中定義完備性踪危,我們就可以得到希爾伯特空間。
? ? 為什么要無窮維呢猪落?那是因?yàn)橹笥锌赡苡成涞綗o窮維贞远,比如高斯核(泰勒展開后無窮維),所以我們希望能映射到這上面來探索下內(nèi)積笨忌。
2. 核的性質(zhì)
? ? 既然我們想要探索內(nèi)積蓝仲,那么我們就需要定義什么樣的條件下,我們的操作可以叫做內(nèi)積:
? ? 1. 對(duì)稱性:
? ??????????????????????
? ? 2. 線性:?
? ?????
? ? 3. 正定性:
? ??????
直覺上,對(duì)稱性和線性再正常不過袱结,那為什么要滿足一個(gè)正定性亮隙?
那么我們想想這個(gè)東西,他是我們判定一個(gè)矩陣是否正定的條件;假如; 這個(gè)其實(shí)就是我們平時(shí)的向量點(diǎn)積垢夹。那么溢吻,假如K是個(gè)半正定矩陣,即果元,這究竟與平時(shí)我們理解的點(diǎn)積有什么淵源呢煤裙?由于K是個(gè)半正定矩陣,我們又都是在實(shí)空間內(nèi)討論的噪漾,所以K一定是個(gè)實(shí)對(duì)稱矩陣硼砰,對(duì)于任意實(shí)對(duì)稱矩陣,我們都能進(jìn)行特征分解欣硼,將矩陣分解成一個(gè)特征向量組成的正交矩陣的轉(zhuǎn)置题翰,一個(gè)對(duì)角線上全是特征值的對(duì)角矩陣,以及特征向量組成的正交矩陣诈胜。
即:,我們將這個(gè)式子代入上面那個(gè)式子豹障,可以得到:
我們知道正交變換具有保范性,經(jīng)過正交變換后的向量具有相同的距離焦匈,且兩個(gè)向量經(jīng)過同一個(gè)正交變換后具有相同的角度血公。也就是原向量經(jīng)過正交變換后其實(shí)只是將坐標(biāo)基旋轉(zhuǎn)了一下,而則是將向量在各個(gè)維度上進(jìn)行特征值倍數(shù)的拉伸缓熟。所以本質(zhì)上是經(jīng)過矩陣變換后的內(nèi)積形式累魔。由于平時(shí)自己和自己做點(diǎn)積都必須大于0,這也可想而知够滑,為什么我們需要正定性垦写。
????其實(shí)我們這里說的正定性并不代表矩陣是正定的,而是對(duì)應(yīng)于正定核的概念彰触,當(dāng)矩陣是半正定時(shí)梯投,對(duì)應(yīng)的K核是正定核。
? ? 由此况毅,我們的核具有了對(duì)稱性分蓖,線性,以及正定性尔许。
3. 核與距離度量
既然我們引出了核正定的概念么鹤,我們繼續(xù)定義一個(gè)條件正定性,這個(gè)條件正定性母债,是之后一些證明的基礎(chǔ)午磁。
我們定義核的條件正定性:
定義核的條件正定性是為了引出一個(gè)定理:
定理1:如果K是條件正定核,-K是負(fù)定的毡们。
為什么要關(guān)心負(fù)定這樣的性質(zhì)呢迅皇?
實(shí)際上這與我們的距離度量有關(guān),令衙熔;
從結(jié)果上來說登颓,當(dāng)K條件正定時(shí),-K是負(fù)定的红氯,那么我們的距離度量的矩陣是半負(fù)定的(2是常數(shù)不影響正負(fù)判定框咙,距離的核是負(fù)定核)。這也說明痢甘,內(nèi)積是可以誘導(dǎo)出距離度量的喇嘱。
上面的只是一個(gè)引導(dǎo)性的例子,那么我們?nèi)绾卧诙攘亢伺c再生核之間建立關(guān)系呢塞栅?
定理2:令是非空集合,且令是個(gè)對(duì)稱核者铜。
當(dāng)且僅當(dāng)為負(fù)定核時(shí),為正定核放椰。
也許你會(huì)很困惑定理2中間那個(gè)式子作烟,但是假如我給出
這個(gè)余弦定理的式子是不是很熟悉,而實(shí)際上余弦定理中的是向量如蚜,基于零點(diǎn)做的余弦定理压恒,沒有最后一項(xiàng),相當(dāng)于零點(diǎn)是這個(gè)余弦定理的見證人错邦,而上面那個(gè)式子中這個(gè)見證人換成了點(diǎn)涎显。
下面我們將對(duì)定理2進(jìn)行證明。
證明:
必要性:即K為正定核時(shí)兴猩,D為負(fù)定核期吓。
當(dāng)K為正定核時(shí),那么K也一定條件正定倾芝。
所以設(shè)讨勤;
所以;由定理1可知晨另,K條件正定時(shí)潭千,-K負(fù)定。所以D為負(fù)定核
充分性:即D為負(fù)定核時(shí)借尿,K為正定核刨晴。
D為負(fù)定核屉来,則D一定條件負(fù)定。
引入;所以狈癞;
將a0代入:
合并同類項(xiàng)后可得:
因?yàn)镈負(fù)定茄靠,即?所以
K為正定核。
證畢蝶桶。
這個(gè)定理使得我們能在度量與內(nèi)積之間建立關(guān)系慨绳,為什么距離這么重要呢,那是因?yàn)槿蘸笤賁VM的應(yīng)用中真竖,我們需要得到點(diǎn)到超平面的距離來作為其合頁損失函數(shù)的組成部分脐雪。本質(zhì)上來說這里解釋了用核來描述距離來作為損失函數(shù)可能性。
在PART2中恢共,我們即將開始打造自己的核战秋,包括有限維的多項(xiàng)式核,無窮維的高斯核等等讨韭。