hello界逛,大家好,昨天呢,我們認(rèn)真分享了有關(guān)tSNE的相關(guān)知識,文章在10X單細(xì)胞(10X空間轉(zhuǎn)錄組)降維分析之tSNE(算法基礎(chǔ)知識)颓遏,其中留了兩個(gè)小尾巴,今天我們來認(rèn)真解決一下滞时,第一個(gè)是KL散度叁幢,這個(gè)需要點(diǎn)數(shù)學(xué)知識,我們先來解決坪稽,第二個(gè)就是我們在用Seurat分析單細(xì)胞數(shù)據(jù)函數(shù)RunTSNE的參數(shù)tsne.method遥皂,這個(gè)參數(shù)有兩個(gè)選項(xiàng),一個(gè)就是默認(rèn)的Rtsne刽漂,另一個(gè)就是不怎么常用的FIt-SNE,那么對于FIt-SNE的認(rèn)識弟孟,我們也需要分享一下贝咙,下一篇安排。
首先來講KL散度
上篇文章我們知道拂募,在機(jī)器學(xué)習(xí)中一般用KL散度來衡量兩個(gè)概率分布之間的距離庭猩。那我們來詳細(xì)了解一下KL散度,這里面有很深的知識背景陈症,需要我們從最基礎(chǔ)的地方開始蔼水。
KL散度又稱相對熵,是兩個(gè)概率分布(probability distribution)間差異的非對稱性度量 [1] 录肯。在信息理論中趴腋,相對熵等價(jià)于兩個(gè)概率分布的信息熵(Shannon entropy)的差值(來源于百度百科)
那么了解KL散度,首先就知道知道什么是信息熵
確定性過程在數(shù)學(xué)里是司空見慣的現(xiàn)象。眾所周知优炬,一個(gè)函數(shù)的迭代過程是確定性的颁井,因?yàn)橄乱粋€(gè)迭代點(diǎn)完全由當(dāng)前已知的迭代點(diǎn)唯一地確定。譬如混沌學(xué)中著名的邏輯斯蒂模型 蠢护,當(dāng)等于0.1時(shí)的函數(shù)值必為0.36雅宾,而不會等于0.35或0.37。同樣葵硕,一個(gè)微分方程初值問題的解也是確定性的:解在任一時(shí)刻的值是唯一確定的一個(gè)數(shù)眉抬。然而,和確定性現(xiàn)象一樣, 隨機(jī)現(xiàn)象在自然界也是到處可見的懈凹。小孩子們喜歡猜硬幣正反面的游戲:將一枚五分錢的平整硬幣在桌上旋轉(zhuǎn)蜀变,然后猛地用手把它拍倒按住,猜猜是錢的正面朝上還是反面朝上蘸劈。即便旋轉(zhuǎn)過一百次都是正面朝上昏苏,第一百零一次旋轉(zhuǎn)后,硬幣正面朝上的或然率還是同一個(gè)概率值:威沫。這就是典型的隨機(jī)性贤惯,它意味著試驗(yàn)結(jié)果是不可確定的。如果歷史上英國鑄幣局(牛頓(1643-1727)曾在這里當(dāng)了幾十年的局長)把錢幣故意制成一個(gè)圓錐體陀螺形狀棒掠,那么無論怎樣旋轉(zhuǎn)孵构,待它最終停轉(zhuǎn)時(shí)總是站在那里,也就是說正面總是朝上烟很,這就是一個(gè)確定性的例子——旋轉(zhuǎn)結(jié)果是可以預(yù)測的颈墅。人們認(rèn)識到隨機(jī)性的歷史也許比數(shù)學(xué)史本身還要長,甚至可能就等于人類自己的歷史——畢竟雾袱,孕婦肚子里懷的是兒子還是女兒恤筛,本身就是一個(gè)不可預(yù)測的隨機(jī)事件問題。不確定性作為自然的基本屬性芹橡,應(yīng)該怎樣用數(shù)學(xué)的語言去刻畫呢毒坛?“熵”就是關(guān)于不確定性的一個(gè)極好的數(shù)學(xué)描述。歷史上的熵概念起源于熱力學(xué)林说。凡是學(xué)過熱力學(xué)煎殷、統(tǒng)計(jì)物理或物理化學(xué)的人對“熵”這一術(shù)語都不陌生,但是這一概念發(fā)展的初始階段卻跟混沌思想并無任何歷史瓜葛腿箩。實(shí)際上豪直,當(dāng)熵的名詞誕生之時(shí),混沌之祖龐加萊(Henri Poincare, 1854-1912)還只是一個(gè)乳臭未干的少年珠移。當(dāng)熵的觸角從宏觀的熱力學(xué)伸展到微觀的統(tǒng)計(jì)力學(xué)之后弓乙,才逐漸拉近它和混沌概念的距離末融。二十世紀(jì)中葉的一場信息論革命,無意中在古典熵的舊作坊內(nèi)又釀造出醇香的新酒(寫的很文藝吧唆貌,希望大家給個(gè)贊)滑潘。
信息熵
信息熵對需要交流的人類而言,通訊猶如吃飯睡覺一樣重要锨咙。就像人類不斷探索水稻增產(chǎn)一樣语卤,不斷改進(jìn)通訊質(zhì)量與速度的科學(xué)研究一直是全世界方興未艾的事業(yè)。1948年酪刀,博士畢業(yè)后就在貝爾實(shí)驗(yàn)室里研究通訊技術(shù)的電子工程師克勞德 ? 香農(nóng)(Claude Shannon, 1916-2001)在《貝爾系統(tǒng)技術(shù)雜志》(Bell System Technology Journal)上分兩期發(fā)表了他一生中也許是最有名的一篇論文:《通訊的數(shù)學(xué)理論》(A mathematical theory of communications,1948)粹舵,引入了一條全新的思路,震撼了整個(gè)科學(xué)技術(shù)界骂倘,開啟了現(xiàn)代信息論研究的先河眼滤。在這一偉大的貢獻(xiàn)中,他引進(jìn)的“信息熵”之一般概念舉足輕重:它在數(shù)學(xué)上量化了通訊過程中“信息漏失”的統(tǒng)計(jì)本質(zhì)历涝,具有劃時(shí)代的意義诅需。
克勞德 ? 香農(nóng)(Claude Shannon, 1916-2001),這個(gè)家伙居然活了85歲荧库,2001年才去世堰塌,人才啊。
香農(nóng)的信息熵本質(zhì)上是對我們司空見慣的“不確定現(xiàn)象”的數(shù)學(xué)化度量分衫。譬如說场刑,如果天氣預(yù)報(bào)說“今天中午下雨的可能性是百分之九十”,我們就會不約而同想到出門帶傘蚪战;如果預(yù)報(bào)說“有百分之五十的可能性下雨”牵现,我們就會猶豫是否帶傘,因?yàn)橛陚銦o用時(shí)確是累贅之物邀桑。顯然瞎疼,第一則天氣預(yù)報(bào)中,下雨這件事的不確定性程度較小壁畸,而第二則關(guān)于下雨的不確定度就大多了贼急。
對于一般的不確定事件,我們怎樣數(shù)學(xué)地刻畫它的不確定程度呢瓤摧?設(shè)想有n個(gè)“基本事件”,各自出現(xiàn)的概率分別為玉吁,則它們構(gòu)成一個(gè)樣本空間照弥,可以簡記為所謂的“概率數(shù)組” 。樣本空間最簡單的例子是我們上面提到的拋硬幣游戲进副,它只有兩個(gè)基本事件:拋硬幣結(jié)果是“正面朝上”或“反面朝上”这揣,其中每個(gè)事件的概率均為 悔常,其對應(yīng)的樣本空間為 。如果鑄幣廠別出心裁地將硬幣做成兩面不對稱给赞,使得拋硬幣時(shí)正面朝上的概率增加到机打,而反面朝上的概率減少到,則對應(yīng)的樣本空間就是 片迅。如果我們用符號 來表示第一個(gè)樣本空間的不確定度残邀,用數(shù) 代表第二個(gè)樣本空間的不確定度,那么直覺馬上告訴我們:數(shù) 大于數(shù) 柑蛇,也就是前者比后者更加不確定(不確定性越高芥挣,值越大)。
更一般地耻台,若用 記樣本空間 所對應(yīng)的不確定度空免,運(yùn)用同樣的直覺分析,我們相信當(dāng)所有的基本事件機(jī)會均等盆耽,即都有同樣的概率時(shí)蹋砚,其不確定度最大。因而摄杂,不確定度函數(shù)應(yīng)該滿足如下的基本不等式:對所有的加起來等于的非負(fù)“概率數(shù)” 坝咐,
。
如果我們不拋硬幣匙姜,而像澳門賭場的吵┫幔客那樣擲骰子,每擲一次氮昧,小立方骰子的每一個(gè)面朝上的概率均為框杜。想一想就知道,某個(gè)指定面朝上的不確定度應(yīng)大于玩硬幣時(shí)正面或反面朝上的不確定度袖肥。將這個(gè)直觀發(fā)現(xiàn)一般化咪辱,我們就有不確定度函數(shù) 應(yīng)該滿足的單調(diào)性要求:
是自然數(shù) 的嚴(yán)格遞增函數(shù)。
假設(shè)物理系趙教授椎组、數(shù)學(xué)系錢教授和孫教授競爭理學(xué)院的一筆科研基金油狂,他們每人申請成功的概率分別為专筷。院長為求公平,讓每個(gè)系得此獎勵的機(jī)會均等蒸苇。若物理系拿到資助磷蛹,就到了趙教授的名下。如數(shù)學(xué)系得到了它溪烤,錢教授有的概率拿到味咳,孫教授則有的機(jī)會到手庇勃。通過分析“條件概率”,我們能得出不確定度 的數(shù)值:這三個(gè)教授獲得基金的不確定度槽驶,等于物理系或數(shù)學(xué)系拿到這筆基金的不確定度责嚷,加上數(shù)學(xué)系贏得該基金的概率與在數(shù)學(xué)系拿到基金的條件之下,錢教授或?qū)O教授得到它的不確定度之乘積掂铐。換言之罕拂,。推而廣之堡纬,可以得出不確定度與條件概率有關(guān)的“加權(quán)和”性質(zhì): (3) 如果一個(gè)不確定事件分解成幾個(gè)持續(xù)事件聂受,則原先事件的不確定度等于持續(xù)事件不確定度的加權(quán)和。
既然我們想用一個(gè)漂亮的數(shù)學(xué)公式來表達(dá)不確定度這一樣本空間概率值函數(shù)烤镐,我們自然希望這個(gè)函數(shù)表達(dá)式和幾乎所有的物理公式一樣連續(xù)依賴于公式中的所有變元蛋济。這樣,第四個(gè)條件就自然而然地加在了不確定度函數(shù)的頭上:
(4) 對固定的自然數(shù)炮叶,不確定度函數(shù) 是 的一個(gè)連續(xù)函數(shù)碗旅。
香農(nóng)無需什么高深的數(shù)學(xué),甚至連微積分都可不要镜悉,就證明了:任何在所有樣本空間上都有定義的函數(shù)祟辟,只要它滿足以上的“三項(xiàng)基本原則 ”,就非如下的表達(dá)式莫屬:侣肄,其中符號 代表以 為底的自然對數(shù)函數(shù)旧困,可以是任意一個(gè)常數(shù)。并可證明稼锅,條件(1)自動滿足(有興趣的讀者可用初等微積分證之)吼具。當(dāng)然,熵公式的證明需要的是一種創(chuàng)造的頭腦思維矩距、一手精湛的代數(shù)技巧拗盒、一個(gè)巧妙的極限思想。如果取成玻爾茲曼常數(shù)锥债,它就能和當(dāng)年吉布斯在統(tǒng)計(jì)熱力學(xué)中得到的“吉布斯熵”一模一樣陡蝇。香農(nóng)取 ,如此得到了非負(fù)函數(shù):哮肚, 按照馮 ? 諾依曼的建議登夫,該函數(shù)被定義為樣本空間 所對應(yīng)的信息熵。現(xiàn)在允趟,這個(gè)數(shù)被廣稱為“香農(nóng)熵”恼策,以紀(jì)念它的創(chuàng)造者、信息論之父——香農(nóng)拼窥。
現(xiàn)在我們知道了戏蔑,其實(shí)信息熵就是用來衡量我們得到信息的混亂度,我們作為外行鲁纠,基本的特性需要知道总棵,但是詳細(xì)的算法非我所及啊,簡單看一下
熵:
我們知道:當(dāng)一個(gè)事件發(fā)生的概率為 改含,那么它的信息量是 情龄。
那么如果我們把這個(gè)事件的所有可能性羅列出來,就可以求得該事件信息量的期望捍壤,信息量的期望就是熵骤视,所以熵的公式為:
假設(shè) 事件共有種可能,發(fā)生的概率為鹃觉,那么該事件的熵為:
然而有一類比較特殊的問題专酗,比如投擲硬幣只有兩種可能,字朝上或花朝上盗扇。買彩票只有兩種可能祷肯,中獎或不中獎。我們稱之為0-1分布問題(二項(xiàng)分布的特例)疗隶,對于這類問題佑笋,熵的計(jì)算方法可以簡化為如下算式:
相對熵(KL散度):
接下來就是KL散度了
上面說過了,講的是兩個(gè)信息熵的差值斑鼻,如果我們對于同一個(gè)隨機(jī)變量 有兩個(gè)單獨(dú)的概率分布 和 蒋纬,我們可以使用 KL 散度(Kullback-Leibler (KL) divergence)來衡量這兩個(gè)分布的差異。
在機(jī)器學(xué)習(xí)中坚弱,往往用來表示樣本的真實(shí)分布蜀备,用來表示模型所預(yù)測的分布,那么KL散度就可以計(jì)算兩個(gè)分布的差異史汗,也就是Loss損失值琼掠。
從KL散度公式中可以看到的分布越接近(分布越擬合),那么散度值越小停撞,即損失值越小瓷蛙。
因?yàn)閷?shù)函數(shù)是凸函數(shù),所以KL散度的值為非負(fù)數(shù)戈毒。
有時(shí)會將KL散度稱為KL距離艰猬,但它并不滿足距離的性質(zhì):
- KL散度不是對稱的;
- KL散度不滿足三角不等式埋市。
用在我們單細(xì)胞tSNE降維這里冠桃,就是上篇文章說到的情況了。
生活很好道宅,有你更好