10X單細(xì)胞(10X空間轉(zhuǎn)錄組)基礎(chǔ)算法之KL散度

hello界逛,大家好,昨天呢,我們認(rèn)真分享了有關(guān)tSNE的相關(guān)知識,文章在10X單細(xì)胞(10X空間轉(zhuǎn)錄組)降維分析之tSNE(算法基礎(chǔ)知識)颓遏,其中留了兩個(gè)小尾巴,今天我們來認(rèn)真解決一下滞时,第一個(gè)是KL散度叁幢,這個(gè)需要點(diǎn)數(shù)學(xué)知識,我們先來解決坪稽,第二個(gè)就是我們在用Seurat分析單細(xì)胞數(shù)據(jù)函數(shù)RunTSNE的參數(shù)tsne.method遥皂,這個(gè)參數(shù)有兩個(gè)選項(xiàng),一個(gè)就是默認(rèn)的Rtsne刽漂,另一個(gè)就是不怎么常用的FIt-SNE,那么對于FIt-SNE的認(rèn)識弟孟,我們也需要分享一下贝咙,下一篇安排。

首先來講KL散度

上篇文章我們知道拂募,在機(jī)器學(xué)習(xí)中一般用KL散度來衡量兩個(gè)概率分布之間的距離庭猩。那我們來詳細(xì)了解一下KL散度,這里面有很深的知識背景陈症,需要我們從最基礎(chǔ)的地方開始蔼水。

KL散度又稱相對熵,是兩個(gè)概率分布(probability distribution)間差異的非對稱性度量 [1] 录肯。在信息理論中趴腋,相對熵等價(jià)于兩個(gè)概率分布的信息熵(Shannon entropy)的差值(來源于百度百科)

那么了解KL散度,首先就知道知道什么是信息熵

確定性過程在數(shù)學(xué)里是司空見慣的現(xiàn)象。眾所周知优炬,一個(gè)函數(shù)的迭代過程是確定性的颁井,因?yàn)橄乱粋€(gè)迭代點(diǎn)完全由當(dāng)前已知的迭代點(diǎn)唯一地確定。譬如混沌學(xué)中著名的邏輯斯蒂模型f(x) = 4x(1-x) 蠢护,當(dāng)x等于0.1時(shí)的函數(shù)值必為0.36雅宾,而不會等于0.35或0.37。同樣葵硕,一個(gè)微分方程初值問題的解也是確定性的:解在任一時(shí)刻的值是唯一確定的一個(gè)數(shù)眉抬。然而,和確定性現(xiàn)象一樣, 隨機(jī)現(xiàn)象在自然界也是到處可見的懈凹。小孩子們喜歡猜硬幣正反面的游戲:將一枚五分錢的平整硬幣在桌上旋轉(zhuǎn)蜀变,然后猛地用手把它拍倒按住,猜猜是錢的正面朝上還是反面朝上蘸劈。即便旋轉(zhuǎn)過一百次都是正面朝上昏苏,第一百零一次旋轉(zhuǎn)后,硬幣正面朝上的或然率還是同一個(gè)概率值:1/2威沫。這就是典型的隨機(jī)性贤惯,它意味著試驗(yàn)結(jié)果是不可確定的。如果歷史上英國鑄幣局(牛頓(1643-1727)曾在這里當(dāng)了幾十年的局長)把錢幣故意制成一個(gè)圓錐體陀螺形狀棒掠,那么無論怎樣旋轉(zhuǎn)孵构,待它最終停轉(zhuǎn)時(shí)總是站在那里,也就是說正面總是朝上烟很,這就是一個(gè)確定性的例子——旋轉(zhuǎn)結(jié)果是可以預(yù)測的颈墅。人們認(rèn)識到隨機(jī)性的歷史也許比數(shù)學(xué)史本身還要長,甚至可能就等于人類自己的歷史——畢竟雾袱,孕婦肚子里懷的是兒子還是女兒恤筛,本身就是一個(gè)不可預(yù)測的隨機(jī)事件問題。不確定性作為自然的基本屬性芹橡,應(yīng)該怎樣用數(shù)學(xué)的語言去刻畫呢毒坛?“熵”就是關(guān)于不確定性的一個(gè)極好的數(shù)學(xué)描述。歷史上的熵概念起源于熱力學(xué)林说。凡是學(xué)過熱力學(xué)煎殷、統(tǒng)計(jì)物理或物理化學(xué)的人對“熵”這一術(shù)語都不陌生,但是這一概念發(fā)展的初始階段卻跟混沌思想并無任何歷史瓜葛腿箩。實(shí)際上豪直,當(dāng)熵的名詞誕生之時(shí),混沌之祖龐加萊(Henri Poincare, 1854-1912)還只是一個(gè)乳臭未干的少年珠移。當(dāng)熵的觸角從宏觀的熱力學(xué)伸展到微觀的統(tǒng)計(jì)力學(xué)之后弓乙,才逐漸拉近它和混沌概念的距離末融。二十世紀(jì)中葉的一場信息論革命,無意中在古典熵的舊作坊內(nèi)又釀造出醇香的新酒(寫的很文藝吧唆貌,希望大家給個(gè)贊)滑潘。

信息熵

信息熵對需要交流的人類而言,通訊猶如吃飯睡覺一樣重要锨咙。就像人類不斷探索水稻增產(chǎn)一樣语卤,不斷改進(jìn)通訊質(zhì)量與速度的科學(xué)研究一直是全世界方興未艾的事業(yè)。1948年酪刀,博士畢業(yè)后就在貝爾實(shí)驗(yàn)室里研究通訊技術(shù)的電子工程師克勞德 ? 香農(nóng)(Claude Shannon, 1916-2001)在《貝爾系統(tǒng)技術(shù)雜志》(Bell System Technology Journal)上分兩期發(fā)表了他一生中也許是最有名的一篇論文:《通訊的數(shù)學(xué)理論》(A mathematical theory of communications,1948)粹舵,引入了一條全新的思路,震撼了整個(gè)科學(xué)技術(shù)界骂倘,開啟了現(xiàn)代信息論研究的先河眼滤。在這一偉大的貢獻(xiàn)中,他引進(jìn)的“信息熵”之一般概念舉足輕重:它在數(shù)學(xué)上量化了通訊過程中“信息漏失”的統(tǒng)計(jì)本質(zhì)历涝,具有劃時(shí)代的意義诅需。

圖片.png

克勞德 ? 香農(nóng)(Claude Shannon, 1916-2001),這個(gè)家伙居然活了85歲荧库,2001年才去世堰塌,人才啊。

香農(nóng)的信息熵本質(zhì)上是對我們司空見慣的“不確定現(xiàn)象”的數(shù)學(xué)化度量分衫。譬如說场刑,如果天氣預(yù)報(bào)說“今天中午下雨的可能性是百分之九十”,我們就會不約而同想到出門帶傘蚪战;如果預(yù)報(bào)說“有百分之五十的可能性下雨”牵现,我們就會猶豫是否帶傘,因?yàn)橛陚銦o用時(shí)確是累贅之物邀桑。顯然瞎疼,第一則天氣預(yù)報(bào)中,下雨這件事的不確定性程度較小壁畸,而第二則關(guān)于下雨的不確定度就大多了贼急。

對于一般的不確定事件,我們怎樣數(shù)學(xué)地刻畫它的不確定程度呢瓤摧?設(shè)想有n個(gè)“基本事件”,各自出現(xiàn)的概率分別為p1, p2, …, pn玉吁,則它們構(gòu)成一個(gè)樣本空間照弥,可以簡記為所謂的“概率數(shù)組” (p1, p2, …, pn)。樣本空間最簡單的例子是我們上面提到的拋硬幣游戲进副,它只有兩個(gè)基本事件:拋硬幣結(jié)果是“正面朝上”或“反面朝上”这揣,其中每個(gè)事件的概率均為 1/2悔常,其對應(yīng)的樣本空間為 (1/2, 1/2)。如果鑄幣廠別出心裁地將硬幣做成兩面不對稱给赞,使得拋硬幣時(shí)正面朝上的概率增加到7/10机打,而反面朝上的概率減少到3/10,則對應(yīng)的樣本空間就是 (7/10, 3/10)片迅。如果我們用符號 H(1/2, 1/2) 來表示第一個(gè)樣本空間的不確定度残邀,用數(shù) H(7/10, 3/10)代表第二個(gè)樣本空間的不確定度,那么直覺馬上告訴我們:數(shù) H(1/2, 1/2) 大于數(shù) H(7/10, 3/10)柑蛇,也就是前者比后者更加不確定(不確定性越高芥挣,值越大)。

更一般地耻台,若用 H(p1, p2, …, pn) 記樣本空間 (p1, p2, …, pn) 所對應(yīng)的不確定度空免,運(yùn)用同樣的直覺分析,我們相信當(dāng)所有的基本事件機(jī)會均等盆耽,即都有同樣的概率1/n時(shí)蹋砚,其不確定度最大。因而摄杂,不確定度函數(shù)H應(yīng)該滿足如下的基本不等式:對所有的加起來等于1的非負(fù)“概率數(shù)” p1, p2, …, pn坝咐,
(1) H(p1, p2, …, pn) ≤ H(1/n, 1/n, …, 1/n)

如果我們不拋硬幣匙姜,而像澳門賭場的吵┫幔客那樣擲骰子,每擲一次氮昧,小立方骰子的每一個(gè)面朝上的概率均為1/6框杜。想一想就知道,某個(gè)指定面朝上的不確定度應(yīng)大于玩硬幣時(shí)正面或反面朝上的不確定度袖肥。將這個(gè)直觀發(fā)現(xiàn)一般化咪辱,我們就有不確定度函數(shù)H 應(yīng)該滿足的單調(diào)性要求:
(2) H(1/n, 1/n, …, 1/n)是自然數(shù) n的嚴(yán)格遞增函數(shù)。

假設(shè)物理系趙教授椎组、數(shù)學(xué)系錢教授和孫教授競爭理學(xué)院的一筆科研基金油狂,他們每人申請成功的概率分別為1/2、1/3寸癌、1/6专筷。院長為求公平,讓每個(gè)系得此獎勵的機(jī)會均等蒸苇。若物理系拿到資助磷蛹,就到了趙教授的名下。如數(shù)學(xué)系得到了它溪烤,錢教授有2/3的概率拿到味咳,孫教授則有1/3的機(jī)會到手庇勃。通過分析“條件概率”,我們能得出不確定度 H(1/2, 1/3, 1/6) 的數(shù)值:這三個(gè)教授獲得基金的不確定度槽驶,等于物理系或數(shù)學(xué)系拿到這筆基金的不確定度责嚷,加上數(shù)學(xué)系贏得該基金的概率與在數(shù)學(xué)系拿到基金的條件之下,錢教授或?qū)O教授得到它的不確定度之乘積掂铐。換言之罕拂,H(1/2, 1/3, 1/6) = H(1/2, 1/2) + ? H(2/3, 1/3)。推而廣之堡纬,可以得出不確定度與條件概率有關(guān)的“加權(quán)和”性質(zhì): (3) 如果一個(gè)不確定事件分解成幾個(gè)持續(xù)事件聂受,則原先事件的不確定度等于持續(xù)事件不確定度的加權(quán)和。

既然我們想用一個(gè)漂亮的數(shù)學(xué)公式來表達(dá)不確定度這一樣本空間概率值函數(shù)烤镐,我們自然希望這個(gè)函數(shù)表達(dá)式和幾乎所有的物理公式一樣連續(xù)依賴于公式中的所有變元蛋济。這樣,第四個(gè)條件就自然而然地加在了不確定度函數(shù)的頭上:
(4) 對固定的自然數(shù)n炮叶,不確定度函數(shù) H(p1, p2, …, pn) 的一個(gè)連續(xù)函數(shù)碗旅。

香農(nóng)無需什么高深的數(shù)學(xué),甚至連微積分都可不要镜悉,就證明了:任何在所有樣本空間上都有定義的函數(shù)H祟辟,只要它滿足以上的“三項(xiàng)基本原則 (2)(3)(4)”,就非如下的表達(dá)式莫屬:H(p1, p2, …, pn) = -C(p1 ln p1 + p2 ln p2 + … + pn ln pn)侣肄,其中符號ln 代表以 e 為底的自然對數(shù)函數(shù)旧困,C可以是任意一個(gè)常數(shù)。并可證明稼锅,條件(1)自動滿足(有興趣的讀者可用初等微積分證之)吼具。當(dāng)然,熵公式的證明需要的是一種創(chuàng)造的頭腦思維矩距、一手精湛的代數(shù)技巧拗盒、一個(gè)巧妙的極限思想。如果C取成玻爾茲曼常數(shù)锥债,它就能和當(dāng)年吉布斯在統(tǒng)計(jì)熱力學(xué)中得到的“吉布斯熵”一模一樣陡蝇。香農(nóng)取 C = 1,如此得到了非負(fù)函數(shù):H(p1, p2, …, pn) = -(p1 ln p1 + p2 ln p2 + … + pn ln pn)哮肚, (H)按照馮 ? 諾依曼的建議登夫,該函數(shù)被定義為樣本空間 (p1, p2, …, pn)所對應(yīng)的信息熵。現(xiàn)在允趟,這個(gè)數(shù)被廣稱為“香農(nóng)熵”恼策,以紀(jì)念它的創(chuàng)造者、信息論之父——香農(nóng)拼窥。

現(xiàn)在我們知道了戏蔑,其實(shí)信息熵就是用來衡量我們得到信息的混亂度,我們作為外行鲁纠,基本的特性需要知道总棵,但是詳細(xì)的算法非我所及啊,簡單看一下

熵:

我們知道:當(dāng)一個(gè)事件發(fā)生的概率為 p(x)改含,那么它的信息量是-log(p(x)) 情龄。
那么如果我們把這個(gè)事件的所有可能性羅列出來,就可以求得該事件信息量的期望捍壤,信息量的期望就是熵骤视,所以熵的公式為:
假設(shè) 事件X共有n種可能,發(fā)生x<sub>i<sub>的概率為p(x<sub>i<sub>)鹃觉,那么該事件的熵H(X)為:

圖片.png

然而有一類比較特殊的問題专酗,比如投擲硬幣只有兩種可能,字朝上或花朝上盗扇。買彩票只有兩種可能祷肯,中獎或不中獎。我們稱之為0-1分布問題(二項(xiàng)分布的特例)疗隶,對于這類問題佑笋,熵的計(jì)算方法可以簡化為如下算式:
圖片.png

相對熵(KL散度):

接下來就是KL散度了

上面說過了,講的是兩個(gè)信息熵的差值斑鼻,如果我們對于同一個(gè)隨機(jī)變量 x 有兩個(gè)單獨(dú)的概率分布 P(x)Q(x)蒋纬,我們可以使用 KL 散度(Kullback-Leibler (KL) divergence)來衡量這兩個(gè)分布的差異。
在機(jī)器學(xué)習(xí)中坚弱,P往往用來表示樣本的真實(shí)分布蜀备,Q用來表示模型所預(yù)測的分布,那么KL散度就可以計(jì)算兩個(gè)分布的差異史汗,也就是Loss損失值琼掠。

圖片.png

從KL散度公式中可以看到Q的分布越接近PQ分布越擬合P),那么散度值越小停撞,即損失值越小瓷蛙。
因?yàn)閷?shù)函數(shù)是凸函數(shù),所以KL散度的值為非負(fù)數(shù)戈毒。
有時(shí)會將KL散度稱為KL距離艰猬,但它并不滿足距離的性質(zhì):

  • KL散度不是對稱的;
  • KL散度不滿足三角不等式埋市。

用在我們單細(xì)胞tSNE降維這里冠桃,就是上篇文章說到的情況了

生活很好道宅,有你更好

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末食听,一起剝皮案震驚了整個(gè)濱河市胸蛛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌樱报,老刑警劉巖葬项,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異迹蛤,居然都是意外死亡民珍,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門盗飒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嚷量,“玉大人,你說我怎么就攤上這事逆趣〉埽” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵宣渗,是天一觀的道長身坐。 經(jīng)常有香客問我,道長落包,這世上最難降的妖魔是什么部蛇? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮咐蝇,結(jié)果婚禮上涯鲁,老公的妹妹穿的比我還像新娘。我一直安慰自己有序,他們只是感情好抹腿,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著旭寿,像睡著了一般警绩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上盅称,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天肩祥,我揣著相機(jī)與錄音,去河邊找鬼缩膝。 笑死混狠,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的疾层。 我是一名探鬼主播将饺,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了予弧?” 一聲冷哼從身側(cè)響起刮吧,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎掖蛤,沒想到半個(gè)月后皇筛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡坠七,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了旗笔。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片彪置。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蝇恶,靈堂內(nèi)的尸體忽然破棺而出拳魁,到底是詐尸還是另有隱情,我是刑警寧澤撮弧,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布潘懊,位于F島的核電站,受9級特大地震影響贿衍,放射性物質(zhì)發(fā)生泄漏授舟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一贸辈、第九天 我趴在偏房一處隱蔽的房頂上張望释树。 院中可真熱鬧,春花似錦擎淤、人聲如沸奢啥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽桩盲。三九已至,卻和暖如春席吴,著一層夾襖步出監(jiān)牢的瞬間赌结,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工孝冒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留姑曙,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓迈倍,卻偏偏與公主長得像伤靠,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容