10X單細(xì)胞(10X空間轉(zhuǎn)錄組)基礎(chǔ)知識(shí)之AutoEncoder(自編碼器)

hello邀泉,五一不知道大家去哪里玩了?卑微的我居然連回太原的票都沒買到钝鸽,傷心了汇恤,但是呢,五一既然是勞動(dòng)節(jié)拔恰,我們還是要?jiǎng)趧?dòng)一下的因谎,今天我們來分享一些基礎(chǔ)知識(shí)---AutoEncoder(自編碼器),這個(gè)在很多單細(xì)胞軟件中很常見颜懊,常用來做單細(xì)胞數(shù)據(jù)的降噪和細(xì)胞定義财岔,我之前分享的文章10X單細(xì)胞(10X空間轉(zhuǎn)錄組)聚類分析之scDCC也提到過這個(gè)內(nèi)容,今天我們就來學(xué)習(xí)一下基礎(chǔ)河爹,看看什么是自編碼器匠璧,又是如何運(yùn)用的。

AutoEncoder是深度學(xué)習(xí)的另外一個(gè)重要內(nèi)容咸这,并且非常有意思夷恍,神經(jīng)網(wǎng)絡(luò)通過大量數(shù)據(jù)集,進(jìn)行end-to-end的訓(xùn)練媳维,不斷提高其準(zhǔn)確率酿雪,而AutoEncoder通過設(shè)計(jì)encode和decode過程使輸入和輸出越來越接近,是一種無監(jiān)督學(xué)習(xí)過程侄刽。

Autoencoder

autoencoder是一種無監(jiān)督的學(xué)習(xí)算法执虹,主要用于數(shù)據(jù)的降維或者特征的抽取,在深度學(xué)習(xí)中唠梨,autoencoder可用于在訓(xùn)練階段開始前袋励,確定權(quán)重矩陣WW的初始值。

神經(jīng)網(wǎng)絡(luò)(關(guān)于神經(jīng)網(wǎng)絡(luò)之前或多或少提到過,有機(jī)會(huì)我們來認(rèn)真分享一篇關(guān)于神經(jīng)網(wǎng)絡(luò)的文章)中的權(quán)重矩陣WW可看作是對(duì)輸入的數(shù)據(jù)進(jìn)行特征轉(zhuǎn)換茬故,即先將數(shù)據(jù)編碼為另一種形式盖灸,然后在此基礎(chǔ)上進(jìn)行一系列學(xué)習(xí)。然而磺芭,在對(duì)權(quán)重初始化時(shí)赁炎,我們并不知道初始的權(quán)重值在訓(xùn)練時(shí)會(huì)起到怎樣的作用,也不知道在訓(xùn)練過程中權(quán)重會(huì)怎樣的變化钾腺。因此一種較好的思路是徙垫,利用初始化生成的權(quán)重矩陣進(jìn)行編碼時(shí),我們希望編碼后的數(shù)據(jù)能夠較好的保留原始數(shù)據(jù)的主要特征放棒。那么姻报,如何衡量碼后的數(shù)據(jù)是否保留了較完整的信息呢?答案是:如果編碼后的數(shù)據(jù)能夠較為容易地通過解碼恢復(fù)成原始數(shù)據(jù)间螟,我們則認(rèn)為WW較好的保留了數(shù)據(jù)信息吴旋。

例如下圖所示,將手寫數(shù)字圖片進(jìn)行編碼厢破,編碼后生成的 ?1?1, ?2?2, ?3?3, ?4?4, ?5?5, ?6?6 較完整的保留了原始圖像的典型特征荣瑟,因此可較容易地通過解碼恢復(fù)出原始圖像。

圖片.png

autoencoder通過神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練摩泪,從而確定WW的初始值笆焰。其目標(biāo)是讓輸入值等于輸出值。如下圖所示:首先用WW對(duì)輸入進(jìn)行編碼见坑,經(jīng)過激活函數(shù)后嚷掠,再用WTWT進(jìn)行解碼,從而使得h(x)≈xh(x)≈x鳄梅。該過程可以看作是對(duì)輸入數(shù)據(jù)的壓縮編碼叠国,將高維的原始數(shù)據(jù)用低維的向量表示未檩,使壓縮后的低維向量能保留輸入數(shù)據(jù)的典型特征戴尸,從而能夠較為方便的恢復(fù)原始數(shù)據(jù)。需要注意的是:這里增加了一個(gè)約束條件冤狡,即在對(duì)數(shù)據(jù)進(jìn)行編碼和解碼時(shí)孙蒙,使用的是同一個(gè)參數(shù)矩陣WW。該約束可看作是一種regularization悲雳,用于減少參數(shù)的個(gè)數(shù)挎峦,控制模型的復(fù)雜度。

圖片.png

對(duì)于多層神經(jīng)網(wǎng)絡(luò)的參數(shù)初始化問題合瓢,我們可以依次對(duì)每一層進(jìn)行autoencoder坦胶。如下圖所示,具體做法是首先按照上述方法確定第一層的權(quán)重參數(shù),然后固定第一層的參數(shù)顿苇,對(duì)第二層的參數(shù)進(jìn)行訓(xùn)練峭咒,以此類推,直到得到所有權(quán)重值纪岁。


圖片.png

由上面的內(nèi)容我們知道凑队, AutoEncoder包括兩個(gè)過程:encode和decode,輸入圖片通過encode進(jìn)行處理幔翰,得到code漩氨,再經(jīng)過decode處理得到輸出,有趣的是遗增,我們控制encode的輸出維數(shù)叫惊,就相當(dāng)于強(qiáng)迫encode過程以低維參數(shù)學(xué)習(xí)高維特征,這導(dǎo)致的結(jié)果和PCA類似贡定。
AutoEncoder的目的是使下圖中的輸入x和輸出x_head越相似越好赋访,這就需要在每次輸出之后,進(jìn)行誤差反向傳播缓待,不斷優(yōu)化蚓耽。

圖片.png

高維數(shù)據(jù)對(duì)于我們的感官體驗(yàn)總是不友好,如果我們將輸入降低至二維旋炒,放在二維平面中就會(huì)更加直觀步悠,下圖是MNIST數(shù)據(jù)集做AutoEncoder:

圖片.png

上面是PCA的結(jié)果,下面是AutoEncoder的結(jié)果瘫镇,在二維中結(jié)果很清晰鼎兽。

encode和decode兩個(gè)過程可以理解成互為反函數(shù),在encode過程不斷降維铣除,在decode過程提高維度谚咬。當(dāng)AutoEncoder過程中用卷積操作提取特征,相當(dāng)于encode過程為一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)尚粘,好多層的卷積池化择卦,那么decode過程就需要進(jìn)行反卷積和反池化,那么郎嫁,反卷積和反池化如何定義呢秉继?

關(guān)于卷積和池化的知識(shí)大家可以參考我的文章10X空間轉(zhuǎn)錄組與卷積神經(jīng)網(wǎng)絡(luò)(CNNs)

圖片.png

Unpooling

池化過程實(shí)際上就是降維過程,假設(shè)圖片大小為32x32泽铛,池化大小為2x2尚辑,就相當(dāng)于將圖片中相鄰的2x2個(gè)像素點(diǎn)替換為四個(gè)點(diǎn)中最大數(shù)值(max-pooling),池化處理之后得到的圖片大小為16x16盔腔,Unpooling過程則需要將16x16的圖片變?yōu)?2x32杠茬,其實(shí)在池化過程中月褥,會(huì)標(biāo)記2x2像素點(diǎn)中最大值的位置,在Unpooling過程將最大值還原瓢喉,其他位置填0吓坚。

image

以上并不是Unpooling的唯一做法,在Keras中灯荧,不會(huì)記住最大值的位置礁击,而是將所有像素均以最大值填充。

Deconvolution

卷積過程是一個(gè)矩陣在另一個(gè)矩陣上面做滑動(dòng)運(yùn)算逗载,反卷積也是一樣哆窿,實(shí)際上,反卷積就是卷積厉斟,看下面的圖挚躯,我們熟悉的是左面的卷積過程,假設(shè)有5個(gè)像素點(diǎn)擦秽,卷積核為3码荔,步長(zhǎng)為1,卷積之后生成3個(gè)feature感挥,我們想象中的反卷積應(yīng)該是中間所示的情形缩搅,由3個(gè)輸入生成5個(gè)輸出,如果我們將反卷積中的輸入做2的padding触幼,這樣原本3個(gè)輸入變成7個(gè)輸入硼瓣,再做卷積,生成5個(gè)輸出置谦,對(duì)比左右兩側(cè)的圖堂鲤,是完全相反的,所以媒峡,我們加上padding瘟栖,使反卷積變成了卷積運(yùn)算。

image

De-noising AutoEncoder

對(duì)于AutoEncoder谅阿,每一次的訓(xùn)練都是自身的對(duì)比半哟,這回造成輸出和輸入越來越類似,而對(duì)同種類的其他圖片表現(xiàn)不敏感奔穿,于是镜沽,De-noising AutoEncoder派上了用場(chǎng)敏晤,如下圖所示贱田,在輸入之前,先將圖片加入隨機(jī)噪聲嘴脾,這樣每次的輸入都會(huì)略有差異男摧,然后將帶有噪聲的圖片進(jìn)行AutoEncoder蔬墩,將輸出的y與加噪聲之前的圖片進(jìn)行比較,這樣訓(xùn)練出來的y就具有抗噪聲的能力耗拓,在以圖搜圖的場(chǎng)景下也就提高了泛化能力拇颅。

image

AutoEncoder在單細(xì)胞數(shù)據(jù)中的運(yùn)用

借助一篇文獻(xiàn)來實(shí)現(xiàn)分享,問文獻(xiàn)在Single-cell RNA-seq denoising using a deep count autoencoder乔询,2019年發(fā)表于NC樟插,當(dāng)然還有很多其他的文章也提到并運(yùn)用了AutoEncoder,感興趣的同學(xué)可以多多學(xué)習(xí)竿刁。

簡(jiǎn)介

文章主要介紹了一種使用DCA對(duì)單細(xì)胞count數(shù)據(jù)進(jìn)行降噪黄锤,其中自編碼器的loss設(shè)計(jì)是本篇文章的亮點(diǎn)。作者認(rèn)為(現(xiàn)有很多文章也進(jìn)行過論證)single cell數(shù)據(jù)服從Zero Inflation Negative Binomial(ZINB) 零膨脹的負(fù)二項(xiàng)分布食拜。而本篇文章的創(chuàng)新點(diǎn)也正是將ZINB和NB設(shè)計(jì)成為loss函數(shù)鸵熟。

背景介紹

單細(xì)胞RNA測(cè)序(scRNA-seq)使研究人員能夠以細(xì)胞分辨率研究基因表達(dá)。然而负甸,由于擴(kuò)增和丟失引起的噪聲可能阻礙分析流强,因此需要可擴(kuò)展的去噪方法來獲得越來越大但稀疏的scRNA-seq數(shù)據(jù)。我們提出深度計(jì)數(shù)自動(dòng)編碼器網(wǎng)絡(luò)(DCA)來對(duì)scRNA-seq數(shù)據(jù)集進(jìn)行去噪呻待。
低RNA捕獲率導(dǎo)致檢測(cè)到表達(dá)基因失敗打月,導(dǎo)致“假”零計(jì)數(shù)觀察,定義為丟失事件蚕捉。重要的是要注意“假”和“真”零計(jì)數(shù)之間的區(qū)別僵控。真零計(jì)數(shù)表示基因在特定細(xì)胞類型中缺乏表達(dá),因此真正的細(xì)胞類型特異性表達(dá)鱼冀。因此报破,并非scRNA-seq數(shù)據(jù)中的所有零都可以被視為缺失值。在統(tǒng)計(jì)中千绪,通常估算缺失的數(shù)據(jù)值充易。在此過程中,缺失值將隨機(jī)或通過適應(yīng)數(shù)據(jù)結(jié)構(gòu)替換值荸型,以改進(jìn)統(tǒng)計(jì)推斷或建模盹靴。由于真零假計(jì)數(shù)之間的非平凡區(qū)別,具有定義的缺失值的經(jīng)典插補(bǔ)方法可能不適合scRNA-seq數(shù)據(jù)瑞妇。

我們假設(shè)數(shù)據(jù)源自無噪聲數(shù)據(jù)流形稿静,代表潛在的生物過程和細(xì)胞狀態(tài)。然而辕狰,像成像(圖像分析)或測(cè)序這樣的測(cè)量技術(shù)會(huì)產(chǎn)生這種流形的破壞表現(xiàn)改备。

DCA使用具有或不具有零膨脹的負(fù)二項(xiàng)式噪聲模型來考慮數(shù)據(jù)的計(jì)數(shù)分布,過度離散和稀疏性蔓倍,并且捕獲非線性基因 - 基因依賴性悬钳。我們的方法與細(xì)胞數(shù)量成線性關(guān)系盐捷,因此可以應(yīng)用于數(shù)百萬個(gè)細(xì)胞的數(shù)據(jù)集。我們證明DCA去噪使用模擬和真實(shí)數(shù)據(jù)集改進(jìn)了一系列典型的scRNA-seq數(shù)據(jù)分析默勾。
方法

1. Noise model

零膨脹的負(fù)二項(xiàng)分布(ZINB) 模擬的scRNA-seq數(shù)據(jù)都是高度稀疏且過度分散的count值碉渡。ZINB包括兩部分:一部分是在0點(diǎn)處的沖激函數(shù),代表有數(shù)據(jù)中過多的0值母剥;另一部分是非零點(diǎn)的負(fù)二項(xiàng)分布滞诺。對(duì)于scRNA-seq數(shù)據(jù),在0點(diǎn)處的point mass點(diǎn)質(zhì)量函數(shù)可以捕獲數(shù)據(jù)中的丟失事件环疼,而負(fù)二項(xiàng)部分模擬數(shù)據(jù)中的非dropout值铭段。

NB和ZINB函數(shù)如下所示:

圖片.png

π代表該點(diǎn)質(zhì)量函數(shù)的權(quán)重,mu代表負(fù)二項(xiàng)分布的均值秦爆,θ代表該分布的離散程度序愚。

2.模型結(jié)構(gòu)

圖片.png

DCA: deep count autoencoder,首先該模型的基礎(chǔ)是自編碼器等限。模型一共五層爸吮,節(jié)點(diǎn)個(gè)數(shù)分別為X-64-32-64-X. X是從上萬的基因中找到的高表達(dá)基因。

與普通的神經(jīng)網(wǎng)絡(luò)模型不同望门,該模型沒有訓(xùn)練樣本之間的差異(loss用MSE等函數(shù)表示)形娇,而是通過輸入的樣本訓(xùn)練每個(gè)基因的ZINB分布參數(shù)(如圖中output層所示,訓(xùn)練每個(gè)基因的μ筹误、θ桐早、π參數(shù))

關(guān)于這個(gè),我們了解即可厨剪,不必深入哄酝。

生活很好,有你更好

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載祷膳,如需轉(zhuǎn)載請(qǐng)通過簡(jiǎn)信或評(píng)論聯(lián)系作者陶衅。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市直晨,隨后出現(xiàn)的幾起案子搀军,更是在濱河造成了極大的恐慌,老刑警劉巖勇皇,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件罩句,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡敛摘,警方通過查閱死者的電腦和手機(jī)门烂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來着撩,“玉大人诅福,你說我怎么就攤上這事⊥闲穑” “怎么了氓润?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)薯鳍。 經(jīng)常有香客問我咖气,道長(zhǎng),這世上最難降的妖魔是什么挖滤? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任崩溪,我火速辦了婚禮,結(jié)果婚禮上斩松,老公的妹妹穿的比我還像新娘伶唯。我一直安慰自己,他們只是感情好惧盹,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布乳幸。 她就那樣靜靜地躺著,像睡著了一般钧椰。 火紅的嫁衣襯著肌膚如雪粹断。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天嫡霞,我揣著相機(jī)與錄音瓶埋,去河邊找鬼。 笑死诊沪,一個(gè)胖子當(dāng)著我的面吹牛养筒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播端姚,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼闽颇,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了寄锐?” 一聲冷哼從身側(cè)響起兵多,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎橄仆,沒想到半個(gè)月后剩膘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡盆顾,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年怠褐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片您宪。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡奈懒,死狀恐怖奠涌,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情磷杏,我是刑警寧澤溜畅,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站极祸,受9級(jí)特大地震影響慈格,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜遥金,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一浴捆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧稿械,春花似錦选泻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至茂嗓,卻和暖如春餐茵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背述吸。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工忿族, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蝌矛。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓道批,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親入撒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子隆豹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容