單細胞分析中的NormalizeData()與ScaleData()區(qū)別在哪兒?

今天又是入門單細胞分析的一天
在單細胞分析當(dāng)中,我們會用到兩個函數(shù):NormalizeData()和ScaleData()褥芒,這兩個函數(shù)的區(qū)別到底在哪兒?它們到底對我們的單細胞數(shù)據(jù)做了什么樣的處理?今天就這個問題談?wù)勎易鳛槌鯇W(xué)者的理解锰扶。

測序深度

首先第一個問題是献酗,什么是測序深度?
測序深度簡而言之就是測序得到的堿基數(shù)與基因組堿基數(shù)之間的比值坷牛。一般來說罕偎,對一個細胞而言,測序深度越大京闰,每個基因檢測到的reads會越多颜及。這實際上就會造成一個問題,在處理單細胞數(shù)據(jù)時蹂楣,如果一個基因在一個細胞當(dāng)中的reads數(shù)很少俏站,這究竟是這個基因本身就表達很少,還是因為這個細胞本身測序得到的reads數(shù)就很少呢(要窮大家一起窮)痊土?

z-score

第二個問題乾翔,什么是基因的z-score?
z-score的計算方法如下:
z-score=(x-\mu)/\sigma
實際上可以發(fā)現(xiàn)施戴,這個z-score不就是做了一個(0,1)正態(tài)分布化的操作嗎反浓?那這個操作有什么意義呢?
我們經(jīng)常會畫熱圖來展示基因的表達情況赞哗,但是如果數(shù)據(jù)過于分散會出現(xiàn)什么情況呢雷则?舉個例子:

#生成一個服從標(biāo)準(zhǔn)正態(tài)分布的10*10矩陣
mymatrix <- matrix(data = rnorm(100,mean = 0,sd = 1),ncol = 10)
#將第一個元素的值擴大至10000
mymatrix[1,1] = 10000
heatmap(mymatrix)
plot1.png

可以看到,右上角的那個元素完全是一枝獨秀肪笋,這實際上掩蓋了其它元素的情況月劈,但是當(dāng)我們對數(shù)據(jù)進行正態(tài)標(biāo)準(zhǔn)化之后:

mymatrix <- scale(mymatrix)
heatmap(mymatrix)
Rplot2.png

怎么樣?這樣是不是好了很多藤乙?實際上標(biāo)準(zhǔn)正態(tài)分布能夠讓數(shù)據(jù)不那么分散猜揪,這在我們繪制熱圖的時候是非常必要的,畢竟我們熱圖的色階只有那么大的范圍坛梁。

NormalizeData()

有了上面的鋪墊之后而姐,我們現(xiàn)在就能理解NormalizeData()在干什么了。NormalizeData()實際上就是在消除不同細胞測序深度的影響划咐,可以看到拴念,NormalizeData()的一般使用格式為:

library(Seurat)
NormalizeData(object, assay=NULL, normalization.method = "LogNormalize", scale.factor = 10000)

函數(shù)默認將每個細胞的文庫大小設(shè)置成為10000個reads大小,有細心的朋友會發(fā)現(xiàn)normalization.method = "LogNormalize"這個參數(shù)褐缠,這又是什么呢政鼠?
還是前面提到的問題,單細胞數(shù)據(jù)當(dāng)中有很多基因的reads數(shù)很多队魏,甚至上千公般,但是有很多基因卻是個位數(shù)甚至0,那這種數(shù)據(jù)離散程度也是很大的,但是我們會發(fā)現(xiàn)當(dāng)我們對1000取以10為底的對數(shù)時官帘,就變成了3蟹略,對10取以10為底的對數(shù)時,就變成了1遏佣,這樣就實現(xiàn)了降低數(shù)據(jù)離散程度的目的。但是這也存在一定的問題揽浙,如果一個基因的reads數(shù)為0状婶,那豈不是不能取對數(shù)?我們對所有的值都加上1不就能夠解決這個問題馅巷?
所以總結(jié)起來膛虫,NormalizeData()這個函數(shù)是首先對基因的reads數(shù)進行了同一文庫大小的校正,然后再對校正后的數(shù)值進行對數(shù)化操作钓猬。

ScaleData()

這個就簡單了稍刀,不過是對基因表達量的數(shù)值進行了z-score的轉(zhuǎn)換,同時也為后面的pca分析做了鋪墊敞曹,因為pca分析默認數(shù)據(jù)是服從正態(tài)分布的账月。

今天又是摸魚的一天呢!0钠取局齿!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市橄登,隨后出現(xiàn)的幾起案子抓歼,更是在濱河造成了極大的恐慌,老刑警劉巖拢锹,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谣妻,死亡現(xiàn)場離奇詭異,居然都是意外死亡卒稳,警方通過查閱死者的電腦和手機蹋半,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來充坑,“玉大人湃窍,你說我怎么就攤上這事》税” “怎么了您市?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長役衡。 經(jīng)常有香客問我茵休,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任榕莺,我火速辦了婚禮俐芯,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘钉鸯。我一直安慰自己吧史,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布唠雕。 她就那樣靜靜地躺著贸营,像睡著了一般。 火紅的嫁衣襯著肌膚如雪岩睁。 梳的紋絲不亂的頭發(fā)上钞脂,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音捕儒,去河邊找鬼冰啃。 笑死,一個胖子當(dāng)著我的面吹牛刘莹,可吹牛的內(nèi)容都是我干的阎毅。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼点弯,長吁一口氣:“原來是場噩夢啊……” “哼净薛!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蒲拉,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤肃拜,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后雌团,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體燃领,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年锦援,在試婚紗的時候發(fā)現(xiàn)自己被綠了猛蔽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡灵寺,死狀恐怖曼库,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情略板,我是刑警寧澤毁枯,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站叮称,受9級特大地震影響种玛,放射性物質(zhì)發(fā)生泄漏藐鹤。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一赂韵、第九天 我趴在偏房一處隱蔽的房頂上張望娱节。 院中可真熱鬧,春花似錦祭示、人聲如沸肄满。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽稠歉。三九已至,卻和暖如春蹂窖,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背恩敌。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工瞬测, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人纠炮。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓月趟,卻偏偏與公主長得像,于是被迫代替她去往敵國和親恢口。 傳聞我的和親對象是個殘疾皇子孝宗,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容