10X單細(xì)胞基礎(chǔ)+個性化合集1

作者,Evil Genius

今天是令人沉重的一天,所有的網(wǎng)頁軟件變成了灰色。

昨晚還是看了世界杯,日本隊確實(shí)值得尊重

今天我想來一篇關(guān)于單細(xì)胞分析的合集伍俘,包括以下內(nèi)容

  • 單細(xì)胞基礎(chǔ)分析之單樣本分析篇
  • 單細(xì)胞基礎(chǔ)分析之多樣本整合篇
  • 單細(xì)胞個性化分析之細(xì)胞注釋篇
  • 單細(xì)胞個性化分析之軌跡分析篇
  • 單細(xì)胞個性化分析之細(xì)胞通訊篇
  • 單細(xì)胞個性化分析之CNV篇
  • 單細(xì)胞個性化分析之轉(zhuǎn)錄因子篇

本篇主要說前4個部分邪锌,因?yàn)榉旁谝黄鹞恼绿L,客戶端無法保存并發(fā)表癌瘾,下一篇主要講后四個部分

不要怪我說的多觅丰,想從事單細(xì)胞空間分析的研究者,這些都是必須掌握的妨退,不僅僅要會寫代碼妇萄,原理方法和算法都要掌握蜕企,只會跑官方教程,公司的面試就過不去冠句。

單細(xì)胞基礎(chǔ)分析之單樣本分析篇

單細(xì)胞數(shù)據(jù)集成分析軟件Seurat由Rahul Satija[1]等人于2015年提出轻掩,然后經(jīng)歷了不斷的更新開發(fā),目前已經(jīng)升級到了V4.0版本懦底,從最開始處理單細(xì)胞轉(zhuǎn)錄組擴(kuò)充到現(xiàn)在包括單細(xì)胞轉(zhuǎn)錄組唇牧、單細(xì)胞ATAC、空間轉(zhuǎn)錄組聚唐、單細(xì)胞蛋白組丐重,它主要包括以下主要分析內(nèi)容:單細(xì)胞數(shù)據(jù)過濾、降維杆查、聚類和計算差異扮惦。因?yàn)镾eurat集成了很多專業(yè)的軟件和算法,并且完美契合單細(xì)胞的數(shù)據(jù)分析亲桦,目前已經(jīng)廣泛運(yùn)用到了單細(xì)胞數(shù)據(jù)的基礎(chǔ)研究中崖蜜。借助clusterprofile進(jìn)行差異基因的富集,分析每個類群的生物學(xué)功能烙肺,組成了單細(xì)胞數(shù)據(jù)的基礎(chǔ)分析內(nèi)容纳猪。

單細(xì)胞數(shù)據(jù)過濾

過濾指標(biāo)

單細(xì)胞的數(shù)據(jù)分析中,需要盡可能保留正程殷希活性的細(xì)胞進(jìn)行下游分析氏堤,但是由于樣本在處理過程中的人為操作以及機(jī)器因素,不可避免地對細(xì)胞造成了損傷搏明,甚至引入了雙細(xì)胞鼠锈,圖1.1是使用Seurat軟件對樣本進(jìn)行基礎(chǔ)信息分析的一個例子。

圖1.1 單細(xì)胞數(shù)據(jù)基礎(chǔ)信息分析

在數(shù)據(jù)分析中如果不對數(shù)據(jù)進(jìn)行嚴(yán)格的過濾星著,會嚴(yán)重干擾下游分析购笆,得出錯誤的結(jié)論。對數(shù)據(jù)進(jìn)行過濾主要包括以下幾個方面:

(1)在每個細(xì)胞中檢測到的基因種類的數(shù)量:低質(zhì)量的細(xì)胞通常含有很少的基因虚循;而捕獲到的雙細(xì)胞含有明顯較高的基因數(shù)量同欠。

(2)在每個細(xì)胞內(nèi)檢測到的UMI數(shù)量與基因數(shù)量具有明顯的相關(guān)性,離群值的細(xì)胞往往由污染横缔、低質(zhì)量和雙細(xì)胞造成铺遂,如圖1.2.

圖1.2 相關(guān)性分析

(3)線粒體基因的比例,低質(zhì)量或者壞死的細(xì)胞具有相對高的線粒體基因比例(線粒體污染)茎刚。

(4)有些樣本會有特定的細(xì)胞污染襟锐,例如:pbmc的紅細(xì)胞污染等等,實(shí)際分析中也要去除膛锭。

閾值選擇

閾值1 細(xì)胞最低表達(dá)的Feature數(shù)

關(guān)于細(xì)胞最少需要表達(dá)多少Feature粮坞,科學(xué)家們一直在進(jìn)行研究蚊荣,目前發(fā)現(xiàn)的最小細(xì)胞----支原體,表達(dá)的基因數(shù)量為480莫杈,Cell Ranger對細(xì)胞的過濾閾值是UMI大于500互例,考慮到同一個基因可能表達(dá)多個mRNA分子,將最低閾值設(shè)置為200是合理的選擇姓迅。

閾值2 雙細(xì)胞的過濾閾值

單細(xì)胞在實(shí)驗(yàn)處理過程中敲霍,不可避免地引入了雙細(xì)胞,如前所述丁存,雙細(xì)胞的主要特征為含有明顯較高的基因數(shù)量肩杈。10x genomics也總結(jié)了捕獲的細(xì)胞量與雙細(xì)胞的大致比例關(guān)系,如下表:

Multiplet Rate(%) Cells loaded Cells Recovered
~0.4 ~800 ~500
~0.8 ~1600 ~1000
~1.6 ~3200 ~2000
~2.3 ~4800 ~3000
~3.1 ~6400 ~4000
~3.9 ~8000 ~5000
~4.6 ~9600 ~6000
~5.4 ~11200 ~7000
~6.1 ~12800 ~8000
~6.9 ~14400 ~9000
~7.6 ~16000 ~10000

由此可見解寝,捕獲到的細(xì)胞數(shù)越多扩然,雙細(xì)胞的概率越大,目前文獻(xiàn)中去除雙細(xì)胞主要是以下三種策略:

(1)設(shè)置高表達(dá)基因的閾值:通常將UMI高于一定閾值的細(xì)胞去除聋伦,這種方法通常需要一定的經(jīng)驗(yàn)積累夫偶,如圖1.1所示,F(xiàn)eature高于7000的部分明顯屬于異常值觉增,需要予以去除兵拢。

(2)Marker鑒定:如果表達(dá)兩種細(xì)胞的marker gene,當(dāng)作雙細(xì)胞處理(注:隨著研究的深入逾礁,這種現(xiàn)象不能一概而論说铃,有的研究發(fā)現(xiàn)組織細(xì)胞在某些情況下也會表達(dá)免疫細(xì)胞的標(biāo)志物)。

(3)借助專業(yè)的軟件識別雙細(xì)胞:例如DoubletFinder[2]嘹履、Scrublet[3]腻扇。這也是文獻(xiàn)更為普遍的做法(這一部分放在個性化分析詳細(xì)介紹)。

閾值3 線粒體基因的表達(dá)比例

線粒體基因的比例過高通常與細(xì)胞狀態(tài)較差有關(guān)砾嫉,線粒體主要特征:

(1)線粒體基因轉(zhuǎn)錄和翻譯的場所 :線粒體幼苛,對比于核轉(zhuǎn)錄組,翻譯在細(xì)胞質(zhì)焕刮。

(2)線粒體參與的生物學(xué)功能:能量供給,自由基生成和細(xì)胞凋亡舶沿,其中后兩種功能都跟細(xì)胞狀態(tài)差有關(guān)。

那么首先第一個問題配并,應(yīng)該選擇的閾值是多少呢括荡?細(xì)胞為了維持正常的生命活動,必然含有一定的線粒體基因荐绝。但是各個組織的細(xì)胞所含線粒體的正常比例差別較大:

(1)不同類型的細(xì)胞線粒體含量不一樣一汽,其中肌肉細(xì)胞線粒體含量最高可達(dá)50%避消,腫瘤區(qū)域的正常細(xì)胞線粒體含量有時也在30%以上低滩。

(2)統(tǒng)計文章的閾值召夹,在5%~30%之間不等,個別文章閾值放寬到50%恕沫。

(3)文獻(xiàn)中使用頻率最高的閾值是10%监憎。

所以具體情況要根據(jù)數(shù)據(jù)來做出判斷,如圖1.1為例婶溯,大部分細(xì)胞的線粒體比例均在20%以下鲸阔,所以閾值為20%是合理的選擇。

單細(xì)胞數(shù)據(jù)標(biāo)準(zhǔn)化

通常在單細(xì)胞RNA測序數(shù)據(jù)中觀察到文庫之間測序覆蓋率的系統(tǒng)差異迄委。它們通常是由細(xì)胞間的cDNA捕獲或PCR擴(kuò)增效率方面的技術(shù)差異引起的褐筛,這歸因于用最少的起始材料難以實(shí)現(xiàn)一致的文庫制備。標(biāo)準(zhǔn)化旨在消除這些差異叙身,以使它們不干擾細(xì)胞之間表達(dá)譜的比較渔扎。這樣可以確保在細(xì)胞群體中觀察到的任何異質(zhì)性或差異表達(dá)都是由生物學(xué)而不是技術(shù)偏倚引起的。

在這一點(diǎn)上信轿,標(biāo)準(zhǔn)化和批次校正之間的區(qū)別需要注意晃痴。標(biāo)準(zhǔn)化的發(fā)生與批次結(jié)構(gòu)無關(guān),并且僅考慮技術(shù)偏差财忽,而批次矯正僅在批次之間發(fā)生倘核,并且必須同時考慮技術(shù)偏差和生物學(xué)差異。技術(shù)偏差傾向于以相似的方式或至少以與它們的生物物理特性(例如長度即彪,GC含量)有關(guān)的方式影響基因紧唱,而批次之間的生物學(xué)差異可能是高度不可預(yù)測的。這樣祖凫,這兩個任務(wù)涉及不同的假設(shè)琼蚯,并且通常涉及不同的計算方法(盡管某些軟件包旨在一次執(zhí)行兩個步驟)引矩。因此荞驴,避免混淆“標(biāo)準(zhǔn)化”和“批次校正”的數(shù)據(jù)非常重要,因?yàn)檫@些數(shù)據(jù)通常表示不同的事物蓖乘。

軟件Seurat提供了三種標(biāo)準(zhǔn)化的方法稠屠,分別為LogNormalize峦睡、CLR、RC权埠,通常情況下我們采用LogNormalize的方式進(jìn)行標(biāo)準(zhǔn)化榨了,計算公式為:

標(biāo)準(zhǔn)化數(shù)據(jù)的意義在于:

(1)集中離散程度較大的數(shù)據(jù)(例如單細(xì)胞、空間測序數(shù)據(jù))攘蔽。

(2)如果表達(dá)量離散程度很大龙屉,存在異常值和較多噪音,用標(biāo)準(zhǔn)化可以避免異常值和極端值的影響,降低離散程度转捕。

(3)使數(shù)據(jù)符合正態(tài)分布作岖,為下游分析做準(zhǔn)備。

高變基因

單細(xì)胞數(shù)據(jù)的稀疏性:稀疏數(shù)據(jù)是指五芝,數(shù)據(jù)框中絕大多數(shù)數(shù)值缺失或者為零的數(shù)據(jù)痘儡。在數(shù)據(jù)挖掘領(lǐng)域,常常要面對海量的復(fù)雜型數(shù)據(jù)枢步。其中沉删,無論使單細(xì)胞數(shù)據(jù)還是空間數(shù)據(jù),都存在大量的零值醉途,稀疏程度會達(dá)到95%以上矾瑰,這使得傳統(tǒng)的統(tǒng)計方法不適于處理此類數(shù)據(jù)。但與此同時也要注意隘擎,零值并不代表無效信息脯倚。

正因?yàn)閱渭?xì)胞數(shù)據(jù)的稀疏性,為了尋找生物學(xué)差異的主要信號嵌屎,需要計算在數(shù)據(jù)集中表現(xiàn)出高細(xì)胞間差異的特征子集(即推正,基因在某些細(xì)胞中高度表達(dá),而在其他細(xì)胞中表達(dá)低)宝惰,在下游分析中關(guān)注這些基因有助于突出單細(xì)胞數(shù)據(jù)集中的生物信號植榕。

高變基因的挑選方法,Seurat內(nèi)置了三種尋找高變基因的方法:

(1)vst:首先尼夺,使用局部多項(xiàng)式回歸 (loess) 擬合 log(variance) 和 log(mean) 的關(guān)系尊残。 然后使用觀察到的均值和預(yù)期方差(由擬合線給出)對特征值進(jìn)行標(biāo)準(zhǔn)化。 然后在裁剪到最大值后根據(jù)標(biāo)準(zhǔn)化值計算特征方差淤堵。

(2)mean.var.plot (mvp):首先寝衫,使用一個函數(shù)來計算每個特征的平均表達(dá)(mean.function)和離散度(dispersion.function)。 接下來拐邪,根據(jù)特征的平均表達(dá)將特征劃分為 num.bin(默認(rèn) 20)個 bin慰毅,并計算每個 bin 內(nèi)分散的 z 分?jǐn)?shù)。 這樣做的目的是識別可變特征扎阶,同時控制可變性和平均表達(dá)之間的強(qiáng)關(guān)系汹胃。

(3)dispersion (disp):選擇具有最高離散度的基因.

通常采用的方法是vst,默認(rèn)選取前2000個高變基因用于下游分析东臀,如下圖着饥。

圖3 高變基因分布圖

這里需要注意一點(diǎn),就是高變基因數(shù)量的選擇惰赋,如果選取的過多宰掉,就會帶入一些噪音信號,影響下游的分析,選取的過少轨奄,無法真正表征生物學(xué)信號仇穗,得到錯誤的結(jié)論,從目前文獻(xiàn)的通常選取數(shù)量來看戚绕,2000是一個合理的閾值,但是在對某一細(xì)胞類型進(jìn)行再分群分析時枝冀,選取的高變基因數(shù)量要適當(dāng)減少舞丛。

單細(xì)胞數(shù)據(jù)標(biāo)準(zhǔn)化與中心化

單細(xì)胞數(shù)據(jù)的標(biāo)準(zhǔn)化操作本質(zhì)上是對基因表達(dá)量的數(shù)值進(jìn)行了z-score的轉(zhuǎn)換((0,1)正態(tài)分布化),計算公式如下:

當(dāng)數(shù)據(jù)集的特征間具有不同的值范圍時果漾,數(shù)據(jù)歸一化是非常有必要的球切,數(shù)據(jù)歸一化的目的是使特征具有相同的度量尺度

還有 86% 的精彩內(nèi)容
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載绒障,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者吨凑。
支付 ¥20.00 繼續(xù)閱讀
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市户辱,隨后出現(xiàn)的幾起案子鸵钝,更是在濱河造成了極大的恐慌,老刑警劉巖庐镐,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件恩商,死亡現(xiàn)場離奇詭異,居然都是意外死亡必逆,警方通過查閱死者的電腦和手機(jī)怠堪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來名眉,“玉大人粟矿,你說我怎么就攤上這事∷鹇#” “怎么了陌粹?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長福压。 經(jīng)常有香客問我申屹,道長,這世上最難降的妖魔是什么隧膏? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任哗讥,我火速辦了婚禮,結(jié)果婚禮上胞枕,老公的妹妹穿的比我還像新娘杆煞。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布决乎。 她就那樣靜靜地躺著队询,像睡著了一般。 火紅的嫁衣襯著肌膚如雪构诚。 梳的紋絲不亂的頭發(fā)上蚌斩,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機(jī)與錄音范嘱,去河邊找鬼送膳。 笑死,一個胖子當(dāng)著我的面吹牛丑蛤,可吹牛的內(nèi)容都是我干的叠聋。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼受裹,長吁一口氣:“原來是場噩夢啊……” “哼碌补!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起棉饶,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤厦章,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后照藻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體闷袒,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年岩梳,在試婚紗的時候發(fā)現(xiàn)自己被綠了囊骤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡冀值,死狀恐怖也物,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情列疗,我是刑警寧澤滑蚯,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站抵栈,受9級特大地震影響告材,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜古劲,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一斥赋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧产艾,春花似錦疤剑、人聲如沸滑绒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽疑故。三九已至,卻和暖如春弯菊,著一層夾襖步出監(jiān)牢的瞬間纵势,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工管钳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钦铁,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓蹋嵌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親葫隙。 傳聞我的和親對象是個殘疾皇子栽烂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容