10X單細(xì)胞基礎(chǔ)+個性化合集1

作者，Evil Genius

今天是令人沉重的一天，所有的網(wǎng)頁軟件變成了灰色。

昨晚還是看了世界杯，日本隊確實(shí)值得尊重

今天我想來一篇關(guān)于單細(xì)胞分析的合集伍俘，包括以下內(nèi)容

單細(xì)胞基礎(chǔ)分析之單樣本分析篇
單細(xì)胞基礎(chǔ)分析之多樣本整合篇
單細(xì)胞個性化分析之細(xì)胞注釋篇
單細(xì)胞個性化分析之軌跡分析篇
單細(xì)胞個性化分析之細(xì)胞通訊篇
單細(xì)胞個性化分析之CNV篇
單細(xì)胞個性化分析之轉(zhuǎn)錄因子篇

本篇主要說前4個部分邪锌，因?yàn)榉旁谝黄鹞恼绿L，客戶端無法保存并發(fā)表癌瘾，下一篇主要講后四個部分

不要怪我說的多觅丰，想從事單細(xì)胞空間分析的研究者，這些都是必須掌握的妨退，不僅僅要會寫代碼妇萄，原理方法和算法都要掌握蜕企，只會跑官方教程，公司的面試就過不去冠句。

單細(xì)胞基礎(chǔ)分析之單樣本分析篇

單細(xì)胞數(shù)據(jù)集成分析軟件Seurat由Rahul Satija^[1]等人于2015年提出轻掩，然后經(jīng)歷了不斷的更新開發(fā)，目前已經(jīng)升級到了V4.0版本懦底，從最開始處理單細(xì)胞轉(zhuǎn)錄組擴(kuò)充到現(xiàn)在包括單細(xì)胞轉(zhuǎn)錄組唇牧、單細(xì)胞ATAC、空間轉(zhuǎn)錄組聚唐、單細(xì)胞蛋白組丐重，它主要包括以下主要分析內(nèi)容：單細(xì)胞數(shù)據(jù)過濾、降維杆查、聚類和計算差異扮惦。因?yàn)镾eurat集成了很多專業(yè)的軟件和算法，并且完美契合單細(xì)胞的數(shù)據(jù)分析亲桦，目前已經(jīng)廣泛運(yùn)用到了單細(xì)胞數(shù)據(jù)的基礎(chǔ)研究中崖蜜。借助clusterprofile進(jìn)行差異基因的富集，分析每個類群的生物學(xué)功能烙肺，組成了單細(xì)胞數(shù)據(jù)的基礎(chǔ)分析內(nèi)容纳猪。

單細(xì)胞數(shù)據(jù)過濾

過濾指標(biāo)

單細(xì)胞的數(shù)據(jù)分析中，需要盡可能保留正程殷希活性的細(xì)胞進(jìn)行下游分析氏堤，但是由于樣本在處理過程中的人為操作以及機(jī)器因素，不可避免地對細(xì)胞造成了損傷搏明，甚至引入了雙細(xì)胞鼠锈，圖1.1是使用Seurat軟件對樣本進(jìn)行基礎(chǔ)信息分析的一個例子。

圖1.1 單細(xì)胞數(shù)據(jù)基礎(chǔ)信息分析

在數(shù)據(jù)分析中如果不對數(shù)據(jù)進(jìn)行嚴(yán)格的過濾星著，會嚴(yán)重干擾下游分析购笆，得出錯誤的結(jié)論。對數(shù)據(jù)進(jìn)行過濾主要包括以下幾個方面：

（1）在每個細(xì)胞中檢測到的基因種類的數(shù)量：低質(zhì)量的細(xì)胞通常含有很少的基因虚循；而捕獲到的雙細(xì)胞含有明顯較高的基因數(shù)量同欠。

（2）在每個細(xì)胞內(nèi)檢測到的UMI數(shù)量與基因數(shù)量具有明顯的相關(guān)性，離群值的細(xì)胞往往由污染横缔、低質(zhì)量和雙細(xì)胞造成铺遂，如圖1.2.

圖1.2 相關(guān)性分析

（3）線粒體基因的比例，低質(zhì)量或者壞死的細(xì)胞具有相對高的線粒體基因比例（線粒體污染）茎刚。

（4）有些樣本會有特定的細(xì)胞污染襟锐，例如：pbmc的紅細(xì)胞污染等等，實(shí)際分析中也要去除膛锭。

閾值選擇

閾值1 細(xì)胞最低表達(dá)的Feature數(shù)

關(guān)于細(xì)胞最少需要表達(dá)多少Feature粮坞，科學(xué)家們一直在進(jìn)行研究蚊荣，目前發(fā)現(xiàn)的最小細(xì)胞----支原體，表達(dá)的基因數(shù)量為480莫杈，Cell Ranger對細(xì)胞的過濾閾值是UMI大于500互例，考慮到同一個基因可能表達(dá)多個mRNA分子，將最低閾值設(shè)置為200是合理的選擇姓迅。

閾值2 雙細(xì)胞的過濾閾值

單細(xì)胞在實(shí)驗(yàn)處理過程中敲霍，不可避免地引入了雙細(xì)胞，如前所述丁存，雙細(xì)胞的主要特征為含有明顯較高的基因數(shù)量肩杈。10x genomics也總結(jié)了捕獲的細(xì)胞量與雙細(xì)胞的大致比例關(guān)系，如下表：

Multiplet Rate(%)	Cells loaded	Cells Recovered
~0.4	~800	~500
~0.8	~1600	~1000
~1.6	~3200	~2000
~2.3	~4800	~3000
~3.1	~6400	~4000
~3.9	~8000	~5000
~4.6	~9600	~6000
~5.4	~11200	~7000
~6.1	~12800	~8000
~6.9	~14400	~9000
~7.6	~16000	~10000

由此可見解寝，捕獲到的細(xì)胞數(shù)越多扩然，雙細(xì)胞的概率越大，目前文獻(xiàn)中去除雙細(xì)胞主要是以下三種策略：

（1）設(shè)置高表達(dá)基因的閾值：通常將UMI高于一定閾值的細(xì)胞去除聋伦，這種方法通常需要一定的經(jīng)驗(yàn)積累夫偶，如圖1.1所示，F(xiàn)eature高于7000的部分明顯屬于異常值觉增，需要予以去除兵拢。

（2）Marker鑒定：如果表達(dá)兩種細(xì)胞的marker gene，當(dāng)作雙細(xì)胞處理（注：隨著研究的深入逾礁，這種現(xiàn)象不能一概而論说铃，有的研究發(fā)現(xiàn)組織細(xì)胞在某些情況下也會表達(dá)免疫細(xì)胞的標(biāo)志物）。

（3）借助專業(yè)的軟件識別雙細(xì)胞：例如DoubletFinder^[2]嘹履、Scrublet^[3]腻扇。這也是文獻(xiàn)更為普遍的做法（這一部分放在個性化分析詳細(xì)介紹）。

閾值3 線粒體基因的表達(dá)比例

線粒體基因的比例過高通常與細(xì)胞狀態(tài)較差有關(guān)砾嫉，線粒體主要特征：

（1）線粒體基因轉(zhuǎn)錄和翻譯的場所：線粒體幼苛，對比于核轉(zhuǎn)錄組，翻譯在細(xì)胞質(zhì)焕刮。

（2）線粒體參與的生物學(xué)功能:能量供給,自由基生成和細(xì)胞凋亡舶沿，其中后兩種功能都跟細(xì)胞狀態(tài)差有關(guān)。

那么首先第一個問題配并，應(yīng)該選擇的閾值是多少呢括荡？細(xì)胞為了維持正常的生命活動，必然含有一定的線粒體基因荐绝。但是各個組織的細(xì)胞所含線粒體的正常比例差別較大：

（1）不同類型的細(xì)胞線粒體含量不一樣一汽，其中肌肉細(xì)胞線粒體含量最高可達(dá)50%避消，腫瘤區(qū)域的正常細(xì)胞線粒體含量有時也在30%以上低滩。

（2）統(tǒng)計文章的閾值召夹，在5%~30%之間不等，個別文章閾值放寬到50%恕沫。

（3）文獻(xiàn)中使用頻率最高的閾值是10%监憎。

所以具體情況要根據(jù)數(shù)據(jù)來做出判斷，如圖1.1為例婶溯，大部分細(xì)胞的線粒體比例均在20%以下鲸阔，所以閾值為20%是合理的選擇。

單細(xì)胞數(shù)據(jù)標(biāo)準(zhǔn)化

通常在單細(xì)胞RNA測序數(shù)據(jù)中觀察到文庫之間測序覆蓋率的系統(tǒng)差異迄委。它們通常是由細(xì)胞間的cDNA捕獲或PCR擴(kuò)增效率方面的技術(shù)差異引起的褐筛，這歸因于用最少的起始材料難以實(shí)現(xiàn)一致的文庫制備。標(biāo)準(zhǔn)化旨在消除這些差異叙身，以使它們不干擾細(xì)胞之間表達(dá)譜的比較渔扎。這樣可以確保在細(xì)胞群體中觀察到的任何異質(zhì)性或差異表達(dá)都是由生物學(xué)而不是技術(shù)偏倚引起的。

在這一點(diǎn)上信轿，標(biāo)準(zhǔn)化和批次校正之間的區(qū)別需要注意晃痴。標(biāo)準(zhǔn)化的發(fā)生與批次結(jié)構(gòu)無關(guān)，并且僅考慮技術(shù)偏差财忽，而批次矯正僅在批次之間發(fā)生倘核，并且必須同時考慮技術(shù)偏差和生物學(xué)差異。技術(shù)偏差傾向于以相似的方式或至少以與它們的生物物理特性（例如長度即彪，GC含量）有關(guān)的方式影響基因紧唱，而批次之間的生物學(xué)差異可能是高度不可預(yù)測的。這樣祖凫，這兩個任務(wù)涉及不同的假設(shè)琼蚯，并且通常涉及不同的計算方法（盡管某些軟件包旨在一次執(zhí)行兩個步驟）引矩。因此荞驴，避免混淆“標(biāo)準(zhǔn)化”和“批次校正”的數(shù)據(jù)非常重要，因?yàn)檫@些數(shù)據(jù)通常表示不同的事物蓖乘。

軟件Seurat提供了三種標(biāo)準(zhǔn)化的方法稠屠，分別為LogNormalize峦睡、CLR、RC权埠，通常情況下我們采用LogNormalize的方式進(jìn)行標(biāo)準(zhǔn)化榨了，計算公式為：

標(biāo)準(zhǔn)化數(shù)據(jù)的意義在于：

（1）集中離散程度較大的數(shù)據(jù)（例如單細(xì)胞、空間測序數(shù)據(jù)）攘蔽。

（2）如果表達(dá)量離散程度很大龙屉，存在異常值和較多噪音，用標(biāo)準(zhǔn)化可以避免異常值和極端值的影響，降低離散程度转捕。

（3）使數(shù)據(jù)符合正態(tài)分布作岖，為下游分析做準(zhǔn)備。

高變基因

單細(xì)胞數(shù)據(jù)的稀疏性：稀疏數(shù)據(jù)是指五芝，數(shù)據(jù)框中絕大多數(shù)數(shù)值缺失或者為零的數(shù)據(jù)痘儡。在數(shù)據(jù)挖掘領(lǐng)域，常常要面對海量的復(fù)雜型數(shù)據(jù)枢步。其中沉删，無論使單細(xì)胞數(shù)據(jù)還是空間數(shù)據(jù)，都存在大量的零值醉途，稀疏程度會達(dá)到95%以上矾瑰，這使得傳統(tǒng)的統(tǒng)計方法不適于處理此類數(shù)據(jù)。但與此同時也要注意隘擎，零值并不代表無效信息脯倚。

正因?yàn)閱渭?xì)胞數(shù)據(jù)的稀疏性，為了尋找生物學(xué)差異的主要信號嵌屎，需要計算在數(shù)據(jù)集中表現(xiàn)出高細(xì)胞間差異的特征子集（即推正，基因在某些細(xì)胞中高度表達(dá)，而在其他細(xì)胞中表達(dá)低）宝惰，在下游分析中關(guān)注這些基因有助于突出單細(xì)胞數(shù)據(jù)集中的生物信號植榕。

高變基因的挑選方法，Seurat內(nèi)置了三種尋找高變基因的方法：

（1）vst：首先尼夺，使用局部多項(xiàng)式回歸 (loess) 擬合 log(variance) 和 log(mean) 的關(guān)系尊残。然后使用觀察到的均值和預(yù)期方差（由擬合線給出）對特征值進(jìn)行標(biāo)準(zhǔn)化。然后在裁剪到最大值后根據(jù)標(biāo)準(zhǔn)化值計算特征方差淤堵。

（2）mean.var.plot (mvp)：首先寝衫，使用一個函數(shù)來計算每個特征的平均表達(dá)（mean.function）和離散度（dispersion.function）。接下來拐邪，根據(jù)特征的平均表達(dá)將特征劃分為 num.bin（默認(rèn) 20）個 bin慰毅，并計算每個 bin 內(nèi)分散的 z 分?jǐn)?shù)。這樣做的目的是識別可變特征扎阶，同時控制可變性和平均表達(dá)之間的強(qiáng)關(guān)系汹胃。

（3）dispersion (disp):選擇具有最高離散度的基因.

通常采用的方法是vst，默認(rèn)選取前2000個高變基因用于下游分析东臀，如下圖着饥。

圖3 高變基因分布圖

這里需要注意一點(diǎn)，就是高變基因數(shù)量的選擇惰赋，如果選取的過多宰掉，就會帶入一些噪音信號，影響下游的分析，選取的過少轨奄，無法真正表征生物學(xué)信號仇穗，得到錯誤的結(jié)論，從目前文獻(xiàn)的通常選取數(shù)量來看戚绕，2000是一個合理的閾值，但是在對某一細(xì)胞類型進(jìn)行再分群分析時枝冀，選取的高變基因數(shù)量要適當(dāng)減少舞丛。

單細(xì)胞數(shù)據(jù)標(biāo)準(zhǔn)化與中心化

單細(xì)胞數(shù)據(jù)的標(biāo)準(zhǔn)化操作本質(zhì)上是對基因表達(dá)量的數(shù)值進(jìn)行了z-score的轉(zhuǎn)換((0,1)正態(tài)分布化)，計算公式如下：

當(dāng)數(shù)據(jù)集的特征間具有不同的值范圍時果漾，數(shù)據(jù)歸一化是非常有必要的球切，數(shù)據(jù)歸一化的目的是使特征具有相同的度量尺度。

還有 86% 的精彩內(nèi)容

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

禁止轉(zhuǎn)載绒障，如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者吨凑。

支付￥20.00 繼續(xù)閱讀

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市户辱，隨后出現(xiàn)的幾起案子鸵钝，更是在濱河造成了極大的恐慌，老刑警劉巖庐镐，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件恩商，死亡現(xiàn)場離奇詭異，居然都是意外死亡必逆，警方通過查閱死者的電腦和手機(jī)怠堪，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來名眉，“玉大人粟矿，你說我怎么就攤上這事∷鹇＃” “怎么了陌粹？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長福压。經(jīng)常有香客問我申屹，道長，這世上最難降的妖魔是什么隧膏？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任哗讥，我火速辦了婚禮，結(jié)果婚禮上胞枕，老公的妹妹穿的比我還像新娘杆煞。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布决乎。她就那樣靜靜地躺著队询，像睡著了一般。火紅的嫁衣襯著肌膚如雪构诚。梳的紋絲不亂的頭發(fā)上蚌斩，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機(jī)與錄音范嘱，去河邊找鬼送膳。笑死，一個胖子當(dāng)著我的面吹牛丑蛤，可吹牛的內(nèi)容都是我干的叠聋。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼受裹，長吁一口氣：“原來是場噩夢啊……” “哼碌补！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起棉饶，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤厦章，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后照藻，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體闷袒，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年岩梳，在試婚紗的時候發(fā)現(xiàn)自己被綠了囊骤。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡冀值，死狀恐怖也物，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情列疗，我是刑警寧澤滑蚯，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站抵栈，受9級特大地震影響告材，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜古劲，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一斥赋、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧产艾，春花似錦疤剑、人聲如沸滑绒。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案隘膘，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽疑故。三九已至，卻和暖如春弯菊，著一層夾襖步出監(jiān)牢的瞬間纵势，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工管钳，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钦铁，地道東北人。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓蹋嵌，卻偏偏與公主長得像，于是被迫代替她去往敵國和親葫隙。傳聞我的和親對象是個殘疾皇子栽烂，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評論 2贊 345