28庸汗、第二十八計(jì) 上屋抽梯
上樓以后拿掉梯子。借指與人密談手报。也用以比喻慫恿人蚯舱,使人上當(dāng)。
此計(jì)是說借給敵人一些方便(即我故意暴露出一些破綻)掩蛤,以誘導(dǎo)敵人深入我方枉昏,乘機(jī)切斷他的后援和前應(yīng),最終陷他于死地揍鸟。
子曾經(jīng)曰過:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限兄裂,而模型和算法只是逼近這個(gè)上限而已。在我們拿到單細(xì)胞數(shù)據(jù)之后阳藻,第一步往往是對數(shù)據(jù)的質(zhì)控(Quality Control)晰奖,或曰數(shù)據(jù)清洗(Data Clean)。雖然在步驟上已成慣例腥泥,但是目前尚無統(tǒng)一標(biāo)準(zhǔn)畅涂,本期單細(xì)胞數(shù)據(jù)科學(xué)就和大家探討一下數(shù)據(jù)質(zhì)控的原則。
質(zhì)控者視角
從一個(gè)待解離的組織到一個(gè)可分析的矩陣道川,每一步都需要質(zhì)量控制午衰。如:
- 細(xì)胞活性
- 紅細(xì)胞裂解
- 細(xì)胞計(jì)數(shù)
- cDNA文庫質(zhì)檢
- 測序reads質(zhì)控
- 識別有效barcode
- 細(xì)胞過濾
- 基因過濾
當(dāng)我們提到單細(xì)胞數(shù)據(jù)質(zhì)控的時(shí)候立宜,一般是指細(xì)胞的過濾,其實(shí)是從一個(gè)barcode X gene矩陣中過濾掉一部分不是細(xì)胞的barcode臊岸,如細(xì)胞碎片橙数,雙細(xì)胞,死細(xì)胞等帅戒。這三類barcode的特征可以通過其對應(yīng)的基因表達(dá)情況來描述:nCount(總基因表達(dá)數(shù))灯帮、nFeature(總基因數(shù))、percent.HB(紅細(xì)胞基因表達(dá)比例)逻住、percent.MT(線粒體基因表達(dá)比例)钟哥。nCount和nFeature過高可能是雙細(xì)胞,過低可能是細(xì)胞碎片瞎访。percent.HB刻畫紅細(xì)胞比例腻贰,percent.MT刻畫細(xì)胞狀態(tài),值過高可能是瀕臨死亡的細(xì)胞扒秸。percent.MT的值和目標(biāo)組織有關(guān)播演,有些組織細(xì)胞處于高度新陳代謝中,percent.MT會(huì)高于正常組織伴奥。
質(zhì)控層次
單細(xì)胞數(shù)據(jù)可以從以下三個(gè)層次上來質(zhì)控:
- 樣本
- 細(xì)胞
- 亞群
以樣本為單位的質(zhì)控是最常見的写烤,即以樣本為單位來觀察reads質(zhì)量、nCount拾徙、nFeature洲炊、percent.HB、percent.MT等描述細(xì)胞狀態(tài)的指標(biāo)尼啡,如:
這種觀察到的質(zhì)量是樣本的質(zhì)量暂衡,得出的結(jié)論可能是:某個(gè)樣本的線粒體基因表達(dá)較高,得到的是對樣本的評價(jià)玄叠。在觀察過數(shù)據(jù)基本分布之后古徒,對數(shù)據(jù)有了一定的認(rèn)知拓提,實(shí)際分析管線中是按照單細(xì)胞來過濾的读恃,很少出現(xiàn)直接去掉一個(gè)樣本的情況,常見的流程是這樣的:
單細(xì)胞數(shù)據(jù)分析的基本單位是亞群(Cluster)代态。將這一原則應(yīng)用到數(shù)據(jù)質(zhì)控的話寺惫,在每次分完群之后就應(yīng)該觀察每個(gè)亞群的質(zhì)量指標(biāo)。畢竟物以類聚蹦疑,質(zhì)量差的細(xì)胞會(huì)聚成一個(gè)類西雀。這樣不至于質(zhì)控的對象太大(樣本),也不至于太小(單個(gè)細(xì)胞)歉摧。
數(shù)據(jù)質(zhì)控要?jiǎng)t
數(shù)據(jù)質(zhì)控的基本問題是:去掉什么艇肴,保留什么腔呜。
回答是:去掉的是垃圾,保留的是數(shù)據(jù)再悼。
在數(shù)據(jù)分析的開始核畴,甚至是探索性數(shù)據(jù)分析之前,鑒于我們對數(shù)據(jù)內(nèi)在規(guī)律知之甚少冲九,數(shù)據(jù)質(zhì)控的原則是:You can't stop it if you can't see it. 即谤草,如果不能確定是數(shù)據(jù)中的垃圾,就保留下來莺奸,因?yàn)槟闳サ舻目赡苁且粋€(gè)重要的基因或重要因素或重要稀有細(xì)胞亞群丑孩。基于這個(gè)原則灭贷,我們就不會(huì)過于糾結(jié)線粒體閾值到底是20%還是50%温学,就不會(huì)糾結(jié)雙細(xì)胞的閾值該是多少。因?yàn)槲覀冑|(zhì)控的目的是去掉不是細(xì)胞的東西氧腰,不能排除某種狀態(tài)的細(xì)胞枫浙,在下游分析中,會(huì)成為我們苦苦尋找的那一個(gè)古拴。
另一個(gè)技術(shù)上的原因是:過濾掉一些細(xì)胞很容易箩帚,過濾之后再加回來就困難了。如上面的代碼黄痪,很容易subset
掉不符合條件的細(xì)胞紧帕,如果在下游的分析中發(fā)現(xiàn)質(zhì)控太嚴(yán)格,是不容易把它們加回到數(shù)據(jù)對象中的桅打。
以上是嗜,在單細(xì)胞數(shù)據(jù)科學(xué)中數(shù)據(jù)質(zhì)控的原則是:質(zhì)控時(shí)貪婪,驗(yàn)證時(shí)謹(jǐn)慎挺尾,最大限保留數(shù)據(jù)信息鹅搪。
原文鏈接:單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)質(zhì)控要?jiǎng)t