Single Cell RNA-seq Analysis 學(xué)習(xí)記錄（一）：原理理解

前言

這次學(xué)習(xí)的本體是來自劍橋大學(xué): Vladimir Kiselev, Tallulah Andrews, Davis McCarthy and Martin Hemberg幾位大佬建立的course→Analysis of single cell RNA-seq data以及來自哈佛大學(xué)醫(yī)學(xué)院的 McCarroll Lab的Computational resources的CookBook

University of Cambridge

Harvard Medical School

NOTIFICATION呛占！:10月30號和11月1號有了重大更新胞四，目前僅介紹最新的background蔽挠，方法學(xué)等更新和學(xué)習(xí)后再論述

取得翻譯許可
Sure, feel free to translate and adapt the course to your audience. It is under GPL-3 license.
——Vladimir Kiselev

正文

第二代測序技術(shù)的發(fā)展給生物學(xué)的研究帶來了極大突破。高通量測序現(xiàn)已被用于研究的各個(gè)領(lǐng)域，Bulk RNA-seq作為其中的突出代表，在比較轉(zhuǎn)錄組學(xué)，疾病研究中發(fā)揮著極大的作用。然則其功能依然有著相對薄弱的地方潮孽，例如表達(dá)水平是一群細(xì)胞的相對平均水平，對于復(fù)雜的表達(dá)時(shí)刻變化的系統(tǒng)無法使用筷黔，對于基因表達(dá)的特性也無法研究往史。

所以single cell RNA-seq的技術(shù)也應(yīng)運(yùn)而生，這種技術(shù)首先由M Azim Surani及湯富酬創(chuàng)建于2009年佛舱，發(fā)表于NATURE METHOD:Tang, Fuchou, Catalin Barbacioru, Yangzhou Wang, Ellen Nordman, Clarence Lee, Nanlan Xu, Xiaohui Wang, et al. 2009. “mRNA-Seq Whole-Transcriptome Analysis of a Single Cell.” Nat. Methods 6 (5): 377–82.
但是直到14年隨著方法的成熟與測序成本的降低這種方法才漸漸的進(jìn)入大家的視野椎例。

Single-cell 工作流程 OVERVIEW

ingle cell sequencing (taken from Wikipedia)

原理

以Nanoliter Droplets方法為例：
Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets

overview

首先是組織處理得到單細(xì)胞挨决，包裹在單個(gè)的microparticle里面，而microparticle里面又存有包含polyT的beads订歪，于是可以結(jié)合mRNA反轉(zhuǎn)成為cDNA脖祈，建成pool進(jìn)行PCR擴(kuò)增，最后混合所有的STAMPs高通量測序得到數(shù)據(jù)刷晋。

microparticle

每個(gè)micro particle上面的序列由四個(gè)部分組成：

一段一樣的序列盖高，PCR handle用于后續(xù)的PCR擴(kuò)增
bead特異性的barcode，10 - 12bp眼虱，用來區(qū)分單個(gè)細(xì)胞喻奥，理論上存在4^12 (16,777,216)個(gè)barcode，也就是說最多可以處理1600W個(gè)細(xì)胞
UMI捏悬，Unique Molecular Identifier撞蚕，4 - 8bp，每個(gè)beads上理論存在4^8 (65,536)個(gè)UMI过牙，用來區(qū)分transcripts甥厦，理論上可以區(qū)分6W個(gè)轉(zhuǎn)錄本
30bp的oligo-dT，用來捕捉mRNA完成反轉(zhuǎn)錄

數(shù)據(jù)分析流程

這個(gè)課程呢寇钉，主要關(guān)注scRNA-seq的到的數(shù)據(jù)處理刀疙，mark黃色的部分呢，是適用于高通量測序的數(shù)據(jù)處理流程摧莽；mark橙色的部分呢庙洼，則是需要利用已有的處理RNA-seq的工具和一些新開發(fā)的區(qū)分scRNA-seq的方法；mark藍(lán)色的部分镊辕，就是需要專門的處理scRNA-seq的軟件來探究這里面的生物學(xué)意義了。

Flowchart of the scRNA-seq analysis

現(xiàn)有挑戰(zhàn)

單細(xì)胞RNA測序區(qū)別于混池RNA測序的地方在于每個(gè)測序庫（sequencing library）都代表著一個(gè)單細(xì)胞蚁袭，所以我們應(yīng)該將著眼點(diǎn)放在比較單個(gè)不同細(xì)胞上（或細(xì)胞群）征懈，這種測序庫（sequencing library）的差異來源于一下兩個(gè)方面：

Amplification：擴(kuò)增偏差，單個(gè)細(xì)胞初始轉(zhuǎn)錄本的捕捉效率和低輸入會導(dǎo)致這樣的偏差
Gene ‘dropouts’ ：基因丟失揩悄，有些基因會在某個(gè)細(xì)胞里檢測到具有中等表達(dá)水平卻在其它細(xì)胞里面沒有被發(fā)現(xiàn)

以上兩點(diǎn)也正式目前研究較多的領(lǐng)域卖哎，大家都致力于消除這些偏差使得數(shù)據(jù)更具有可分析性

實(shí)驗(yàn)方法

Overview of experimental methods for generating scRNA-seq data

目前單細(xì)胞測序領(lǐng)域非常火熱删性，近些年來涌現(xiàn)出很多測序方法亏娜，包括但不限于：

CEL-seq
CEL-seq2
Drop-seq （原理介紹使用的方法）
InDrop-seq
MARS-seq
SCRB-seq
Seq-well
Smart-seq
Smart-seq2
SMARTer
STRT-seq

但是即使測序辦法繁多豐富，但根底里是需要面對兩個(gè)問題：quantification（定量）和 capture（捕捉）

Quantification（定量）

關(guān)于quantification（定量）蹬挺，目前存有著兩種處理方式：full-length（全長） and tag-based（標(biāo)簽依賴）
full-length的處理方法旨在對每個(gè)轉(zhuǎn)錄本獲取統(tǒng)一的測序覆蓋度维贺，相反tag-based處理方法只捕捉mRNA的5'或3'端，定量處理方法的選擇取決于你后期想要分析的目的巴帮。
理論上溯泣，full-length的處理可以提供一個(gè)相對平均的測序覆蓋度虐秋，但是就目前的結(jié)果來說還是存在著很多bias。
而tag-based的優(yōu)勢在于它可以結(jié)合UMI（前面介紹過）來提高定量的水平垃沦，缺點(diǎn)在于未捕捉完全的轉(zhuǎn)錄本序列客给，在比對的時(shí)候無法區(qū)分iosform (Archer et al. 2016)

Capture（捕捉）

捕捉RNA的策略決定了你的產(chǎn)出，細(xì)胞如何被選擇包括是否攜帶額外信息都值得大做文章肢簿。三個(gè)被廣泛運(yùn)用的方法包括：

microwell-based
microfluidic-based
droplet-based

microwell-based

簡單來說靶剑，這種方法就是把單個(gè)細(xì)胞利用laser capture或者example pipette的技術(shù)分離到微流體孔里面。這種技術(shù)的既有優(yōu)勢在于可以結(jié)合FACS分選技術(shù)池充，根據(jù)細(xì)胞表面marker挑選出的合適的細(xì)胞亞群桩引，并且可以對細(xì)胞形態(tài)進(jìn)行記錄，找出并丟棄損傷細(xì)胞或粘連的非單個(gè)細(xì)胞纵菌。這個(gè)技術(shù)的缺陷在于由于分選的局限性導(dǎo)致的低通量阐污，和相匹配的較大的工作量。

Image of microwell plates (image taken from Wikipedia)

microfluidic-based

以Fluidigm’s C1舉例咱圆，其提供了一個(gè)整合的細(xì)胞捕獲系統(tǒng)笛辟，并可以執(zhí)行建庫前的反應(yīng)，所以相對于microwell-based方法有更高的通量序苏。
但其弊端在于其只能捕獲10%左右的細(xì)胞手幢，所以不太適合應(yīng)用于有較少樣品量或者樣品較為珍惜的情況。

Image of a 96-well Fluidigm C1 chip (image taken from Fluidigm)

droplet-based

這種技術(shù)就是我以上介紹的原理的例子忱详，通過納升級別的攜帶beads的小液滴围来，捕獲單個(gè)細(xì)胞，并在液滴內(nèi)完成建庫匈睁，其優(yōu)勢在于可以定量的鑒別每個(gè)cell內(nèi)的轉(zhuǎn)錄本數(shù)量监透，劣勢在于測序深度低，往往一個(gè)細(xì)胞只有小幾千個(gè)轉(zhuǎn)錄本被檢測到航唆。

Schematic overview of the drop-seq method (Image taken from Macosko et al)

What platform to use for my experiment?

老生常談
適合的即是最好的胀蛮。

你所選用的決定于你想要研究什么樣的生物學(xué)問題。
假如想要定義一個(gè)組織內(nèi)細(xì)胞的組成成分糯钙，那么droplet-based方法是較為有效的粪狼，因?yàn)樗梢圆蹲降较鄬Υ髷?shù)量級的細(xì)胞。
換一個(gè)方面來說任岸，加入想要去研究一群數(shù)量有限而又知道細(xì)胞表面分子marker的細(xì)胞再榄，那么FACS分選接測序才是較好的方案。
想要研究可變剪切轉(zhuǎn)錄本享潜，自然需要全長測序的實(shí)驗(yàn)方案困鸥，這個(gè)時(shí)候tag標(biāo)簽和UMI就成了異常雞肋的存在（當(dāng)然在定量中還是舉足輕重的，要看如何取舍了）米碰。
Enard團(tuán)隊(duì)(Ziegenhain et al. 2017) 和Teichmann團(tuán)隊(duì) (Svensson et al. 2017) 的通過對同一個(gè)樣本(mESCs)的測序和分析比較了現(xiàn)存于市場上的幾種測序方法窝革，在控制細(xì)胞輸入數(shù)量和測序深度的時(shí)候购城，作者得以探究的不同實(shí)驗(yàn)方案特有的敏感性/噪音水平/花費(fèi)，結(jié)論可見下圖：

overview

可以發(fā)現(xiàn)虐译，不同的實(shí)驗(yàn)方案至多會造成兩倍的實(shí)驗(yàn)差距瘪板，實(shí)驗(yàn)方案的抉擇從一開始就決定了你的實(shí)驗(yàn)結(jié)果的好壞。
針對檢測準(zhǔn)確性和敏感性的探究則使用了人工合成的已知濃度的spike-in來進(jìn)行漆诽。

overview

當(dāng)然啦侮攀，隨著時(shí)間的進(jìn)展，實(shí)驗(yàn)方法的提高和數(shù)據(jù)分析手段的開發(fā)厢拭，我們對于這些單細(xì)胞測序方法會有更深層次的了解兰英，但就目前而言，這個(gè)研究可以很好的幫助科研工作者選擇他適合的工具并完成他的目的供鸠。

日常Bob鎮(zhèn)樓

最后編輯于：2022.08.30 21:56:34

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末畦贸，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子楞捂，更是在濱河造成了極大的恐慌薄坏，老刑警劉巖，帶你破解...
沈念sama閱讀 216,843評論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件寨闹，死亡現(xiàn)場離奇詭異胶坠，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)繁堡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,538評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門沈善，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人椭蹄，你說我怎么就攤上這事闻牡。” “怎么了绳矩？”我有些...
開封第一講書人閱讀 163,187評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵澈侠，是天一觀的道長。經(jīng)常有香客問我埋酬，道長，這世上最難降的妖魔是什么烧栋？我笑而不...
開封第一講書人閱讀 58,264評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任写妥，我火速辦了婚禮，結(jié)果婚禮上审姓，老公的妹妹穿的比我還像新娘珍特。我一直安慰自己，他們只是感情好魔吐，可當(dāng)我...
茶點(diǎn)故事閱讀 67,289評論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布扎筒。她就那樣靜靜地躺著莱找，像睡著了一般。火紅的嫁衣襯著肌膚如雪嗜桌。梳的紋絲不亂的頭發(fā)上奥溺，一...
開封第一講書人閱讀 51,231評論 1贊 299
城市分裂傳說
那天，我揣著相機(jī)與錄音骨宠，去河邊找鬼浮定。笑死，一個(gè)胖子當(dāng)著我的面吹牛层亿，可吹牛的內(nèi)容都是我干的桦卒。我是一名探鬼主播，決...
沈念sama閱讀 40,116評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼匿又，長吁一口氣：“原來是場噩夢啊……” “哼方灾！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起碌更，我...
開封第一講書人閱讀 38,945評論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤裕偿，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后针贬，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體击费，經(jīng)...
沈念sama閱讀 45,367評論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,581評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年桦他，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蔫巩。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,754評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡快压，死狀恐怖圆仔，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蔫劣，我是刑警寧澤坪郭，帶...
沈念sama閱讀 35,458評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站脉幢，受9級特大地震影響歪沃，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜嫌松，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,068評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一沪曙、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧萎羔，春花似錦液走、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,692評論 0贊 22
一樁弒父案缘眶，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽嘱根。三九已至，卻和暖如春巷懈，著一層夾襖步出監(jiān)牢的瞬間该抒，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,842評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工砸喻，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留柔逼，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,797評論 2贊 369
代替公主和親
正文我出身青樓割岛，卻偏偏與公主長得像愉适，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子癣漆，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,654評論 2贊 354

Single Cell RNA-seq Analysis 學(xué)習(xí)記錄（一）：原理理解

前言

NOTIFICATION呛占！:10月30號和11月1號有了重大更新胞四，目前僅介紹最新的background蔽挠，方法學(xué)等更新和學(xué)習(xí)后再論述

正文

原理

數(shù)據(jù)分析流程

現(xiàn)有挑戰(zhàn)

實(shí)驗(yàn)方法

Overview of experimental methods for generating scRNA-seq data

Quantification（定量）

Capture（捕捉）

microwell-based

microfluidic-based

droplet-based

What platform to use for my experiment?

推薦閱讀更多精彩內(nèi)容