一. 序章雜記
- 一個單一的基因位點可以顯示多種的可變剪切模式,這些剪切模式產(chǎn)生不同的轉(zhuǎn)錄本亞型揭朝,而這些亞型又可能具有不同的轉(zhuǎn)錄起始位點或者聚腺苷酸化位點
疑問: 為什么RNA-seq建庫的時候需要逆轉(zhuǎn)錄構(gòu)建cDNA庫队贱,而不能直接對mRNA進(jìn)行擴增構(gòu)建文庫呢?- 一般RNA的降解速率比較快
- 現(xiàn)階段的常規(guī)測序的酶和試劑都是在DNA體系下的。
- RNA還存在ployA尾巴潭袱,像illumina的P5柱嫌,P7是不是會接不上去(這點有待商榷,不是很清楚屯换,我覺得ployA尾编丘,可以設(shè)計帶有T長序列的引物的接頭應(yīng)該也是可以的接上去的)
- Smart-seq和Smart-seq2作為單細(xì)胞測序方案,他可以完整覆蓋轉(zhuǎn)錄本的全長彤悔,實現(xiàn)了轉(zhuǎn)錄本異構(gòu)體分析和SNV分析
10X是平臺嘉抓,使用的核心是drop-seq的技術(shù),微流控晕窑。
-
10X的空間轉(zhuǎn)錄組抑片,一般配備的是切片組織,常規(guī)的scRNA是細(xì)胞懸液杨赤〕ㄕ空間轉(zhuǎn)錄組對同一組織不同位置切片可以模擬三維結(jié)構(gòu)。目前spot點每個獲得1~10個細(xì)胞疾牲,無法精確到單細(xì)胞層面植捎。
(多組學(xué)聯(lián)合分析研究思路:- 單細(xì)胞分析找差異gene或者差異分群
- 空間轉(zhuǎn)錄組根據(jù)差異gene或者群體找空間位置
- Akoya去研究這些未知的特定差異gene結(jié)合的蛋白)
-
已經(jīng)做了單細(xì)胞,為什么還要做Bulk-seq阳柔?
- 評估酶解對單細(xì)胞表達(dá)的影響
(在許多單細(xì)胞的研究中鸥跟,細(xì)胞是通過組織分離(酶消化)和熒光激活細(xì)胞分選(FACS)來獲取,但是酶解對細(xì)胞轉(zhuǎn)錄組會產(chǎn)生不同程度的影響。利用相同樣本的Bulk RNA-seq數(shù)據(jù)進(jìn)行評估医咨,分析單細(xì)胞數(shù)據(jù)和Bulk數(shù)據(jù)表達(dá)相關(guān)性枫匾。) - 細(xì)胞構(gòu)成分析
- 評估酶解對單細(xì)胞表達(dá)的影響
- 對特定的細(xì)胞表達(dá)譜進(jìn)行分析(后期驗證)
二. 單細(xì)胞測序數(shù)據(jù)分析
- 10X平臺的數(shù)據(jù)量要求,對于V3試劑要求每個細(xì)胞至少測20k reads拟淮。5000個細(xì)胞至少要有30G的數(shù)據(jù)干茉。
-
由于單細(xì)胞測序的數(shù)據(jù)量非常龐大,為了降低測序時Sample Index讀取的偏好性很泊,每個Sample Index含有四種8堿基長度序列(如下圖)
sample_index.jpg
3. cellranger專題:
(1) 首先一部分GEM包含了一個cell角虫,很少部分GEM會包含多個cells,很大部分GEM是空胞委造。但是含有背景RNA戳鹅,這些細(xì)胞被稱為背景barcode
(2) cellranger3引入了新的算法,算法基本原理:
- Step1:識別高RNA含量昏兆。(取含量最高的前N個細(xì)胞的UMI數(shù)目的99%中位數(shù)的1/10為最低標(biāo)準(zhǔn)之一)
- Step2:根據(jù)RNA圖譜找到更多的細(xì)胞(算法Enpty Drops)
4. Seurat分析專題:
Seurat對象結(jié)構(gòu)
<font color=blue>Seurat官網(wǎng)
Seurat腳本
(1) 細(xì)胞過濾:
- 通常情況枫虏,使用PercentageFeatureSet對細(xì)胞進(jìn)行線粒體(植物樣本還要看葉綠體)含量評估,Vlnplot查看爬虱,若線粒體含量偏高隶债,說明樣本可能存在很多凋亡狀態(tài)細(xì)胞,樣本情況不是很好跑筝。
- 一般的過濾標(biāo)準(zhǔn)是細(xì)胞內(nèi)基因數(shù)大于500小于5000死讹,線粒體過濾標(biāo)準(zhǔn)在5-30%具體看項目樣本的情況。
(2) 二次分析(降維曲梗,聚類赞警,差異分析等)
- 基于上一步過濾后的數(shù)據(jù)在對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化NormalizeData()
公式:標(biāo)準(zhǔn)化后基因表達(dá)量 = log1p(10000*基因counts/細(xì)胞總counts)
這一步是為了消除細(xì)胞之間不同測序深度的影響。是為了讓細(xì)胞之間可以在同一層次相互比較虏两,因為在實驗過程中仅颇,無法保證每個細(xì)胞內(nèi)部UMI結(jié)合效率等等因素。
- 基于上一步過濾后的數(shù)據(jù)在對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化NormalizeData()
- FindVariableFeatures()鑒定高變基因
- 用ScaleData()對之前做的NormalizeData()函數(shù)的表達(dá)量數(shù)值進(jìn)行z-score的轉(zhuǎn)化碘举,由于z-score的算法會將表達(dá)矩陣轉(zhuǎn)換成(0,1)的正態(tài)分布忘瓦,因為PCA所分析默認(rèn)數(shù)據(jù)符合正態(tài)分布。
目的[http://www.reibang.com/p/e98df9aa2a35]
轉(zhuǎn)換每個基因的表達(dá)值引颈,使每個細(xì)胞的平均表達(dá)為0
轉(zhuǎn)換每個基因的表達(dá)值耕皮,使細(xì)胞間的方差為1
此步驟在下游分析中具有相同的權(quán)重,因此高表達(dá)的基因不會占主導(dǎo)地位
- 用ScaleData()對之前做的NormalizeData()函數(shù)的表達(dá)量數(shù)值進(jìn)行z-score的轉(zhuǎn)化碘举,由于z-score的算法會將表達(dá)矩陣轉(zhuǎn)換成(0,1)的正態(tài)分布忘瓦,因為PCA所分析默認(rèn)數(shù)據(jù)符合正態(tài)分布。
- PCA分析蝙场,使用RunPCA()聚類后(一般PCA降維聚類使用的是高變基因)凌停,再使用JackStraw()觀察選取多少主成分分析為最佳。
- FindNeighbors()基于PCA空間中的歐氏距離計算
- Findcluster()中resolusion參數(shù)決定下游聚類分析得到的cluster數(shù)量售滤。
- RunUMAP或者RuntSNE進(jìn)行降維聚類
- Dimplot()查看聚類結(jié)果
- FindAllMarkers()尋找群體之間的差異基因 (FindAllMarkers的默認(rèn)條件過濾了p值的罚拟,但是FindMarkers沒有台诗,如果FindMarkers的ident.2不寫,而按照指定群體做差異赐俗,那么得到的結(jié)果中包含F(xiàn)indAllMarkers的基因拉队,而且會多出p值超出0.01的gene)
- FindMarkers()找尋群體內(nèi)部樣本之間的差異基因
5. CCA批次校驗
- 值得注意的是在Seurat中的FindIntegrationAnchors()尋找細(xì)胞之間錨點的函數(shù)中,reduction有兩個參數(shù)阻逮,一個是cca粱快,另一個是rpca(rpca一般用于處理大量樣本,例如超過了10萬細(xì)胞數(shù)的樣本)
- 將數(shù)據(jù)集降維到一個低緯度空間叔扼,因為CCA降維后的空間距離不是相似性而是相關(guān)性相似性和相關(guān)性的區(qū)別事哭,所以相同類型的細(xì)胞可以重疊在一起。
- CCA在降維后使用MNN(歐式幾何距離算法)找到兩個數(shù)據(jù)集之間的"距離"最近的細(xì)胞瓜富,這些細(xì)胞成為錨點
- 過濾不符合條件的錨點細(xì)胞
- 過濾后的錨點鳍咱,Seurat會計算它們的差異向量,根據(jù)此向量校正這個錨點錨定細(xì)胞的表達(dá)值与柑,校正后的數(shù)據(jù)實現(xiàn)了多個單細(xì)胞數(shù)據(jù)集的整合谤辜。(這個操作并不會在原有的表達(dá)量上直接修改數(shù)據(jù),應(yīng)該是生成了一個新的table來記錄錨定的信息)
6. SingleR分析專題:
- SingleR腳本
- 他通過給定具體已知類型標(biāo)簽的細(xì)胞樣本作為參考數(shù)據(jù)集仅胞,對測試數(shù)據(jù)集中與參考集相似的細(xì)胞進(jìn)行細(xì)胞注釋,例如人類使用的(HumanPrimaryCellAtlasData數(shù)據(jù)集)剑辫。具體來說干旧,對于每個測試的細(xì)胞:
(1) 計算每個細(xì)胞的表達(dá)譜與參考表達(dá)譜之間的Spearman相關(guān)性。這是通過在所有標(biāo)記之間識別的markergene的并集完成的妹蔽。
(2) 其次椎眯,我們將每個標(biāo)簽的分?jǐn)?shù)定義為相關(guān)分布的固定分位數(shù)(默認(rèn)為0.8)
(3) 最后,我們對所有標(biāo)簽重復(fù)此操作胳岂,然后將得分最高的標(biāo)簽作為此細(xì)胞注釋编整。
7. 細(xì)胞周期分析:
-
概念:
- 細(xì)胞周期(cell cycle)是指細(xì)胞從一次分裂完成到下一次分裂結(jié)束所經(jīng)歷的全部過程躯嫉,分為間期和分裂期兩個階段
- 間期分為三個階段:
(1) G1期旋炒,從有絲分裂到DNA復(fù)制前的一段時間,又稱為合成期栖疑,此期間主要合成RNA和核糖體产园。該期特點是物質(zhì)代謝活躍汞斧,迅速合成RNA和蛋白質(zhì),細(xì)胞體積顯著增大什燕。這一期的主要意義在于 下階段S期的DNA復(fù)制準(zhǔn)備好物質(zhì)和能量的準(zhǔn)備粘勒。
(2) S期,即DNA合成期屎即,在此期庙睡,除了合成DNA外事富,同時還要合成組蛋白,DNA復(fù)制的酶也會在這期合成乘陪。
(3) G2期统台,為DNA合成后期,為有絲分裂做準(zhǔn)備暂刘。在此期間饺谬,DNA合成終止,大量RNA和蛋白質(zhì)合成谣拣,包括微管蛋白和促成熟因子等募寨。
(4) M期,細(xì)胞分裂期森缠,分為前中后末期拔鹰。
- 細(xì)胞周期一般在質(zhì)控的時候操作,通常情況下也不考慮這個因素贵涵,在Scale數(shù)據(jù)的時候要對S.score和G2M.score進(jìn)行回歸列肢,在進(jìn)行PCA降維,這是由于若不關(guān)注細(xì)胞周期的話宾茂,細(xì)胞周期起決定作用的gene可能會影響聚類分群的結(jié)果瓷马。這步操作在于抹平細(xì)胞周期的特征基因的影響。
- 細(xì)胞周期也可以進(jìn)行個性化分析跨晴。
8. Monocle分析專題:
擬時序腳本
monocle3和monocle2練習(xí)
- <font color=blue>Monocle官網(wǎng)
-
應(yīng)用場景:
- 細(xì)胞分化軌跡期望達(dá)到兩個目標(biāo):
- 推導(dǎo)若干個可能存在分化/演化繼承關(guān)系的細(xì)胞亞群間最可能的分化路勁欧聘。
- 找出驅(qū)動細(xì)胞亞群分化的關(guān)鍵基因。
- 該應(yīng)用情景的必須基于兩點:
- 對目標(biāo)細(xì)胞亞群已經(jīng)有清晰的鑒定和拆分端盆。
- 預(yù)期其中若干細(xì)胞亞群存在譜系上的分化繼承關(guān)系怀骤,并且期望通過分析確定它們的分化過程。
- 細(xì)胞分化軌跡期望達(dá)到兩個目標(biāo):
-
計算過程:
-
Step1:信息篩選
- a) 細(xì)胞篩選:篩選潛在存在分化關(guān)系的細(xì)胞亞群焕妙。
- b) 基因篩選:保留存在差異較大或者變異較大的基因用于分析蒋伦。
-
Step2:軌跡構(gòu)建(核心步驟)
- a) 降維。
- b) 構(gòu)建細(xì)胞間分化的軌跡焚鹊,并將每個細(xì)胞映射到路勁中痕届。
-
Step3:尋找細(xì)胞分化相關(guān)基因(本質(zhì)是差異分析):
- a) 選擇發(fā)育差異基因
- b) 選擇Seurat對象降維聚類cluster中的差異基因
- c) 選擇離散程度較高的差異基因(monocle包中有計算離散程度的函數(shù)estimateDispersions())
- d) 自定義發(fā)育gene
-
Step1:信息篩選
- 通過擬時序分析(pseudotime)分析,又稱為細(xì)胞軌跡分析可以推斷出發(fā)育過程中細(xì)胞的分化軌跡和細(xì)胞的演化過程末患,在發(fā)育相關(guān)研究中使用頻率較高爷抓。
- 主要是基于關(guān)鍵基因表達(dá)模式,通過學(xué)習(xí)每個細(xì)胞必須經(jīng)歷的基因表達(dá)變化的序列阻塑,在擬時序中對單個細(xì)胞進(jìn)行排序蓝撇,模擬出時間發(fā)育過程的動態(tài)變化。而這種排序的技術(shù)表現(xiàn)為一種低緯空間排布的高維數(shù)據(jù)的降維技術(shù)陈莽。
- monocle可以從數(shù)據(jù)中用無監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)獲得這個軌跡渤昌,無監(jiān)督學(xué)習(xí)是利用seurat對細(xì)胞進(jìn)行聚類虽抄,通過cluster間的差異基因?qū)?xì)胞進(jìn)行排序。
-
擬時序分析的研究目的:
- 對什么類型細(xì)胞的細(xì)胞進(jìn)行擬時序分析独柑,這類細(xì)胞在不同的分化軌跡或者細(xì)胞亞型的區(qū)別上是否明顯迈窟。
- 可分析比較組間的差異和多樣本間擬時序分析的差別。
- 需要注意的是:
- monocle包本身有質(zhì)控和分群的功能忌栅,由于一般所給的對象已經(jīng)經(jīng)過了Suerat質(zhì)控和分群過程车酣,所以通常情況下進(jìn)行擬時序分析時不需要再次操作。
- 什么是細(xì)胞通訊:
- 細(xì)胞通訊是指一個細(xì)胞發(fā)出的信息通過介質(zhì)傳遞到另一個細(xì)胞產(chǎn)生的相應(yīng)反應(yīng)索绪。細(xì)胞有三種通訊方式:
- 通過化學(xué)信號分子湖员,這是動植物最普遍采用的通訊方式
- 通過臨近細(xì)胞表面分子的粘著
- 通過細(xì)胞與細(xì)胞外基質(zhì)的粘著
- 細(xì)胞通訊是指一個細(xì)胞發(fā)出的信息通過介質(zhì)傳遞到另一個細(xì)胞產(chǎn)生的相應(yīng)反應(yīng)索绪。細(xì)胞有三種通訊方式:
- 作用:
- 揭示發(fā)育過程中各類細(xì)胞的相互作用
- 探索腫瘤免疫微環(huán)境
- 挖掘疾病潛在的治療靶點。
1. cellphoneDB(python模塊):
- 自帶數(shù)據(jù)庫瑞驱,基于表達(dá)量的富集分析娘摔。
2. cellchat(R模塊):
cellchat練習(xí)腳本
-
功能:
- 它能沿著細(xì)胞發(fā)育軌跡分析細(xì)胞間通訊的連續(xù)狀態(tài)
- 它可以通過結(jié)合社交網(wǎng)絡(luò)分析、模式識別和流型學(xué)習(xí)的方法唤反,使用集成方法對推斷的cell-cell通訊網(wǎng)絡(luò)進(jìn)行定量表征和比較
- 它提供了一個易于使用的工具凳寺,用于提取和可視化推斷網(wǎng)絡(luò)的高階信息。例如:它可以隨時預(yù)測所有細(xì)胞群的主要信號輸入和輸出彤侍,以及這些細(xì)胞群和信號如何協(xié)調(diào)在一起以實現(xiàn)功能肠缨。
- 它提供了幾個可視化輸出,以便直觀展示數(shù)據(jù)可讀性
-
cellchat分析需要的文件:
- cellchat需要細(xì)胞的基因表達(dá)數(shù)據(jù)作為輸入盏阶,并且將基因表達(dá)與信號的配受體以及輔助因子之間的相互作用用先驗知識相結(jié)合來模擬細(xì)胞間的通訊概率
- 需要輸入的文件包含了:1.細(xì)胞基因的表達(dá)矩陣晒奕;2.用戶分配的細(xì)胞標(biāo)簽(也可以是Findcluster得到的細(xì)胞群體)或者無標(biāo)簽?zāi)J剑ㄟ@種模式cellchat通過基于低維空間或者偽時間軌跡空間中單元格距離構(gòu)建共享鄰居圖來自動對單元格進(jìn)行分組)
-
基本分析:
- 通常由于使用Seurat包進(jìn)行前置分析,這里就需要轉(zhuǎn)化成cellchat的專屬對象般哼。
- 配受體數(shù)據(jù)庫的導(dǎo)入
- cellchat擁有自己人工整理的數(shù)據(jù)庫吴汪,包含有文獻(xiàn)支持的小鼠和人的配受體相互作用
-
數(shù)據(jù)的預(yù)處理以研究細(xì)胞之間的通訊分析:
- 為了推斷細(xì)胞狀態(tài)的特異性通訊惠窄,會在一個細(xì)胞群體中識別過表達(dá)的配受體對蒸眠。
- 如果配受體對過表達(dá),則識別過表達(dá)的配受體的相互作用
- 還可以將基因的表達(dá)數(shù)據(jù)投射到蛋白-蛋白網(wǎng)絡(luò)(PPI)功能
- 細(xì)胞間通訊的推斷
cellchat通過對每個交互分配一個概率值并執(zhí)行排列測試來推斷具有生物學(xué)意義的細(xì)胞間的通訊杆融。
cellchat通過使用質(zhì)量作用定律 (質(zhì)量作用定律:化學(xué)反應(yīng)速率與反應(yīng)物的有效質(zhì)量成正比)將基因表達(dá)與先前已知的信號配體楞卡、受體以及輔因子之間的相互作用的知識相結(jié)合,對細(xì)胞通訊的概率進(jìn)行建模
-
操作的步驟:
- 計算通訊概率并推斷細(xì)胞信號網(wǎng)絡(luò)
- 在信號通路水平上推斷細(xì)胞間的通訊
- 可視化
-
研究思路和可視化:
- 可以查看感興趣的細(xì)胞群體之間的通訊關(guān)系脾歇,研究特定的配受體對以及所對應(yīng)的通路信息
- 可以研究特定通路的每個配受體對蒋腮,對通路的貢獻(xiàn),并且可視化
特定通路的層次圖.PNG層次圖左邊圖表示以左邊實心點代表的中間的空心為接收(看中間target即可看出)藕各,所有群體對target的自分泌和旁分泌信號池摧,右邊圖表示以右邊實心點代表的中間的空心為接收。(看小標(biāo)題可以知道含義)
特定通路在不同細(xì)胞群體之間的熱圖.png
- 可視化單個配受體對介導(dǎo)的細(xì)胞群體間的通訊
-
可視化由多個配受體或信號通路介導(dǎo)的細(xì)胞間的細(xì)胞通訊(這里顯示了特定群體對其他群體所有重要的互作對)
多個配受體或信號通路介導(dǎo)的細(xì)胞間的細(xì)胞通訊.jpg