單細胞軟件安裝和測試

劉小澤寫于18.9.29
上一次是理論知識和準備工作腾供,這次開始軟件安裝和測試

軟件安裝和檢測

cellranger這個軟件內容十分豐富,整合了大量的第三方工具,因此解壓需要一段時間,解壓完成后導入環(huán)境變量虱岂,按照官方要求,還要進行安裝檢測菠红,看一下安裝是否完整第岖;另外把下載的數據庫文件也解壓一下

cd /db/10X
tar -xzvf refdata-cellranger-ercc92-1.2.0.tar.gz
tar -xzvf refdata-cellranger-hg19-1.2.0.tar.gz
tar -xzvf refdata-cellranger-hg19-and-mm10-1.2.0.tar.gz
cd /opt
tar -xzvf cellranger-2.2.0.tar.gz
export PATH=/opt/cellranger-2.2.0:$PATH
cellranger testrun --id=tiny # 32核檢測大約8分鐘,檢查結束如下圖,會生成tiny/tiny.mri.tgz這樣的文件

cellranger主要包括:

# Usage:
cellranger mkfastq #將Illumina得到的原始BCL文件轉為FASTQ

cellranger count # 比對试溯、過濾蔑滓、條形碼和UMI計數
cellranger aggr # 針對多個樣本的情況,把count合并而且標準化成相同的測序深度之后遇绞,再計算gene-barcode矩陣
cellranger reanalyze #將count或者aggr得到的gene-barcode 矩陣進行降維键袱、聚類

# 10X Genomics的專屬算法和RNA測序比對軟件STAR結合,可以得到BAM摹闽、MEX蹄咖、CSV、HDF5付鹿、HTML的標準格式的結果

下載測序數據

cellranger要求fastq格式的數據澜汤,可以通過cellranger mkfastq轉換蚜迅、illumina的bcl2fastq轉換、已發(fā)布數據集俊抵、cellranger bamtofastq轉換得到

下載已有的數據集:https://support.10xgenomics.com/single-cell-gene-expression/datasets谁不,選擇小鼠1k Brain Cells from an E18 Mouse數據集,來自E18小鼠皮層徽诲、海馬區(qū)和腦室下區(qū)刹帕,結果檢測到了931個細胞

nohup wget http://cf.10xgenomics.com/samples/cell-exp/2.1.0/neurons_900/neurons_900_fastqs.tar &

# total 5.4G
37M Aug 25  2017 neurons_900_S1_L001_I1_001.fastq.gz
643M Aug 25  2017 neurons_900_S1_L001_R1_001.fastq.gz
1.8G Aug 25  2017 neurons_900_S1_L001_R2_001.fastq.gz
239M Aug 25  2017 neurons_900_S1_L002_I1_001.fastq.gz
646M Aug 25  2017 neurons_900_S1_L002_R1_001.fastq.gz
1.8G Aug 25  2017 neurons_900_S1_L002_R2_001.fastq.gz

文件的命名規(guī)則:[Sample Name] S1_L00 [Lane Number][Read Type]_001.fastq.gz。
比如這里sample name是neurons_900谎替,lane有兩個1和2偷溺,
Read type有三種:I1Sample index read也就是cell-barcode;R1read1((UMI) reads)院喜;R2read2

與普通fastq文件相比亡蓉,單細胞RNASeq fastq文件包含條形碼和唯一分子標識符(UMI)的額外信息晕翠。從文件大小也能看出來喷舀,只有read2是轉錄本序列

cellranger count --id= mm_neurons \ #生成的文件都放在這個名字的目錄下(必選)
--fastqs=/project/scRNA-seq/10X/raw/neurons_900_fastqs \ #(必選)
--transcriptome=/db/10X/refdata-cellranger-mm10-1.2.0 \ #(必選)
--expect-cells=900 #(可選)期望得到的細胞數
--localcores 10 \ # CPU

如果數據包括許多sample,可以指定--sample=SMAPLENAME淋肾,另外還可以指定lane的編號硫麻,如--lanes=1

運行成功會提示:

目錄 描述
analysis 降維PCA、聚類樊卓、差異分析(全是CSV矩陣)
cloupe.cloupe Loupe Cell Browser可視化及分析文件
filtered_gene_bc_matrices 過濾后的gene-barcode矩陣(只包含MEX格式)
filtered_gene_bc_matrices_h5.h5 過濾后的gene-barcode矩陣(HDF5格式)
molecule_info.h5 使用cellranger aggr產生的信息拿愧,作用是把樣本組合成更大的數據集
possorted_genome_bam.bam reads比對到帶有barcode注釋的基因組和轉錄組
possorted_genome_bam.bam.bai bam的index信息
raw_gene_bc_matrices 未過濾的gene-barcode矩陣
web_summary.html 網頁版總結(下圖)

Cellranger的一些知識

比對流程

  • 基因組比對:使用STAR將reads比對到基因組的過程是考慮剪切位點的,然后cellranger將轉錄組注釋信息GTF分解成外顯子碌尔、內含子以及基因間的區(qū)域浇辜,并給出比對類型的顯著性。如果比對的位置與外顯子有超過50%的交叉唾戚,那么就認為它比對到了外顯子柳洋;如果不是外顯子并且和內含子有交叉,就認為是內含子叹坦,否則就是基因間區(qū)域
  • MAPQ調整:MapQ = -10 log10(P)熊镣,比如結果為30,那就是1/1000的概率會出現這個比對結果募书。對于比對到一個外顯子位點但同時還比對到一或多個的非外顯子位點绪囱,優(yōu)先考慮比對到外顯子,MAPQ 255值為255時果斷認為read比對上了外顯子
  • 比對轉錄組:比對上外顯子的read繼續(xù)與有注釋的轉錄本比對莹捡,尋找兼容性鬼吵。與轉錄組的外顯子匹配并且比對到同一條鏈上,就可以被認為比對到了轉錄組篮赢;如果只匹配一個基因的注釋而柑,那么它的比對是唯一的并且可信度高文捶。只有比對到轉錄組可信度高的reads才能用于UMI計數

了解下分子條形碼/標簽

分子條形碼又稱分子標簽(MolecularBarcode, 又稱UID Unique identifiers, UMI Unique molecularidentifiers)是對原始樣本基因組打斷后的每一個片段都加上一段特有的標簽序列,來區(qū)分同一樣本中成千上萬的不同的片段媒咳,在后續(xù)的數據分析中可以通過這些標簽序列來排除 DNA 聚合酶粹排、擴增以及測序過程中所引入的錯誤

一般UMI由大約10nt的隨機序列(如:NNNNNNNNN)或者簡并堿基(根據密碼子的兼并性,常用一個符號代替某兩個或者更多堿基,如NNNRNYN)涩澡。它和樣本標簽(sample barcode)不同顽耳,UMI是針對一個樣本的不同片段,而樣本標簽是為區(qū)分不同樣本 加上的標簽序列妙同。

一個樣本只能有一個相同的樣品標簽射富,但可以有成千上萬的分子條形碼

  • 同一個樣本的 DNA 片段,每一個片段都接上一個特定的標簽序列粥帚;
  • 隨目標序列一起經過文庫構建胰耗、PCR 擴增,然后被一同測序芒涡;
  • 最終測序結果中柴灯,帶有不同UMI的序列,代表它們來自不同的原始 DNA 片段分子费尽;帶有相同UMI的序列赠群,表示它們是從同一條原始的 DNA 片段擴增而

設置UMI目的:PCR 和測序過程中的錯誤是隨機發(fā)生的,根據UMI可以去除冗余旱幼,降低低頻突變的假陽性率


歡迎關注我們的公眾號~_~  
我們是兩個農轉生信的小碩查描,打造生信星球,想讓它成為一個不拽術語柏卤、通俗易懂的生信知識平臺冬三。需要幫助或提出意見請后臺留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市缘缚,隨后出現的幾起案子勾笆,更是在濱河造成了極大的恐慌,老刑警劉巖忙灼,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件匠襟,死亡現場離奇詭異,居然都是意外死亡该园,警方通過查閱死者的電腦和手機酸舍,發(fā)現死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來里初,“玉大人啃勉,你說我怎么就攤上這事∷粒” “怎么了淮阐?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵叮阅,是天一觀的道長。 經常有香客問我泣特,道長浩姥,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任状您,我火速辦了婚禮勒叠,結果婚禮上,老公的妹妹穿的比我還像新娘膏孟。我一直安慰自己眯分,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布柒桑。 她就那樣靜靜地躺著弊决,像睡著了一般。 火紅的嫁衣襯著肌膚如雪魁淳。 梳的紋絲不亂的頭發(fā)上飘诗,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音先改,去河邊找鬼疚察。 笑死蒸走,一個胖子當著我的面吹牛仇奶,可吹牛的內容都是我干的。 我是一名探鬼主播比驻,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼该溯,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了别惦?” 一聲冷哼從身側響起狈茉,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎掸掸,沒想到半個月后氯庆,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡扰付,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年堤撵,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片羽莺。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡实昨,死狀恐怖,靈堂內的尸體忽然破棺而出盐固,到底是詐尸還是另有隱情荒给,我是刑警寧澤丈挟,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站志电,受9級特大地震影響曙咽,放射性物質發(fā)生泄漏。R本人自食惡果不足惜挑辆,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一桐绒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧之拨,春花似錦茉继、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至吉挣,卻和暖如春派撕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背睬魂。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工终吼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人氯哮。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓际跪,卻偏偏與公主長得像,于是被迫代替她去往敵國和親喉钢。 傳聞我的和親對象是個殘疾皇子姆打,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內容