前些日子小編下載單細胞RNA測序數(shù)據(jù)時,發(fā)現(xiàn)一個奇怪的現(xiàn)象:明明是一個雙端測序的單細胞RNA測序數(shù)據(jù)豆励,但是數(shù)據(jù)下載界面只看到1 read per spot夺荒,且read讀長為98bp(圖1),熟悉10x單細胞文庫結(jié)構(gòu)的朋友們不難推測出來它是R2文件(也就是轉(zhuǎn)錄本reads)良蒸,并不包含barcode和UMI信息技扼,那么這份數(shù)據(jù)是不是就不能下載使用了呢?我們應該去哪找barcode和UMI信息呢嫩痰?
眾所周知剿吻,10x的單細胞轉(zhuǎn)錄組測序文庫采用雙端測序,所以理論上我們在數(shù)據(jù)下載界面至少要看到2 reads per spot串纺,分別包括R1(26bp:barcode和UMI序列)丽旅、R2(98bp:插入片段)。以圖2數(shù)據(jù)為例纺棺,可以看到數(shù)據(jù)集中每個spot由三部分組成榄笙,根據(jù)測序數(shù)據(jù)堿基長度就可推測它們分別是R1、R2和I1(8bp:index序列)祷蝌。
先給大家說說為什么會有這種情況出現(xiàn):
這是因為10x單細胞數(shù)據(jù)在實際上傳的時候茅撞,很多人會選擇上傳bam文件,而不是fastq文件(除了fastq文件以外巨朦,SRA鼓勵提交10x bam文件)米丘。bam是Cellranger生成的輸出文件之一,主要存儲測序數(shù)據(jù)和參考基因組比對結(jié)果糊啡,由于其特殊高效的壓縮算法拄查,使得它的文件大小偏小,便于傳輸棚蓄。而10x單細胞文庫比較特殊堕扶,雙端測序獲得的兩個文件中僅R2文件包含mRNA反轉(zhuǎn)錄后的cDNA信息,這就使得bam文件中一條read ID僅對應一行插入片段信息梭依,而barcode和UMI以tag的形式存在于bam文件中挣柬。當作者在GEO數(shù)據(jù)庫中僅上傳bam文件時,系統(tǒng)會對提交的數(shù)據(jù)進行一系列格式轉(zhuǎn)換睛挚,所以我們最終看到的便是只有1 read per spot邪蛔,在tag中的barcode UMI信息不見了。
因此要獲得該數(shù)據(jù)集的barcode和UMI信息扎狱,需要獲取作者上傳的原始bam文件侧到。點開Data access選項(一般我們進入的SRR數(shù)據(jù)的位置其實是Metadata頁面),會發(fā)現(xiàn)Original format中提供了原始bam文件(圖3)淤击。
我們可以將Data access選項卡中找到的bam文件下載匠抗,下載的bam文件再使用10x官方提供的Cellranger里的工具bamtofastq將其轉(zhuǎn)換為fastq格式文件(見圖4-5)。就可以進行后續(xù)分析啦~
bamtofastq官網(wǎng):https://github.com/10XGenomics/bamtofastq
#通過bamtofastq將bam轉(zhuǎn)成fastq
./cellranger/lib/bin/bamtofastq --nthreads=8 P1TLH.bam.1 /output/2fq_P1TLH.bam.1
小知識
單細胞測序原始文件還可通過ENA數(shù)據(jù)庫進行下載(https://www.ebi.ac.uk/ena/browser/home)污抬,這個數(shù)據(jù)庫由EMBL-Bank 核酸序列數(shù)據(jù)庫基礎(chǔ)上發(fā)展起來汞贸,EMBL數(shù)據(jù)直接來源于測序工作者提交的數(shù)據(jù)绳军,主要優(yōu)勢:界面簡潔友好,數(shù)據(jù)源直接以表格呈現(xiàn)矢腻,且可直接得到原始數(shù)據(jù)文件的下載地址门驾。比如圖1數(shù)據(jù),可直接在搜索欄輸入SRR7276478多柑,就可獲得bam文件下載鏈接奶是。
所以,在下載10x單細胞原始數(shù)據(jù)時竣灌,除了用sra-tools將SRA數(shù)據(jù)分為R1聂沙、R2、I1三個fastq.gz文件外初嘹;我們還可以直接下載bam文件(此時需注意不要再下載SRA數(shù)據(jù)了)及汉,千萬別只看到1 read per spot就覺得這個數(shù)據(jù)不能用,然后就把它放棄了屯烦。
有用的知識又增加了呢豁生!沃林團隊會不斷給你的科研帶來新思路!