前些日子小編下載單細(xì)胞RNA測序數(shù)據(jù)時(shí),發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:明明是一個(gè)雙端測序的單細(xì)胞RNA測序數(shù)據(jù)止剖,但是數(shù)據(jù)下載界面只看到1 read per spot腺阳,且read讀長為98bp(圖1)落君,熟悉10x單細(xì)胞文庫結(jié)構(gòu)的朋友們不難推測出來它是R2文件(也就是轉(zhuǎn)錄本reads),并不包含barcode和UMI信息亭引,那么這份數(shù)據(jù)是不是就不能下載使用了呢绎速?我們應(yīng)該去哪找barcode和UMI信息呢?
眾所周知焙蚓,10x的單細(xì)胞轉(zhuǎn)錄組測序文庫采用雙端測序纹冤,所以理論上我們在數(shù)據(jù)下載界面至少要看到2 reads per spot,分別包括R1(26bp:barcode和UMI序列)购公、R2(98bp:插入片段)萌京。以圖2數(shù)據(jù)為例,可以看到數(shù)據(jù)集中每個(gè)spot由三部分組成宏浩,根據(jù)測序數(shù)據(jù)堿基長度就可推測它們分別是R1知残、R2和I1(8bp:index序列)。
先給大家說說為什么會(huì)有這種情況出現(xiàn):
這是因?yàn)?0x單細(xì)胞數(shù)據(jù)在實(shí)際上傳的時(shí)候比庄,很多人會(huì)選擇上傳bam文件求妹,而不是fastq文件(除了fastq文件以外,SRA鼓勵(lì)提交10x bam文件)佳窑。bam是Cellranger生成的輸出文件之一制恍,主要存儲(chǔ)測序數(shù)據(jù)和參考基因組比對(duì)結(jié)果,由于其特殊高效的壓縮算法华嘹,使得它的文件大小偏小吧趣,便于傳輸。而10x單細(xì)胞文庫比較特殊耙厚,雙端測序獲得的兩個(gè)文件中僅R2文件包含mRNA反轉(zhuǎn)錄后的cDNA信息强挫,這就使得bam文件中一條read ID僅對(duì)應(yīng)一行插入片段信息,而barcode和UMI以tag的形式存在于bam文件中薛躬。當(dāng)作者在GEO數(shù)據(jù)庫中僅上傳bam文件時(shí)俯渤,系統(tǒng)會(huì)對(duì)提交的數(shù)據(jù)進(jìn)行一系列格式轉(zhuǎn)換,所以我們最終看到的便是只有1 read per spot型宝,在tag中的barcode UMI信息不見了八匠。
因此要獲得該數(shù)據(jù)集的barcode和UMI信息,需要獲取作者上傳的原始bam文件趴酣。點(diǎn)開Data access選項(xiàng)(一般我們進(jìn)入的SRR數(shù)據(jù)的位置其實(shí)是Metadata頁面)梨树,會(huì)發(fā)現(xiàn)Original format中提供了原始bam文件(圖3)。
我們可以將Data access選項(xiàng)卡中找到的bam文件下載岖寞,下載的bam文件再使用10x官方提供的Cellranger里的工具bamtofastq將其轉(zhuǎn)換為fastq格式文件(見圖4-5)抡四。就可以進(jìn)行后續(xù)分析啦~
bamtofastq官網(wǎng):https://github.com/10XGenomics/bamtofastq
#通過bamtofastq將bam轉(zhuǎn)成fastq
./cellranger/lib/bin/bamtofastq --nthreads=8 P1TLH.bam.1 /output/2fq_P1TLH.bam.1
小知識(shí)
單細(xì)胞測序原始文件還可通過ENA數(shù)據(jù)庫進(jìn)行下載(https://www.ebi.ac.uk/ena/browser/home),這個(gè)數(shù)據(jù)庫由EMBL-Bank 核酸序列數(shù)據(jù)庫基礎(chǔ)上發(fā)展起來,EMBL數(shù)據(jù)直接來源于測序工作者提交的數(shù)據(jù)指巡,主要優(yōu)勢:界面簡潔友好淑履,數(shù)據(jù)源直接以表格呈現(xiàn),且可直接得到原始數(shù)據(jù)文件的下載地址藻雪。比如圖1數(shù)據(jù)秘噪,可直接在搜索欄輸入SRR7276478,就可獲得bam文件下載鏈接勉耀。
所以指煎,在下載10x單細(xì)胞原始數(shù)據(jù)時(shí),除了用sra-tools將SRA數(shù)據(jù)分為R1便斥、R2贯要、I1三個(gè)fastq.gz文件外;我們還可以直接下載bam文件(此時(shí)需注意不要再下載SRA數(shù)據(jù)了)椭住,千萬別只看到1 read per spot就覺得這個(gè)數(shù)據(jù)不能用,然后就把它放棄了字逗。