解憂小工具|公共數(shù)據(jù)庫中單細胞測序數(shù)據(jù)僅有一個read文件璃赡?別放棄判哥,還有救!5锟肌塌计!

前些日子小編下載單細胞RNA測序數(shù)據(jù)時,發(fā)現(xiàn)一個奇怪的現(xiàn)象:明明是一個雙端測序的單細胞RNA測序數(shù)據(jù)豆励,但是數(shù)據(jù)下載界面只看到1 read per spot夺荒,且read讀長為98bp(圖1),熟悉10x單細胞文庫結(jié)構(gòu)的朋友們不難推測出來它是R2文件(也就是轉(zhuǎn)錄本reads)良蒸,并不包含barcode和UMI信息技扼,那么這份數(shù)據(jù)是不是就不能下載使用了呢?我們應該去哪找barcode和UMI信息呢嫩痰?

圖1

眾所周知剿吻,10x的單細胞轉(zhuǎn)錄組測序文庫采用雙端測序,所以理論上我們在數(shù)據(jù)下載界面至少要看到2 reads per spot串纺,分別包括R1(26bp:barcode和UMI序列)丽旅、R2(98bp:插入片段)。以圖2數(shù)據(jù)為例纺棺,可以看到數(shù)據(jù)集中每個spot由三部分組成榄笙,根據(jù)測序數(shù)據(jù)堿基長度就可推測它們分別是R1、R2和I1(8bp:index序列)祷蝌。

圖2

先給大家說說為什么會有這種情況出現(xiàn):

這是因為10x單細胞數(shù)據(jù)在實際上傳的時候茅撞,很多人會選擇上傳bam文件,而不是fastq文件(除了fastq文件以外巨朦,SRA鼓勵提交10x bam文件)米丘。bam是Cellranger生成的輸出文件之一,主要存儲測序數(shù)據(jù)和參考基因組比對結(jié)果糊啡,由于其特殊高效的壓縮算法拄查,使得它的文件大小偏小,便于傳輸棚蓄。而10x單細胞文庫比較特殊堕扶,雙端測序獲得的兩個文件中僅R2文件包含mRNA反轉(zhuǎn)錄后的cDNA信息,這就使得bam文件中一條read ID僅對應一行插入片段信息梭依,而barcode和UMI以tag的形式存在于bam文件中挣柬。當作者在GEO數(shù)據(jù)庫中僅上傳bam文件時,系統(tǒng)會對提交的數(shù)據(jù)進行一系列格式轉(zhuǎn)換睛挚,所以我們最終看到的便是只有1 read per spot邪蛔,在tag中的barcode UMI信息不見了。

因此要獲得該數(shù)據(jù)集的barcode和UMI信息扎狱,需要獲取作者上傳的原始bam文件侧到。點開Data access選項(一般我們進入的SRR數(shù)據(jù)的位置其實是Metadata頁面),會發(fā)現(xiàn)Original format中提供了原始bam文件(圖3)淤击。

圖3

我們可以將Data access選項卡中找到的bam文件下載匠抗,下載的bam文件再使用10x官方提供的Cellranger里的工具bamtofastq將其轉(zhuǎn)換為fastq格式文件(見圖4-5)。就可以進行后續(xù)分析啦~

bamtofastq官網(wǎng):https://github.com/10XGenomics/bamtofastq

#通過bamtofastq將bam轉(zhuǎn)成fastq./cellranger/lib/bin/bamtofastq --nthreads=8 P1TLH.bam.1 /output/2fq_P1TLH.bam.1
圖4 數(shù)據(jù)轉(zhuǎn)換完成
圖5? bam文件轉(zhuǎn)換為fastq文件

小知識

單細胞測序原始文件還可通過ENA數(shù)據(jù)庫進行下載(https://www.ebi.ac.uk/ena/browser/home)污抬,這個數(shù)據(jù)庫由EMBL-Bank 核酸序列數(shù)據(jù)庫基礎(chǔ)上發(fā)展起來汞贸,EMBL數(shù)據(jù)直接來源于測序工作者提交的數(shù)據(jù)绳军,主要優(yōu)勢:界面簡潔友好,數(shù)據(jù)源直接以表格呈現(xiàn)矢腻,且可直接得到原始數(shù)據(jù)文件的下載地址门驾。比如圖1數(shù)據(jù),可直接在搜索欄輸入SRR7276478多柑,就可獲得bam文件下載鏈接奶是。

所以,在下載10x單細胞原始數(shù)據(jù)時竣灌,除了用sra-tools將SRA數(shù)據(jù)分為R1聂沙、R2、I1三個fastq.gz文件外初嘹;我們還可以直接下載bam文件(此時需注意不要再下載SRA數(shù)據(jù)了)及汉,千萬別只看到1 read per spot就覺得這個數(shù)據(jù)不能用,然后就把它放棄了屯烦。

有用的知識又增加了呢豁生!沃林團隊會不斷給你的科研帶來新思路!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末漫贞,一起剝皮案震驚了整個濱河市甸箱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌迅脐,老刑警劉巖芍殖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異谴蔑,居然都是意外死亡豌骏,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門隐锭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來窃躲,“玉大人,你說我怎么就攤上這事钦睡〉僦希” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵荞怒,是天一觀的道長洒琢。 經(jīng)常有香客問我,道長褐桌,這世上最難降的妖魔是什么衰抑? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮荧嵌,結(jié)果婚禮上呛踊,老公的妹妹穿的比我還像新娘砾淌。我一直安慰自己,他們只是感情好谭网,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布汪厨。 她就那樣靜靜地躺著,像睡著了一般蜻底。 火紅的嫁衣襯著肌膚如雪骄崩。 梳的紋絲不亂的頭發(fā)上聘鳞,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天薄辅,我揣著相機與錄音,去河邊找鬼抠璃。 笑死站楚,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的搏嗡。 我是一名探鬼主播窿春,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼采盒!你這毒婦竟也來了旧乞?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤磅氨,失蹤者是張志新(化名)和其女友劉穎尺栖,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體烦租,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡延赌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了叉橱。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挫以。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖窃祝,靈堂內(nèi)的尸體忽然破棺而出掐松,到底是詐尸還是另有隱情,我是刑警寧澤粪小,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布甩栈,位于F島的核電站,受9級特大地震影響糕再,放射性物質(zhì)發(fā)生泄漏量没。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一突想、第九天 我趴在偏房一處隱蔽的房頂上張望殴蹄。 院中可真熱鬧究抓,春花似錦、人聲如沸袭灯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽稽荧。三九已至橘茉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間姨丈,已是汗流浹背畅卓。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蟋恬,地道東北人翁潘。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像歼争,于是被迫代替她去往敵國和親拜马。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容