解憂小工具|公共數(shù)據(jù)庫中單細(xì)胞測序數(shù)據(jù)僅有一個(gè)read文件绝骚?別放棄耐版,還有救!Q雇簟粪牲!

前些日子小編下載單細(xì)胞RNA測序數(shù)據(jù)時(shí),發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:明明是一個(gè)雙端測序的單細(xì)胞RNA測序數(shù)據(jù)止剖,但是數(shù)據(jù)下載界面只看到1 read per spot腺阳,且read讀長為98bp(圖1)落君,熟悉10x單細(xì)胞文庫結(jié)構(gòu)的朋友們不難推測出來它是R2文件(也就是轉(zhuǎn)錄本reads),并不包含barcode和UMI信息亭引,那么這份數(shù)據(jù)是不是就不能下載使用了呢绎速?我們應(yīng)該去哪找barcode和UMI信息呢?


圖1

眾所周知焙蚓,10x的單細(xì)胞轉(zhuǎn)錄組測序文庫采用雙端測序纹冤,所以理論上我們在數(shù)據(jù)下載界面至少要看到2 reads per spot,分別包括R1(26bp:barcode和UMI序列)购公、R2(98bp:插入片段)萌京。以圖2數(shù)據(jù)為例,可以看到數(shù)據(jù)集中每個(gè)spot由三部分組成宏浩,根據(jù)測序數(shù)據(jù)堿基長度就可推測它們分別是R1知残、R2和I1(8bp:index序列)。

圖2

先給大家說說為什么會(huì)有這種情況出現(xiàn):

這是因?yàn)?0x單細(xì)胞數(shù)據(jù)在實(shí)際上傳的時(shí)候比庄,很多人會(huì)選擇上傳bam文件求妹,而不是fastq文件(除了fastq文件以外,SRA鼓勵(lì)提交10x bam文件)佳窑。bam是Cellranger生成的輸出文件之一制恍,主要存儲(chǔ)測序數(shù)據(jù)和參考基因組比對(duì)結(jié)果,由于其特殊高效的壓縮算法华嘹,使得它的文件大小偏小吧趣,便于傳輸。而10x單細(xì)胞文庫比較特殊耙厚,雙端測序獲得的兩個(gè)文件中僅R2文件包含mRNA反轉(zhuǎn)錄后的cDNA信息强挫,這就使得bam文件中一條read ID僅對(duì)應(yīng)一行插入片段信息,而barcode和UMI以tag的形式存在于bam文件中薛躬。當(dāng)作者在GEO數(shù)據(jù)庫中僅上傳bam文件時(shí)俯渤,系統(tǒng)會(huì)對(duì)提交的數(shù)據(jù)進(jìn)行一系列格式轉(zhuǎn)換,所以我們最終看到的便是只有1 read per spot型宝,在tag中的barcode UMI信息不見了八匠。

因此要獲得該數(shù)據(jù)集的barcode和UMI信息,需要獲取作者上傳的原始bam文件趴酣。點(diǎn)開Data access選項(xiàng)(一般我們進(jìn)入的SRR數(shù)據(jù)的位置其實(shí)是Metadata頁面)梨树,會(huì)發(fā)現(xiàn)Original format中提供了原始bam文件(圖3)。

圖3

我們可以將Data access選項(xiàng)卡中找到的bam文件下載岖寞,下載的bam文件再使用10x官方提供的Cellranger里的工具bamtofastq將其轉(zhuǎn)換為fastq格式文件(見圖4-5)抡四。就可以進(jìn)行后續(xù)分析啦~

bamtofastq官網(wǎng):https://github.com/10XGenomics/bamtofastq

#通過bamtofastq將bam轉(zhuǎn)成fastq

./cellranger/lib/bin/bamtofastq --nthreads=8 P1TLH.bam.1 /output/2fq_P1TLH.bam.1


圖4 數(shù)據(jù)轉(zhuǎn)換完成
圖5 bam文件轉(zhuǎn)換為fastq文件

小知識(shí)

單細(xì)胞測序原始文件還可通過ENA數(shù)據(jù)庫進(jìn)行下載(https://www.ebi.ac.uk/ena/browser/home),這個(gè)數(shù)據(jù)庫由EMBL-Bank 核酸序列數(shù)據(jù)庫基礎(chǔ)上發(fā)展起來,EMBL數(shù)據(jù)直接來源于測序工作者提交的數(shù)據(jù)指巡,主要優(yōu)勢:界面簡潔友好淑履,數(shù)據(jù)源直接以表格呈現(xiàn),且可直接得到原始數(shù)據(jù)文件的下載地址藻雪。比如圖1數(shù)據(jù)秘噪,可直接在搜索欄輸入SRR7276478,就可獲得bam文件下載鏈接勉耀。

所以指煎,在下載10x單細(xì)胞原始數(shù)據(jù)時(shí),除了用sra-tools將SRA數(shù)據(jù)分為R1便斥、R2贯要、I1三個(gè)fastq.gz文件外;我們還可以直接下載bam文件(此時(shí)需注意不要再下載SRA數(shù)據(jù)了)椭住,千萬別只看到1 read per spot就覺得這個(gè)數(shù)據(jù)不能用,然后就把它放棄了字逗。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末京郑,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子葫掉,更是在濱河造成了極大的恐慌些举,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件俭厚,死亡現(xiàn)場離奇詭異户魏,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)挪挤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門叼丑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人扛门,你說我怎么就攤上這事鸠信。” “怎么了论寨?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵星立,是天一觀的道長。 經(jīng)常有香客問我葬凳,道長绰垂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任火焰,我火速辦了婚禮劲装,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘荐健。我一直安慰自己酱畅,他們只是感情好琳袄,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著纺酸,像睡著了一般窖逗。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上餐蔬,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天碎紊,我揣著相機(jī)與錄音,去河邊找鬼樊诺。 笑死仗考,一個(gè)胖子當(dāng)著我的面吹牛扔嵌,可吹牛的內(nèi)容都是我干的港谊。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼澎羞,長吁一口氣:“原來是場噩夢啊……” “哼顿膨!你這毒婦竟也來了锅锨?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤恋沃,失蹤者是張志新(化名)和其女友劉穎必搞,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體囊咏,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡恕洲,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了梅割。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片霜第。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖炮捧,靈堂內(nèi)的尸體忽然破棺而出庶诡,到底是詐尸還是另有隱情,我是刑警寧澤咆课,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布末誓,位于F島的核電站,受9級(jí)特大地震影響书蚪,放射性物質(zhì)發(fā)生泄漏喇澡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一殊校、第九天 我趴在偏房一處隱蔽的房頂上張望晴玖。 院中可真熱鬧,春花似錦、人聲如沸呕屎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽秀睛。三九已至尔当,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蹂安,已是汗流浹背椭迎。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留田盈,地道東北人畜号。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像允瞧,于是被迫代替她去往敵國和親简软。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容