我眼中的barcodes.tsv.gz/features.tsv.gz/matrix.mtx.gz

前段時間一直在用cellranger count進行單細胞測序數(shù)據的處理蹦魔,不得不說Cell Ranger作為10X Genomics官方的單細胞數(shù)據處理工具,功能還是很強大的涯呻。Cell Ranger官方介紹

cellranger count輸出結果中的outs.文件夾有幾個是非常重要的信息,我們今天只關注于filtered_feature_bc_matrix文件夾下的內容和possorted_genome_bam.bam文件量承。

cellranger count輸出結果中的outs文件夾

一般來說好唯,我們下游的Seurat分析的輸入文件會選擇filtered_feature_bc_matrix中的文件馍资,而不選擇raw_feature_bc_matrix下的文件筒主,前者是經過過濾的,去掉了低質量的信息鸟蟹。進入filtered_feature_bc_matrix文件夾會發(fā)現(xiàn)它下面包含3個文件:分別是barcodes.tsv.gz乌妙、features.tsv.gzmatrix.mtx.gz

barcodes.tsv.gz

AAACCCAAGAGATGCC-1
AAACCCAAGGTCGTAG-1
AAACCCACATCAGTCA-1
AAACCCAGTTTCCCAC-1
AAACCCATCCAAACCA-1
AAACCCATCCCTCTAG-1
AAACGAAAGCTGGTGA-1
AAACGAACAGACACAG-1
AAACGAAGTGAGATAT-1

這個文件當中記載了每個細胞的barcode信息建钥。

features.tsv.gz

ENSMUSG00000051951      Xkr4    Gene Expression
ENSMUSG00000089699      Gm1992  Gene Expression
ENSMUSG00000102331      Gm19938 Gene Expression
ENSMUSG00000102343      Gm37381 Gene Expression
ENSMUSG00000025900      Rp1     Gene Expression
ENSMUSG00000025902      Sox17   Gene Expression
ENSMUSG00000104238      Gm37587 Gene Expression
ENSMUSG00000104328      Gm37323 Gene Expression

這個文件記載了小鼠基因注釋文件中包含的基因id與symbol信息藤韵,注意,這個文件的來源是小鼠基因組的注釋文件熊经。

matrix.mtx.gz

%%MatrixMarket matrix coordinate integer general
%metadata_json: {"software_version": "cellranger-6.0.1", "format_version": 2}
32285 5741 11436472
1 1 4
2 1 1
22 1 1
24 1 8
31 1 1
41 1 1
43 1 1

這個文件主體部分包含三列泽艘,第一列為基因,即這個基因在前面features.tsv.gz中的位置奈搜;第二列為細胞悉盆,即這個細胞對應于barcodes.tsv.gz中的barcodes信息盯荤;最后一列代表在這個細胞中檢測到的這個基因的reads數(shù)馋吗。舉個例子來說:
例如第一行:1 1 4,就表示barcode為AAACCCAAGAGATGCC-1的細胞中檢測到的Xkr4基因的reads數(shù)為4秋秤。
細心的朋友會發(fā)現(xiàn)在前面還有一行:32285 5741 11436472 宏粤,這一行實際上就是一個匯總信息,例如有32285個基因灼卢,5741個細胞绍哎,11436472個非零數(shù)值。而最前面不過是指明軟件的相關信息罷了鞋真。

思考

實際上在我們進行數(shù)據分析時崇堰,都覺得這3個文件一個不可少,但實際上真的是這樣嗎?

  • features.tsv.gz

前面已經說到海诲,這個文件實際上是來源于小鼠基因組的注釋文件繁莹,所以理論上只要你在使用cellranger count時用的基因組注釋文件是一樣的,這個文件是不會變的特幔,你可以進入Cell Ranger推薦的參考基因組看是否是這樣咨演。

cd cellranger/reference/refdata-gex-mm10-2020-A/genes
#這個文件夾下面你會看到一個小鼠基因組的gtf注釋文件,名稱應該為genes.gtf
cat genes.gtf | awk '$15=="gene_name"{print$10"\t"$16}' | less -S
#看看這樣提取的基因id和name是否和features.tsv.gz一樣
"ENSMUSG00000051951";   "Xkr4";
"ENSMUSG00000089699";   "Gm1992";
"ENSMUSG00000102331";   "Gm19938";
"ENSMUSG00000102343";   "Gm37381";
"ENSMUSG00000025900";   "Rp1";
"ENSMUSG00000025902";   "Sox17";
"ENSMUSG00000104238";   "Gm37587";

你會發(fā)現(xiàn)蚯斯,順序和內容竟然和features.tsv.gz一樣的薄风,所以看起來似乎features.tsv.gz也不是那么不可或缺,咱也可以自己做拍嵌,或者說可以通用遭赂。

  • matrix.mtx.gz

這個文件,毫無疑問横辆,是必不可少的嵌牺,可以說花那么多錢做個single cell RNA sequencing就是為了這個文件。龄糊。

  • barcodes.tsv.gz

光聽這個文件的內容逆粹,感覺這個文件很重要,像某個地區(qū)居民的名單一樣炫惩,丟了豈不麻煩大了僻弹?但實際上仔細想想,它真的重要到我們不能丟嗎他嚷?
我們說蹋绽,matrix.mtx.gz里面實際上已經包含了單個細胞、單個基因的表達信息了筋蓖,這是cellranger count已經返給我們的信息卸耘,舉個形象的例子,小孩子在出生時粘咖,當?shù)貞艏块T記錄了這個小孩的性別信息蚣抗,當然還有他的名字。但是一年后瓮下,這個小朋友改名字了翰铡,但是他的性別變了嗎?并沒有讽坏!所以實際上這個barcodes.tsv.gz文件如果我們改了锭魔,只不過是給每個細胞新起了一個名字,本身并不會造成細胞RNA信息的變化和混亂路呜。
說到這里迷捧,不得不提到possorted_genome_bam.bam文件织咧,這個文件里面實際上包含了每個細胞的barcode信息,就在其中以CB開頭的那個字段里漠秋。

samtools view possorted_genome_bam.bam | less -S
#部分信息如下
CB:Z:ATTCTTGTCTCCTGTG-1
CB:Z:GTGCTGGTCACTCGAA-1
CB:Z:GCATGATAGCCGGATA-1
CB:Z:GCACGTGGTTGCCTAA-1

你可以把這部分信息提取出來烦感,重復內容合并,然后以任意順序作為barcodes.tsv.gz就可以進行Seurat分析了膛堤。哦對了手趣,得某位大佬指點,cellranger count輸出的barcodes.tsv.gz是按字母表順序的肥荔,所以(誰知道它是不是最后隨意用字母表順序輸出的呢绿渣?)

今天又是摸魚的一天!

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末燕耿,一起剝皮案震驚了整個濱河市中符,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌誉帅,老刑警劉巖淀散,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異蚜锨,居然都是意外死亡档插,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門亚再,熙熙樓的掌柜王于貴愁眉苦臉地迎上來郭膛,“玉大人,你說我怎么就攤上這事氛悬≡蛱辏” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵如捅,是天一觀的道長棍现。 經常有香客問我,道長镜遣,這世上最難降的妖魔是什么己肮? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮烈涮,結果婚禮上朴肺,老公的妹妹穿的比我還像新娘窖剑。我一直安慰自己坚洽,他們只是感情好,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布西土。 她就那樣靜靜地躺著讶舰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上跳昼,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天般甲,我揣著相機與錄音,去河邊找鬼鹅颊。 笑死敷存,一個胖子當著我的面吹牛,可吹牛的內容都是我干的堪伍。 我是一名探鬼主播锚烦,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼帝雇!你這毒婦竟也來了涮俄?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤尸闸,失蹤者是張志新(化名)和其女友劉穎彻亲,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吮廉,經...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡苞尝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了宦芦。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片野来。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖踪旷,靈堂內的尸體忽然破棺而出曼氛,到底是詐尸還是另有隱情,我是刑警寧澤令野,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布舀患,位于F島的核電站,受9級特大地震影響气破,放射性物質發(fā)生泄漏聊浅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一现使、第九天 我趴在偏房一處隱蔽的房頂上張望低匙。 院中可真熱鬧,春花似錦碳锈、人聲如沸顽冶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽强重。三九已至绞呈,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間间景,已是汗流浹背佃声。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留倘要,地道東北人圾亏。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像封拧,于是被迫代替她去往敵國和親召嘶。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內容