Seurat包之導入單細胞數(shù)據(jù)方式匯總

挖掘公共單細胞數(shù)據(jù)集時衩匣,會遇到常見各種單細胞測序數(shù)據(jù)格式。現(xiàn)總結如下粥航,方便自己日后調(diào)用琅捏,以創(chuàng)建Seurat對象
(1)barcodes.tsv.gzfeatures.tsv.gz递雀、matrix.mtx.gz
(2)表達矩陣
(3)h5
(4)h5ad

格式一:barcodes.tsv.gz柄延、features.tsv.gzmatrix.mtx.gz【☆】

  • 這是cellranger上游比對分析產(chǎn)生的3個文件,分別代表細胞標簽(barcode)搜吧、基因ID(feature)市俊、表達數(shù)據(jù)(matrix)
  • 一般先使用read10X()對這三個文件進行整合,得到行為基因滤奈、列為細胞的表達矩陣(為稀疏矩陣dgCMatrix格式摆昧,節(jié)約內(nèi)存);然后再配合CreateSeuratObject()函數(shù)創(chuàng)建Seurat對象
  • 示例數(shù)據(jù)集:GSE166635蜒程,創(chuàng)建代碼如下----
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE166635
dir="./data/HCC2/filtered_feature_bc_matrix/"
list.files(dir)
#[1] "barcodes.tsv.gz" "features.tsv.gz" "matrix.mtx.gz" 

counts <- Read10X(data.dir = dir)
class(counts)
#[1] "dgCMatrix"
#attr(,"package")
#[1] "Matrix"

scRNA <- CreateSeuratObject(counts = counts)
scRNA
#An object of class Seurat 
#33694 features across 9112 samples within 1 assay 
#Active assay: RNA (33694 features, 0 variable features)
  • 如上Read10X()函數(shù)接受的參數(shù)為目錄名绅你,該目錄包含了所需的三個配套文件;值得注意的是三個文件名只能分別是barcodes.tsv.gz昭躺、features.tsv.gz忌锯、matrix.mtx.gz,然后read10X函數(shù)可以自動加載领炫。如上截圖那樣就是需要修改的~

關于barcodes.tsv.gz偶垮、features.tsv.gzmatrix.mtx.gz三個文件的格式與內(nèi)容

  • 一般來說直接使用read10X()不會出現(xiàn)什么問題帝洪,但今天遇到GSE148192數(shù)據(jù)集時似舵,出現(xiàn)了報錯~~
dir = "./GSE148192_RAW/GSM4462451/"
list.files(dir)
#[1] "barcodes.tsv.gz" "features.tsv.gz" "matrix.mtx.gz"
counts =  Read10X(dir)
#Error in dimnamesGets(x, value) : 
#  invalid dimnames given for “dgTMatrix” object
  • 所以這個GSE ID提供的數(shù)據(jù)格式可能是有點問題,接下來就通過對比GSE166635的GSM5076750(可以正常讀入)與GSE148192的GSM4462451(讀入失敗)葱峡,探索下這三個文件的格式

(1)barcodes.tsv.gz

  • GSM5076750的格式:如下看出就簡單的一列啄枕,為細胞的barcode標簽信息


  • GSM4462451的格式:如下看出,區(qū)別在于多了行名族沃,以及三列細胞注釋信息


(2)features.tsv.gz

  • GSM5076750的格式:如下可以看出均為基因的注釋信息,前兩列為基因ID


  • GSM4462451的格式:如下看出泌参,區(qū)別在于同樣多了行名脆淹,以及額外兩列信息


(3)matrix.mtx.gz

  • GSM5076750的格式:如下(前三行為注釋信息,其中第三行為total number genes沽一、cells盖溺、counts),結合上述細胞標簽與基因名信息铣缠,知道了前兩列分別為基因和細胞的索引烘嘱,第三列為表達信息。
    利用這種方式實現(xiàn)了高效的儲存數(shù)據(jù)(值得借鑒學習)蝗蛙。以第四行為例:表示barcodes.tsv.gz文件里第一個細胞的features.tsv.gz第33665個基因的counts數(shù)為22蝇庭。
  • GSM4462451的格式:如下看出,區(qū)別有兩點:第一列為細胞索引捡硅、第二列為基因索引哮内,并且第3列是非整型數(shù)據(jù)。


經(jīng)過一番探索壮韭,將GSM4462451的barcodes.tsv.gz北发、features.tsv.gz行名刪除纹因;matrix.mtx.gz的第一列與第二列調(diào)換,第三列改為整型后琳拨,read10X()便可以順利都成功瞭恰。我認為GSM4462451這幾個文件應該是作者自己制作的,吐槽一下~~狱庇。不過了解了一番這三個文件的格式也是有所收獲惊畏。

格式二:直接提供表達矩陣

  • 這種是最方便的,直接創(chuàng)建Seurat即可
  • 示例數(shù)據(jù):GSE144320
scRNA <- CreateSeuratObject(counts = counts)
scRNA

格式三:h5格式文件

  • 使用Read10X_h5()函數(shù)僵井,讀入表達矩陣陕截,在創(chuàng)建Seurat對象
  • 示例數(shù)據(jù):GSE138433
image.png
sce <- Read10X_h5(filename = GSM4107899_LH16.3814_raw_gene_bc_matrices_h5.h5")
sce <- CreateSeuratObject(counts = sce)

格式四:h5ad格式

  • 需要安裝,使用SeuratDisk包的兩個函數(shù)批什;
  • 先將后h5ad格式轉(zhuǎn)換為h5seurat格式农曲,再使用LoadH5Seurat()函數(shù)讀取Seurat對象。
  • 示例數(shù)據(jù)集:GSE153643
#remotes::install_github("mojaveazure/seurat-disk")
library(SeuratDisk)
Convert("GSE153643_RAW/GSM4648565_liver_raw_counts.h5ad", "h5seurat",
        overwrite = TRUE,assay = "RNA")
scRNA <- LoadH5Seurat("GSE153643_RAW/GSM4648565_liver_raw_counts.h5seurat")
#注意一下驻债,我之前載入時乳规,表達矩陣被轉(zhuǎn)置了,需要處理一下~

以上是我目前了解到的針對不同數(shù)據(jù)來源合呐,創(chuàng)建Seurat對象的幾種方式暮的。如遇新的方法,會繼續(xù)補充~~

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末淌实,一起剝皮案震驚了整個濱河市冻辩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌拆祈,老刑警劉巖恨闪,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異放坏,居然都是意外死亡咙咽,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門淤年,熙熙樓的掌柜王于貴愁眉苦臉地迎上來钧敞,“玉大人,你說我怎么就攤上這事麸粮「瓤粒” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵弄诲,是天一觀的道長炊昆。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么凤巨? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任视乐,我火速辦了婚禮,結果婚禮上敢茁,老公的妹妹穿的比我還像新娘佑淀。我一直安慰自己,他們只是感情好彰檬,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布伸刃。 她就那樣靜靜地躺著,像睡著了一般逢倍。 火紅的嫁衣襯著肌膚如雪捧颅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天较雕,我揣著相機與錄音碉哑,去河邊找鬼。 笑死亮蒋,一個胖子當著我的面吹牛扣典,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播慎玖,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼贮尖,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了趁怔?” 一聲冷哼從身側響起湿硝,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎润努,沒想到半個月后图柏,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡任连,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了例诀。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片随抠。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖繁涂,靈堂內(nèi)的尸體忽然破棺而出拱她,到底是詐尸還是另有隱情,我是刑警寧澤扔罪,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布秉沼,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏唬复。R本人自食惡果不足惜矗积,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望敞咧。 院中可真熱鬧棘捣,春花似錦、人聲如沸休建。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽测砂。三九已至茵烈,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間砌些,已是汗流浹背呜投。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留寄症,地道東北人宙彪。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像有巧,于是被迫代替她去往敵國和親释漆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容