Seurat包之導入單細胞數(shù)據(jù)方式匯總

挖掘公共單細胞數(shù)據(jù)集時衩匣，會遇到常見各種單細胞測序數(shù)據(jù)格式。現(xiàn)總結如下粥航，方便自己日后調(diào)用琅捏，以創(chuàng)建Seurat對象
（1）barcodes.tsv.gz、features.tsv.gz递雀、matrix.mtx.gz
（2）表達矩陣
（3）h5
（4）h5ad

格式一：`barcodes.tsv.gz`柄延、`features.tsv.gz`、`matrix.mtx.gz`【☆】

這是cellranger上游比對分析產(chǎn)生的3個文件，分別代表細胞標簽(barcode)搜吧、基因ID(feature)市俊、表達數(shù)據(jù)（matrix）
一般先使用read10X()對這三個文件進行整合，得到行為基因滤奈、列為細胞的表達矩陣（為稀疏矩陣dgCMatrix格式摆昧，節(jié)約內(nèi)存）；然后再配合CreateSeuratObject()函數(shù)創(chuàng)建Seurat對象
示例數(shù)據(jù)集：GSE166635蜒程，創(chuàng)建代碼如下----

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE166635

dir="./data/HCC2/filtered_feature_bc_matrix/"
list.files(dir)
#[1] "barcodes.tsv.gz" "features.tsv.gz" "matrix.mtx.gz" 

counts <- Read10X(data.dir = dir)
class(counts)
#[1] "dgCMatrix"
#attr(,"package")
#[1] "Matrix"

scRNA <- CreateSeuratObject(counts = counts)
scRNA
#An object of class Seurat 
#33694 features across 9112 samples within 1 assay 
#Active assay: RNA (33694 features, 0 variable features)

如上Read10X()函數(shù)接受的參數(shù)為目錄名绅你，該目錄包含了所需的三個配套文件；值得注意的是三個文件名只能分別是barcodes.tsv.gz昭躺、features.tsv.gz忌锯、matrix.mtx.gz，然后read10X函數(shù)可以自動加載领炫。如上截圖那樣就是需要修改的~

關于`barcodes.tsv.gz`偶垮、`features.tsv.gz`、`matrix.mtx.gz`三個文件的格式與內(nèi)容

一般來說直接使用read10X()不會出現(xiàn)什么問題帝洪，但今天遇到GSE148192數(shù)據(jù)集時似舵，出現(xiàn)了報錯~~

dir = "./GSE148192_RAW/GSM4462451/"
list.files(dir)
#[1] "barcodes.tsv.gz" "features.tsv.gz" "matrix.mtx.gz"
counts =  Read10X(dir)
#Error in dimnamesGets(x, value) : 
#  invalid dimnames given for “dgTMatrix” object

所以這個GSE ID提供的數(shù)據(jù)格式可能是有點問題，接下來就通過對比GSE166635的GSM5076750(可以正常讀入)與GSE148192的GSM4462451(讀入失敗)葱峡，探索下這三個文件的格式

（1）`barcodes.tsv.gz`

GSM5076750的格式：如下看出就簡單的一列啄枕，為細胞的barcode標簽信息
GSM4462451的格式：如下看出，區(qū)別在于多了行名族沃，以及三列細胞注釋信息

（2）`features.tsv.gz`

GSM5076750的格式：如下可以看出均為基因的注釋信息，前兩列為基因ID
GSM4462451的格式：如下看出泌参，區(qū)別在于同樣多了行名脆淹，以及額外兩列信息

（3）`matrix.mtx.gz`

GSM5076750的格式：如下(前三行為注釋信息，其中第三行為total number genes沽一、cells盖溺、counts)，結合上述細胞標簽與基因名信息铣缠，知道了前兩列分別為基因和細胞的索引烘嘱，第三列為表達信息。
利用這種方式實現(xiàn)了高效的儲存數(shù)據(jù)(值得借鑒學習)蝗蛙。以第四行為例：表示barcodes.tsv.gz文件里第一個細胞的features.tsv.gz第33665個基因的counts數(shù)為22蝇庭。
GSM4462451的格式：如下看出，區(qū)別有兩點：第一列為細胞索引捡硅、第二列為基因索引哮内，并且第3列是非整型數(shù)據(jù)。

經(jīng)過一番探索壮韭，將GSM4462451的barcodes.tsv.gz北发、features.tsv.gz行名刪除纹因；matrix.mtx.gz的第一列與第二列調(diào)換，第三列改為整型后琳拨，read10X()便可以順利都成功瞭恰。我認為GSM4462451這幾個文件應該是作者自己制作的，吐槽一下~~狱庇。不過了解了一番這三個文件的格式也是有所收獲惊畏。

格式二：直接提供表達矩陣

這種是最方便的，直接創(chuàng)建Seurat即可
示例數(shù)據(jù)：GSE144320

scRNA <- CreateSeuratObject(counts = counts)
scRNA

格式三：h5格式文件

使用Read10X_h5()函數(shù)僵井，讀入表達矩陣陕截，在創(chuàng)建Seurat對象
示例數(shù)據(jù)：GSE138433

image.png

sce <- Read10X_h5(filename = GSM4107899_LH16.3814_raw_gene_bc_matrices_h5.h5")
sce <- CreateSeuratObject(counts = sce)

格式四：h5ad格式

需要安裝，使用SeuratDisk包的兩個函數(shù)批什；
先將后h5ad格式轉(zhuǎn)換為h5seurat格式农曲，再使用LoadH5Seurat()函數(shù)讀取Seurat對象。
示例數(shù)據(jù)集：GSE153643

#remotes::install_github("mojaveazure/seurat-disk")
library(SeuratDisk)
Convert("GSE153643_RAW/GSM4648565_liver_raw_counts.h5ad", "h5seurat",
        overwrite = TRUE,assay = "RNA")
scRNA <- LoadH5Seurat("GSE153643_RAW/GSM4648565_liver_raw_counts.h5seurat")
#注意一下驻债，我之前載入時乳规，表達矩陣被轉(zhuǎn)置了，需要處理一下~

以上是我目前了解到的針對不同數(shù)據(jù)來源合呐，創(chuàng)建Seurat對象的幾種方式暮的。如遇新的方法，會繼續(xù)補充~~

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末淌实，一起剝皮案震驚了整個濱河市冻辩，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌拆祈，老刑警劉巖恨闪，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異放坏，居然都是意外死亡咙咽，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門淤年，熙熙樓的掌柜王于貴愁眉苦臉地迎上來钧敞，“玉大人，你說我怎么就攤上這事麸粮「瓤粒” “怎么了？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵弄诲，是天一觀的道長炊昆。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么凤巨？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任视乐，我火速辦了婚禮，結果婚禮上敢茁，老公的妹妹穿的比我還像新娘佑淀。我一直安慰自己，他們只是感情好彰檬，可當我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布伸刃。她就那樣靜靜地躺著，像睡著了一般逢倍。火紅的嫁衣襯著肌膚如雪捧颅。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天较雕，我揣著相機與錄音碉哑，去河邊找鬼。笑死亮蒋，一個胖子當著我的面吹牛扣典，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播慎玖，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼贮尖，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了趁怔？” 一聲冷哼從身側響起湿硝，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎润努，沒想到半個月后图柏，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡任连，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了例诀。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片随抠。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖繁涂，靈堂內(nèi)的尸體忽然破棺而出拱她，到底是詐尸還是另有隱情，我是刑警寧澤扔罪，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布秉沼，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏唬复。R本人自食惡果不足惜矗积，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望敞咧。院中可真熱鬧棘捣，春花似錦、人聲如沸休建。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽测砂。三九已至茵烈，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間砌些，已是汗流浹背呜投。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留寄症，地道東北人宙彪。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像有巧，于是被迫代替她去往敵國和親释漆。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,722評論 2贊 345

Seurat包之導入單細胞數(shù)據(jù)方式匯總

格式一：barcodes.tsv.gz柄延、features.tsv.gz、matrix.mtx.gz【☆】

關于barcodes.tsv.gz偶垮、features.tsv.gz、matrix.mtx.gz三個文件的格式與內(nèi)容

（1）barcodes.tsv.gz

（2）features.tsv.gz

（3）matrix.mtx.gz

格式二：直接提供表達矩陣

格式三：h5格式文件

格式四：h5ad格式

推薦閱讀更多精彩內(nèi)容

格式一：`barcodes.tsv.gz`柄延、`features.tsv.gz`、`matrix.mtx.gz`【☆】

關于`barcodes.tsv.gz`偶垮、`features.tsv.gz`、`matrix.mtx.gz`三個文件的格式與內(nèi)容

（1）`barcodes.tsv.gz`

（2）`features.tsv.gz`

（3）`matrix.mtx.gz`