隨著單細(xì)胞數(shù)據(jù)集的不斷增長(zhǎng)加缘,計(jì)算需求呈指數(shù)級(jí)增長(zhǎng)飘言。我們注意到,即使在使用稀疏矩陣時(shí)台诗,Seurat分析對(duì)于數(shù)據(jù)集>100,000個(gè)單元格也是具有挑戰(zhàn)性的,這主要是由于在內(nèi)存中存儲(chǔ)完整數(shù)據(jù)集存在困難赐俗。HDF5數(shù)據(jù)格式不將數(shù)據(jù)存儲(chǔ)在內(nèi)存中拉队,而是提供高效的磁盤存儲(chǔ),甚至可以擴(kuò)展到大型數(shù)據(jù)集(甚至是>1M細(xì)胞)阻逮。
Linnarson實(shí)驗(yàn)室開發(fā)了一種基于hdf5的數(shù)據(jù)結(jié)構(gòu)loom粱快,可以方便地存儲(chǔ)單細(xì)胞基因組數(shù)據(jù)集和元數(shù)據(jù)。他們還發(fā)布了一個(gè)名為loompy的Python API(完整的細(xì)節(jié)可以在這里找到)來與loom文件交互叔扼。
為了補(bǔ)充loompy事哭,我們引入了loomR: loom API的一個(gè)R實(shí)現(xiàn)。雖然loomR還在開發(fā)中瓜富,但它提供了一種訪問和與來自r的文件交互的方法鳍咱。本教程將介紹如何安裝loomR、對(duì)象交互与柑、利用loomR內(nèi)置的分塊機(jī)制谤辜。最后,我們介紹了Seurat工作流中實(shí)現(xiàn)與loom文件直接兼容的初始步驟价捧,目的是在不久的將來使Seurat完全兼容hdf5丑念。