科學(xué)研究的過(guò)程可重復(fù)性可以說(shuō)是一件不言而喻的事情:如果你提出一觀點(diǎn)或發(fā)現(xiàn)一個(gè)現(xiàn)象响逢,在別人那里完全重復(fù)不出來(lái)少漆,誰(shuí)知道是不是臆想呢逸嘀?但是有時(shí)候重復(fù)人家的研究結(jié)論又會(huì)顯得不可理喻:分析的環(huán)境枉氮,軟件的版本制市,試劑的保質(zhì)期抬旺,甚至是歷史條件都會(huì)成為不可重復(fù)的原因。然而祥楣,我們?nèi)匀蛔鲋@樣的努力开财,至少我們看到數(shù)據(jù)科學(xué)家在做著這樣的努力。
分析可重復(fù)也是對(duì)數(shù)據(jù)科學(xué)家的基本要求之一误褪,你不能給出資方一個(gè)不可重復(fù)的結(jié)果责鳍。在這方面R語(yǔ)言和Python都有相應(yīng)的工程技術(shù)來(lái)保證數(shù)據(jù)科學(xué)的可重復(fù)性,今天我們主要講一講R語(yǔ)言生態(tài)的單細(xì)胞數(shù)據(jù)分析可重復(fù)性流程構(gòu)建方法兽间。其實(shí)大家會(huì)看到講的主要是R語(yǔ)言里面的項(xiàng)目管理薇搁,或者換句話說(shuō):Rmarkdown 在單細(xì)胞數(shù)據(jù)分析中的應(yīng)用。
本文既來(lái)自不才的單細(xì)胞數(shù)據(jù)分析經(jīng)驗(yàn)渡八,也來(lái)自下面這個(gè)報(bào)告的啟發(fā)啃洋。
R語(yǔ)言在數(shù)據(jù)可重復(fù)上做的努力宏娄,集中地體現(xiàn)在一個(gè)項(xiàng)目上:http://ropensci.github.io/reproducibility-guide/。在這個(gè)項(xiàng)目中我們可以看到一些可用的R包和原則逮壁。
構(gòu)建可重復(fù)的單細(xì)胞數(shù)據(jù)分析流程另一個(gè)需求是現(xiàn)在的期刊的編輯也學(xué)會(huì)閱讀代碼了:
Top Ten Reasons to Not Share Your Code(washington,2012)
Does your code stand up to scrutiny?(nature,2018)
As a reviewer, can I justify requesting data and code be made available even if the journal does not?
Should You Publish Your Research Data? The New Trend of Data Journals
很多有規(guī)模的學(xué)術(shù)期刊都有專門的提交原始數(shù)據(jù)的數(shù)據(jù)庫(kù)和儲(chǔ)存代碼的代碼池孵坚,盡管還有很多是利用公共的數(shù)據(jù)和github,但是這個(gè)趨勢(shì)已經(jīng)很明顯了:需要提供code and data。這對(duì)一個(gè)行業(yè)當(dāng)然是有加速作用的卖宠,降低了行業(yè)入門的門檻巍杈。
以上,要求構(gòu)建可重復(fù)的單細(xì)胞數(shù)據(jù)分析流程扛伍,而且在技術(shù)上已經(jīng)成為可能筷畦。這對(duì)做科技服務(wù)的公司也有一點(diǎn)啟發(fā):交付代碼也許會(huì)成為常態(tài)。
那我們就看看有哪些需要考慮的:
- 分析環(huán)境(conda刺洒,Docker)
- 軟件版本(git)
- 隨機(jī)種子(seed)
- 團(tuán)隊(duì)寫作(git)
- 流程管理(Snakemake )
- 文檔材料(Rmarkdown)
整個(gè)數(shù)據(jù)分析流程的環(huán)境可以用conda來(lái)創(chuàng)建和維護(hù)鳖宾,分析流程可以用Snakemake 來(lái)定義各個(gè)分析規(guī)則,版本管理和團(tuán)隊(duì)協(xié)作可以用git來(lái)實(shí)現(xiàn)逆航,而Rmarkdown可以用來(lái)集成代碼/輸出結(jié)果和文本注釋鼎文。這幾種工具本身都是可復(fù)用的,并支持絕大部分的單細(xì)胞數(shù)據(jù)分析因俐。那么拇惋,總結(jié)下來(lái),我們可以:
- R/Bioconductor package for clustering of scRNA-seq data scalable to millions of cells.
- Snakemake workflow to demultiplex scRNA-seq data.
- Book written in R Markdown teaching readers how to analyze scRNA-seq data.
如果一個(gè)數(shù)據(jù)科學(xué)項(xiàng)目沒(méi)有很好的項(xiàng)目管理抹剩,隨著腳本量的增加往往變得十分凌亂撑帖,以至于第二天到辦公室都不知道該從何處下手了,這一點(diǎn)寫過(guò)學(xué)術(shù)論文的朋友應(yīng)該很清楚吧兔。
好在我們可以在RStudio用Projects來(lái)管理我們數(shù)據(jù)和代碼磷仰,在需要反復(fù)調(diào)試和可視化的時(shí)候袍嬉,用RProjects來(lái)組織git和Rmark down是一個(gè)最佳實(shí)戰(zhàn)境蔼。
為了保證數(shù)據(jù)科學(xué)項(xiàng)目的可持續(xù)和可重復(fù),一個(gè)RProjects是值得擁有的伺通。
- 用Rmark down組織腳本和結(jié)果
- 重要結(jié)果(算法)的腳本執(zhí)行代碼審查
- 同一個(gè)數(shù)據(jù)分析項(xiàng)目建一個(gè)單獨(dú)的文件夾(Projects)
- 文件和變量命名有規(guī)可循(代碼做好時(shí)間線注釋)
- 為每個(gè)數(shù)據(jù)科學(xué)里程碑寫一個(gè)Readme
- 為項(xiàng)目建立rawdata以及過(guò)程數(shù)據(jù)文件夾
- 建議使用相對(duì)路徑
- 為經(jīng)常用到的腳本寫模板
在Linux下箍土,寫好一個(gè)Rmd之后,如想批量可視化某個(gè)基因集罐监,可以用下面的代碼來(lái)執(zhí)行吴藻。
rmarkdown:: render(input=rmd,output_format='html_document',output_file=outfile)}
如果是bookdown來(lái)組織項(xiàng)目,那就更方便了弓柱,寫好各個(gè)章節(jié)的Rmd之后沟堡,直接sh _build.sh
,這樣跑完之后結(jié)題報(bào)告就以一本書的形式呈現(xiàn)出來(lái)了矢空。
以上航罗,其實(shí)用到的核心技術(shù)并不多,主要是R語(yǔ)言生態(tài)的:
怎么樣屁药?對(duì)構(gòu)建可重復(fù)的單細(xì)胞數(shù)據(jù)分析流程有信心了嗎粥血?
http://ropensci.github.io/reproducibility-guide/
https://peerj.com/preprints/3159v2/