創(chuàng)造有可重復與魯棒性的數(shù)據(jù)分析習慣不僅關(guān)乎個人的科學素養(yǎng),并且使得我們的科研道路更加輕松谁帕。
可重復性(建議)
測序?qū)嶒灤鷥r昂貴椰弊,難以進行重復召边,所以我們越來越多地依賴只進行計算機的重復性實驗。然而生物信息數(shù)據(jù)分析的復雜性往往阻礙我們進行實驗重復。為了進行可重復的數(shù)據(jù)分析實驗晴弃,可以采用以下的措施:
- 分享數(shù)據(jù)與代碼⊙攘梗現(xiàn)在很多雜志都要求或者提倡作者公開代碼,尤其是代碼作為實驗的重要組成部分的情況瘫辩》龋“Common errors are simple, simple errors are common”,公開代碼就要求我們反復確認代碼是否正確地生成了結(jié)果伐厌。
- 良好的記錄習慣承绸。糟糕的記錄習慣使得實驗重復難以進行。需要注意的是挣轨,除了數(shù)據(jù)與代碼军熏,數(shù)據(jù)與代碼的版本同樣非常重要,例如數(shù)據(jù)的版本與下載地址卷扮,不同的R版本下數(shù)據(jù)分析的結(jié)果可能會完全不同荡澎。額外描述數(shù)據(jù)的數(shù)據(jù)被稱為“元數(shù)據(jù)”。良好的記錄習慣也會提高實驗的魯棒性晤锹。
魯棒性(建議)
生物信息數(shù)據(jù)分析不夠魯棒性的可能原因:
- 數(shù)據(jù)分析犯錯誤相比于濕實驗來說可能會很不明顯摩幔,并且生物信息數(shù)據(jù)分析的代碼往往只會運行一次。相對比鞭铆,游戲軟件被開發(fā)出來后大量用戶會對其進行測試以消除BUG或衡。
- 我們對于大規(guī)模的基因組層面分析難以形成一個強烈的先驗知識,比如說濕實驗中一個基因表達豐度高于管家基因是很明顯的異吵邓欤現(xiàn)象封断,但是在基因組層面成千上萬的數(shù)據(jù)量面前,我們很難形成一個先驗知識來判定一個結(jié)果是好結(jié)果還是壞結(jié)果
- 生物信息學的軟件可能只對某種情境有效舶担,比如說軟件通常只對人類有效而很少對模式生物有效坡疼,盲目使用很可能會造成錯誤。
生物信息學的一條金標準:
Never ever trust your tools (or data)
錯誤的數(shù)據(jù)只會帶來錯誤的結(jié)果衣陶,需要保持一種謹慎的態(tài)度柄瑰。當然也不要太過極端闸氮,我們在每一步處理數(shù)據(jù)后對結(jié)果進行必要的檢查,拿到數(shù)據(jù)與軟件后進行測試可以有效地減少不必要的錯誤狱意。
或許錯誤是不可避免的湖苞,所以保持一顆可能會犯錯的心態(tài)很重要。