從事生物信息分析已經(jīng)有10多年了假抄,從大數(shù)據(jù)和系統(tǒng)生物學(xué)視角怎栽,先后研究了神經(jīng)系統(tǒng)疾病谅阿,感染系統(tǒng)疾病和如今的腫瘤疾病走诞。當(dāng)年肠阱,二代測(cè)序技術(shù)剛剛興起的時(shí)候仔蝌,測(cè)個(gè)序就可以發(fā)文章糯崎,做生信分析的學(xué)生常被做實(shí)驗(yàn)的學(xué)生羨慕砚婆,畢業(yè)真容易狠鸳。后來(lái)傍妒,測(cè)序成本一降再降蛉签,靠刷數(shù)據(jù)發(fā)文章的要求越來(lái)越高胡陪,雜志社更看重需要大樣本量,新的測(cè)序技術(shù)碍舍,如果想沖高的影響因子柠座,還需要一個(gè)好的故事對(duì)數(shù)據(jù)進(jìn)行總結(jié),最好還要有實(shí)驗(yàn)驗(yàn)證∑穑現(xiàn)在對(duì)生信分析數(shù)據(jù)科學(xué)家的要求越來(lái)越高妈经,不光要能玩轉(zhuǎn)編程,還要有很強(qiáng)的領(lǐng)域知識(shí),這樣才能夠更好的挖掘數(shù)據(jù)吹泡。
回顧過(guò)去骤星,在研究工作中,數(shù)據(jù)清理和分析流程的搭建還真是花費(fèi)了不少時(shí)間爆哑。這些耗時(shí)的‘臟活累活’對(duì)研究的成敗非常重要洞难,但是存在重復(fù)造輪子的浪費(fèi)時(shí)間的問(wèn)題。任何自然學(xué)科揭朝,數(shù)據(jù)采集技術(shù)和對(duì)應(yīng)分析方法發(fā)展到特定階段队贱,都會(huì)在特定領(lǐng)域積累大量數(shù)據(jù),這些數(shù)據(jù)如果不能被很好的挖掘并轉(zhuǎn)化為人類(lèi)知識(shí)就是浪費(fèi)潭袱,學(xué)科發(fā)展也就會(huì)沒(méi)有后勁柱嫌。疾病的組學(xué)數(shù)據(jù)需要被挖掘,需要被轉(zhuǎn)化屯换,這其中需要大量生物信息分析科學(xué)家廣泛參與编丘,去共同構(gòu)建一套標(biāo)準(zhǔn),一套數(shù)據(jù)處理規(guī)范彤悔,避免重復(fù)造輪子的‘內(nèi)卷’瘪吏,以開(kāi)源共享精神在一套平臺(tái)上進(jìn)行大數(shù)據(jù)挖掘,實(shí)現(xiàn)真正的轉(zhuǎn)化蜗巧。
以上所言掌眠,同行一定會(huì)感同身受。我曾經(jīng)關(guān)注過(guò)國(guó)外開(kāi)源的Galaxy的平臺(tái)幕屹,這個(gè)平臺(tái)設(shè)計(jì)中有.軟件倉(cāng)庫(kù)概念和定義工作流的概念蓝丙,但好像是圍繞著可視化界面做的,搭建個(gè)工具也非常繁瑣望拖,底層技術(shù)也不夠靈活渺尘。工作中,偶爾接觸到極道科技的Bioflow平臺(tái)说敏,這是一套高性能作業(yè)調(diào)度系統(tǒng)鸥跟,支持WDL語(yǔ)言的作業(yè)流程,直接調(diào)度docker工業(yè)盔沫,對(duì)docker工具和pipeline有很好的用戶權(quán)限管理医咨。這讓我看到一種可能,可以以Bioflow技術(shù)平臺(tái)去構(gòu)建生信分析未來(lái)的開(kāi)源社區(qū)架诞,解決重復(fù)造輪子拟淮,提高共享,加快數(shù)據(jù)向產(chǎn)品轉(zhuǎn)化谴忧。
以上是我的一些感受很泊,期望遇到同道中人角虫。