淺談生物信息學(xué)
什么是生物信息學(xué)
“生物信息學(xué)(Bioinformatics)是研究生物信息的采集、處理柿究、存儲邮旷、傳播,分析和解釋等各方面的學(xué)科蝇摸,也是隨著生命科學(xué)和計算機科學(xué)的迅猛發(fā)展婶肩,生命科學(xué)和計算機科學(xué)相結(jié)合形成的一門新學(xué)科。它通過綜合利用生物學(xué)貌夕,計算機科學(xué)和信息技術(shù)而揭示大量而復(fù)雜的生物數(shù)據(jù)所賦有的生物學(xué)奧秘律歼。”
這是目前大家比較認(rèn)可的對生物信息學(xué)的定義
生物信息學(xué)的發(fā)展歷史
以人類基因組計劃實施為界,生物信息學(xué)的發(fā)展大致經(jīng)歷3個階段慧库,包括前基因組時代跷跪、基因組時代和后基因組時代。
- 前基因組時代齐板,有部分計算生物學(xué)家進(jìn)行算法開發(fā)及核酸與蛋白質(zhì)大分子數(shù)據(jù)收集及數(shù)據(jù)庫構(gòu)建吵瞻。
- 基因組時代,由人類基因組計劃的實施開始甘磨,先后有6個國家的科學(xué)家直接參與人類基因組計劃項目開發(fā)橡羞,同時也有像Celera公司為代表的其他科學(xué)家進(jìn)行基因組測序及相應(yīng)數(shù)據(jù)分析軟件開發(fā)。
- 后基因組時代济舆,雖然進(jìn)行了更廣泛的生物物種的序列測定卿泽,但是基因組序列研究已經(jīng)不是重點,更多的生物信息學(xué)研究人員轉(zhuǎn)向研究蛋白質(zhì)組吗冤、轉(zhuǎn)錄組又厉、代謝組、比較基因組椎瘟、結(jié)構(gòu)基因組覆致、功能基因組等研究領(lǐng)域。
如何入門學(xué)習(xí)生物信息學(xué)
生物信息學(xué)是生物學(xué)肺蔚,計算機科學(xué),以及統(tǒng)計學(xué)的交叉學(xué)科宣羊。在這里計算機科學(xué)和統(tǒng)計學(xué)只是為了解決生物問題而需要的工具璧诵,深厚的生物學(xué)背景知識才是重中之重,不要因為走的過遠(yuǎn)而忘記了當(dāng)初為什么出發(fā)仇冯。生物信息學(xué)是為了解決生物問題而逐漸發(fā)展起來的之宿。
毫無生物知識其實也說不過去。那么對于初學(xué)者來說苛坚,想要進(jìn)入這個領(lǐng)域比被,一開始需要重點搞清楚一些基本概念。比如泼舱,什么是基因組等缀,什么是轉(zhuǎn)錄組,什么是蛋白組娇昙,染色體是什么尺迂,什么是基因,基因重組是什么冒掌,什么是進(jìn)化/演化噪裕,什么是表觀遺傳,什么是變異股毫,變異類型有哪些州疾,NGS技術(shù)是什么,測序儀的工作原理是什么皇拣,DNA是怎么被測出來的等严蓖。因為,你只有真正了解數(shù)據(jù)是如何來的氧急,才能更好地明白該如何進(jìn)一步的處理和分析這些數(shù)據(jù)颗胡,如何有效地挖掘出它背后隱含的生物知識。其次吩坝,是需要掌握一些計算機學(xué)和統(tǒng)計學(xué)知識
-
計算機科學(xué) 基因數(shù)據(jù)分析毒姨,并不推薦在Windows下完成,有很多的工具不支持钉寝,而且不利于學(xué)習(xí)弧呐,因此掌握Linux闸迷,特別是直接在Terminal中進(jìn)行數(shù)據(jù)分析是必須的。生物信息分析主要分為標(biāo)椎化分析和數(shù)據(jù)挖掘俘枫,標(biāo)準(zhǔn)化分析由于數(shù)據(jù)量很大腥沽,無法在個人PC機上完成,需要借助服務(wù)器完成鸠蚪,一般服務(wù)器使用的系統(tǒng)是Linux系統(tǒng)今阳,數(shù)據(jù)挖掘部分可以在PC機上完成。我們不需要成為Linux專家茅信。對于生物信息研究人員來說盾舌,只要了解Linux的文件系統(tǒng)結(jié)構(gòu),能夠在Terminal中靈活運用基本的Linux命令就足夠了蘸鲸。
數(shù)據(jù)挖掘的個性化分析部分妖谴,需要會些計算機編程語言,Perl酌摇,R或者python窖维。這幾門語言各自有自己的優(yōu)點,perl語言處理文本文件是它的強項妙痹,在生物信息的數(shù)據(jù)處理過程中經(jīng)常遇到的也就是基因和蛋白序列的處理铸史。R語言的畫圖和統(tǒng)計方面很方便,也有專門的生物信息方面的R包源Bioconductor怯伊。而python雖然語法也比較簡單琳轿,擁有強大的畫圖能力,但是機器學(xué)習(xí)大數(shù)據(jù)處理是它的優(yōu)勢所在耿芹,不過其biopython包對生物序列的處理還是很方便的崭篡。
- 統(tǒng)計學(xué) 生物信息離不開數(shù)學(xué),準(zhǔn)確地說是離不開統(tǒng)計學(xué)吧秕。有太多的數(shù)據(jù)分析都需要統(tǒng)計學(xué)知識的參與琉闪,包括常用的假設(shè)檢驗,貝葉斯推斷砸彬、隨機森林颠毙,SVM,回歸分析砂碉,PCA等蛀蜜。因此,在你獲得初步的基因數(shù)據(jù)處理能力之后增蹭,更進(jìn)一步應(yīng)該做的就是加強這方面的知識滴某。
最后還是要帶著生物學(xué)問題進(jìn)行相關(guān)的數(shù)據(jù)處理。
常用的組學(xué)數(shù)據(jù)分析軟件
生物信息的工具眾多,要了解數(shù)據(jù)分析過程中常用的工具和軟件霎奢,主要是:bwa户誓,samtools,picard幕侠,GATK帝美,bedtools,bcftools橙依,vcftools,F(xiàn)astQC硕旗,MultiQC窗骑,VEP等∑崦叮基本是在構(gòu)造如WGS创译、WES這類分析流程時需要被用到的。另外墙基,還有關(guān)于GWAS的一系列分析工具等软族,這些其實可以根據(jù)后續(xù)的具體項目逐步深入學(xué)習(xí)。除工具之外残制,基本的數(shù)據(jù)文件格式也必須認(rèn)識立砸,比如:Fasta,F(xiàn)astq初茶,BAM颗祝,gff,vcf等恼布,《Bioinformatics Data Skills》這本書里面就系統(tǒng)講了諸多在基因數(shù)據(jù)分析過程用到的工具和文件格式解析螺戳,值得一讀。
多看優(yōu)秀的組學(xué)算法
站在巨人的肩膀上才能看得更遠(yuǎn)折汞。針對學(xué)有余力的人可以進(jìn)一步學(xué)習(xí)倔幼,生物信息領(lǐng)域有一個比較突出的特點,就是絕大多數(shù)的東西都是開源的爽待,很多優(yōu)秀的算法和程序都能夠在github上直接找到损同,比如,比對軟件bwa和后綴樹算法鸟款,Smith-waterman局部比對算法揖庄;基因組組裝軟件SOAPdenovo2的de Bruijn graph;變異檢測GATK欠雌、freebayse蹄梢、Platypus應(yīng)用到的貝葉斯、最大似然、EM禁炒、Pair-HMM和高斯混合模型等而咆;變異注釋工具VEP,GWAS的一系列方法等幕袱。特別是GATK暴备,它的文檔寫的很優(yōu)秀很好。通過學(xué)習(xí)它們的源碼们豌,不但可以精進(jìn)你的編程能力涯捻、算法設(shè)計能力,更重要的是還能讓你深刻理解諸多組學(xué)數(shù)據(jù)分析的奧秘望迎!這會在不知不覺中提升你對基因數(shù)據(jù)的理解障癌,有種豁然開朗的感覺。
緊跟前沿辩尊。生物信息學(xué)以及現(xiàn)在的基因組學(xué)涛浙,知識的更新迭代可謂一日千里,可能半年不留神就會落后摄欲,所以平時一定要多看前沿的文章成果轿亮。看最頂級的CNNS(Cell胸墙,Nature我注,NEJM,Science)雜志迟隅。這些頂級雜志所代表的基本上就是領(lǐng)域的最前沿仓手,這些文章大多都能給你帶來新的視角,能夠開闊你的眼界玻淑。帶來看待問題嗽冒、解決問題的新思路和新想法,會有助于做出創(chuàng)新性的工作补履。
推薦Rosalind 網(wǎng)址:http://rosalind.info/problems/locations/
生物信息學(xué)實戰(zhàn)的英文網(wǎng)站添坊,提供了大量的試題,用戶能在線提交來完成箫锤。