淺談生物信息學(xué)

淺談生物信息學(xué)

什么是生物信息學(xué)

“生物信息學(xué)(Bioinformatics)是研究生物信息的采集、處理柿究、存儲邮旷、傳播,分析和解釋等各方面的學(xué)科蝇摸,也是隨著生命科學(xué)和計算機科學(xué)的迅猛發(fā)展婶肩,生命科學(xué)和計算機科學(xué)相結(jié)合形成的一門新學(xué)科。它通過綜合利用生物學(xué)貌夕,計算機科學(xué)和信息技術(shù)而揭示大量而復(fù)雜的生物數(shù)據(jù)所賦有的生物學(xué)奧秘律歼。”
這是目前大家比較認(rèn)可的對生物信息學(xué)的定義

進(jìn)入21世紀(jì)啡专,有的人說21世紀(jì)是生物的世紀(jì)险毁,另一部分說21世紀(jì)是信息的世紀(jì),以我來說(in my perspective)们童,21世紀(jì)是生物信息的世紀(jì)畔况。

生物信息學(xué)的發(fā)展歷史

以人類基因組計劃實施為界,生物信息學(xué)的發(fā)展大致經(jīng)歷3個階段慧库,包括前基因組時代跷跪、基因組時代和后基因組時代。

  1. 前基因組時代齐板,有部分計算生物學(xué)家進(jìn)行算法開發(fā)及核酸與蛋白質(zhì)大分子數(shù)據(jù)收集及數(shù)據(jù)庫構(gòu)建吵瞻。
  2. 基因組時代,由人類基因組計劃的實施開始甘磨,先后有6個國家的科學(xué)家直接參與人類基因組計劃項目開發(fā)橡羞,同時也有像Celera公司為代表的其他科學(xué)家進(jìn)行基因組測序及相應(yīng)數(shù)據(jù)分析軟件開發(fā)。
  3. 后基因組時代济舆,雖然進(jìn)行了更廣泛的生物物種的序列測定卿泽,但是基因組序列研究已經(jīng)不是重點,更多的生物信息學(xué)研究人員轉(zhuǎn)向研究蛋白質(zhì)組吗冤、轉(zhuǎn)錄組又厉、代謝組、比較基因組椎瘟、結(jié)構(gòu)基因組覆致、功能基因組等研究領(lǐng)域。

如何入門學(xué)習(xí)生物信息學(xué)

生物信息學(xué)是生物學(xué)肺蔚,計算機科學(xué),以及統(tǒng)計學(xué)的交叉學(xué)科宣羊。在這里計算機科學(xué)和統(tǒng)計學(xué)只是為了解決生物問題而需要的工具璧诵,深厚的生物學(xué)背景知識才是重中之重,不要因為走的過遠(yuǎn)而忘記了當(dāng)初為什么出發(fā)仇冯。生物信息學(xué)是為了解決生物問題而逐漸發(fā)展起來的之宿。

毫無生物知識其實也說不過去。那么對于初學(xué)者來說苛坚,想要進(jìn)入這個領(lǐng)域比被,一開始需要重點搞清楚一些基本概念。比如泼舱,什么是基因組等缀,什么是轉(zhuǎn)錄組,什么是蛋白組娇昙,染色體是什么尺迂,什么是基因,基因重組是什么冒掌,什么是進(jìn)化/演化噪裕,什么是表觀遺傳,什么是變異股毫,變異類型有哪些州疾,NGS技術(shù)是什么,測序儀的工作原理是什么皇拣,DNA是怎么被測出來的等严蓖。因為,你只有真正了解數(shù)據(jù)是如何來的氧急,才能更好地明白該如何進(jìn)一步的處理和分析這些數(shù)據(jù)颗胡,如何有效地挖掘出它背后隱含的生物知識。

其次吩坝,是需要掌握一些計算機學(xué)和統(tǒng)計學(xué)知識

  1. 計算機科學(xué) 基因數(shù)據(jù)分析毒姨,并不推薦在Windows下完成,有很多的工具不支持钉寝,而且不利于學(xué)習(xí)弧呐,因此掌握Linux闸迷,特別是直接在Terminal中進(jìn)行數(shù)據(jù)分析是必須的。生物信息分析主要分為標(biāo)椎化分析和數(shù)據(jù)挖掘俘枫,標(biāo)準(zhǔn)化分析由于數(shù)據(jù)量很大腥沽,無法在個人PC機上完成,需要借助服務(wù)器完成鸠蚪,一般服務(wù)器使用的系統(tǒng)是Linux系統(tǒng)今阳,數(shù)據(jù)挖掘部分可以在PC機上完成。我們不需要成為Linux專家茅信。對于生物信息研究人員來說盾舌,只要了解Linux的文件系統(tǒng)結(jié)構(gòu),能夠在Terminal中靈活運用基本的Linux命令就足夠了蘸鲸。

數(shù)據(jù)挖掘的個性化分析部分妖谴,需要會些計算機編程語言,Perl酌摇,R或者python窖维。這幾門語言各自有自己的優(yōu)點,perl語言處理文本文件是它的強項妙痹,在生物信息的數(shù)據(jù)處理過程中經(jīng)常遇到的也就是基因和蛋白序列的處理铸史。R語言的畫圖和統(tǒng)計方面很方便,也有專門的生物信息方面的R包源Bioconductor怯伊。而python雖然語法也比較簡單琳轿,擁有強大的畫圖能力,但是機器學(xué)習(xí)大數(shù)據(jù)處理是它的優(yōu)勢所在耿芹,不過其biopython包對生物序列的處理還是很方便的崭篡。

  1. 統(tǒng)計學(xué) 生物信息離不開數(shù)學(xué),準(zhǔn)確地說是離不開統(tǒng)計學(xué)吧秕。有太多的數(shù)據(jù)分析都需要統(tǒng)計學(xué)知識的參與琉闪,包括常用的假設(shè)檢驗,貝葉斯推斷砸彬、隨機森林颠毙,SVM,回歸分析砂碉,PCA等蛀蜜。因此,在你獲得初步的基因數(shù)據(jù)處理能力之后增蹭,更進(jìn)一步應(yīng)該做的就是加強這方面的知識滴某。

最后還是要帶著生物學(xué)問題進(jìn)行相關(guān)的數(shù)據(jù)處理。

常用的組學(xué)數(shù)據(jù)分析軟件

生物信息的工具眾多,要了解數(shù)據(jù)分析過程中常用的工具和軟件霎奢,主要是:bwa户誓,samtools,picard幕侠,GATK帝美,bedtools,bcftools橙依,vcftools,F(xiàn)astQC硕旗,MultiQC窗骑,VEP等∑崦叮基本是在構(gòu)造如WGS创译、WES這類分析流程時需要被用到的。另外墙基,還有關(guān)于GWAS的一系列分析工具等软族,這些其實可以根據(jù)后續(xù)的具體項目逐步深入學(xué)習(xí)。除工具之外残制,基本的數(shù)據(jù)文件格式也必須認(rèn)識立砸,比如:Fasta,F(xiàn)astq初茶,BAM颗祝,gff,vcf等恼布,《Bioinformatics Data Skills》這本書里面就系統(tǒng)講了諸多在基因數(shù)據(jù)分析過程用到的工具和文件格式解析螺戳,值得一讀。
多看優(yōu)秀的組學(xué)算法

站在巨人的肩膀上才能看得更遠(yuǎn)折汞。針對學(xué)有余力的人可以進(jìn)一步學(xué)習(xí)倔幼,生物信息領(lǐng)域有一個比較突出的特點,就是絕大多數(shù)的東西都是開源的爽待,很多優(yōu)秀的算法和程序都能夠在github上直接找到损同,比如,比對軟件bwa和后綴樹算法鸟款,Smith-waterman局部比對算法揖庄;基因組組裝軟件SOAPdenovo2的de Bruijn graph;變異檢測GATK欠雌、freebayse蹄梢、Platypus應(yīng)用到的貝葉斯、最大似然、EM禁炒、Pair-HMM和高斯混合模型等而咆;變異注釋工具VEP,GWAS的一系列方法等幕袱。特別是GATK暴备,它的文檔寫的很優(yōu)秀很好。通過學(xué)習(xí)它們的源碼们豌,不但可以精進(jìn)你的編程能力涯捻、算法設(shè)計能力,更重要的是還能讓你深刻理解諸多組學(xué)數(shù)據(jù)分析的奧秘望迎!這會在不知不覺中提升你對基因數(shù)據(jù)的理解障癌,有種豁然開朗的感覺。

緊跟前沿辩尊。生物信息學(xué)以及現(xiàn)在的基因組學(xué)涛浙,知識的更新迭代可謂一日千里,可能半年不留神就會落后摄欲,所以平時一定要多看前沿的文章成果轿亮。看最頂級的CNNS(Cell胸墙,Nature我注,NEJM,Science)雜志迟隅。這些頂級雜志所代表的基本上就是領(lǐng)域的最前沿仓手,這些文章大多都能給你帶來新的視角,能夠開闊你的眼界玻淑。帶來看待問題嗽冒、解決問題的新思路和新想法,會有助于做出創(chuàng)新性的工作补履。
推薦Rosalind 網(wǎng)址:http://rosalind.info/problems/locations/
生物信息學(xué)實戰(zhàn)的英文網(wǎng)站添坊,提供了大量的試題,用戶能在線提交來完成箫锤。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末贬蛙,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子谚攒,更是在濱河造成了極大的恐慌阳准,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件馏臭,死亡現(xiàn)場離奇詭異野蝇,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門绕沈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來锐想,“玉大人,你說我怎么就攤上這事乍狐≡。” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵浅蚪,是天一觀的道長藕帜。 經(jīng)常有香客問我,道長惜傲,這世上最難降的妖魔是什么洽故? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮操漠,結(jié)果婚禮上收津,老公的妹妹穿的比我還像新娘饿这。我一直安慰自己浊伙,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布长捧。 她就那樣靜靜地躺著嚣鄙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪串结。 梳的紋絲不亂的頭發(fā)上哑子,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音肌割,去河邊找鬼卧蜓。 笑死,一個胖子當(dāng)著我的面吹牛把敞,可吹牛的內(nèi)容都是我干的弥奸。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼奋早,長吁一口氣:“原來是場噩夢啊……” “哼盛霎!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起耽装,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤愤炸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后掉奄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體规个,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了绰姻。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片枉侧。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖狂芋,靈堂內(nèi)的尸體忽然破棺而出榨馁,到底是詐尸還是另有隱情,我是刑警寧澤帜矾,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布翼虫,位于F島的核電站,受9級特大地震影響屡萤,放射性物質(zhì)發(fā)生泄漏珍剑。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一死陆、第九天 我趴在偏房一處隱蔽的房頂上張望招拙。 院中可真熱鬧,春花似錦措译、人聲如沸别凤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽规哪。三九已至,卻和暖如春塌衰,著一層夾襖步出監(jiān)牢的瞬間诉稍,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工最疆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留杯巨,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓努酸,卻偏偏與公主長得像服爷,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蚊逢,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • Nat Rev | 大數(shù)據(jù)指導(dǎo)下的早期乳腺癌系統(tǒng)療法 原創(chuàng)huacishu圖靈基因2022-10-31 13:54...
    圖靈基因閱讀 176評論 0 0
  • Nature | 540萬人遺傳數(shù)據(jù)揭示身高差異相關(guān)基因 原創(chuàng)圖靈基因圖靈基因2022-10-31 13:54發(fā)表...
    圖靈基因閱讀 98評論 0 0
  • Nat Biotech | 北大高歌組利用GLUE算法實現(xiàn)單細(xì)胞多組學(xué)數(shù)據(jù)的集成整合 原創(chuàng)蘇安圖靈基因2022-0...
    圖靈基因閱讀 226評論 0 0
  • 在面對論文寫作時层扶,我們經(jīng)常在翻閱眾多文獻(xiàn)后依然難以敲定自己的論文題目,但殊不知“仿效”并“學(xué)習(xí)”他人的作法確是文章...
    論文小能手閱讀 110評論 0 1
  • Nucl Acids Res | 多模態(tài)單細(xì)胞數(shù)據(jù)的綜合分析 原創(chuàng)huacishu圖靈基因2022-10-09 1...
    圖靈基因閱讀 444評論 0 0