如“為什么學習生物信息學”這篇筆記所言钝计,“二十一世紀是生命科學的世紀”,隨著基因測序技術以及多種組學(其中包括基因組齐佳、蛋白質組等)技術的不斷發(fā)展私恬,生物數(shù)據(jù)迅速增長,對于這些數(shù)據(jù)的解讀卻已進入瓶頸期重虑。如何來對這些數(shù)據(jù)進行合理践付、有效的分析和解讀秦士,就是生物信息學要做的事情缺厉。
一名合格的生物信息學從業(yè)人員,首先要懂CS隧土,然后還要懂生物學知識提针,還需要懂測序的原理。計算機相關的技能主要包括Linux基本操作(會高級操作更好)曹傀,R語言必須掌握辐脖,Python是目前生信領域主流的編程語言。其他編程語言如C皆愉、C++嗜价、perl等,可以錦上添花幕庐,但是作為初學者久锥,需要集中精力在最短的時間內最高效的學習,推薦首先從Linux异剥、R和Python入手瑟由。我也是新手,我也是這么做的冤寿。對于生物學知識歹苦,盡管本人醫(yī)學專業(yè)出身青伤,但是有很多基礎知識也需要補,建議把遺傳學書好好翻翻殴瘦,基因的各個功能分區(qū)狠角、外顯子、內含子蚪腋、UTR擎厢、motif等等一系列專業(yè)名詞,還需要了解怎么和測序數(shù)據(jù)進行對應辣吃。測序原理就相對簡單咯动遭,多看看Illumina、PacBio官方的教學視頻神得,重點理解測序原理厘惦。
生信分析電腦硬件配置,自行百度解決吧哩簿,就不重復造輪子了宵蕉。以下是一些可供參考的網(wǎng)址:
軟件配置羡玛,能用conda搞定的就用conda,conda不提供的宗苍,就參考官方教程安裝咯稼稿。
為了保證結果的可重復性,可以從以下幾個方面下功夫:1. 原始數(shù)據(jù)的注釋讳窟、留存让歼,這個是最基本的工作,加注釋有助于以后對原始數(shù)據(jù)進行查找丽啡,要有MD5值記錄谋右,數(shù)據(jù)傳輸過程中也有可能出現(xiàn)丟包情況;2. 原始數(shù)據(jù)清洗過程的代碼以及使用軟件的版本补箍,要詳細記錄改执,不同版本以及不同代碼參數(shù)處理得到的clean data可能會有差異,而且這些差異會一級一級傳遞坑雅;3. 數(shù)據(jù)分析的pipeline辈挂,要詳細記錄,包括代碼以及使用軟件的版本霞丧,對于代碼要進行注釋呢岗,有助于自己和同事理解代碼都做了什么工作,也可以在后期的debug中有幫助。記錄后豫、注釋代碼也是實現(xiàn)可重復性的一項重要內容悉尾。未經(jīng)注釋的代碼,就像一團亂麻挫酿,雖然自己可以解開這團亂麻构眯,還是需要浪費自己和同事寶貴的時間。
遇到問題早龟,提煉成中英文關鍵詞惫霸,然后谷歌必應加百度,一般來說葱弟,經(jīng)過這一步壹店,90%以上的問題都可以得到解決。如果有一些三個搜索引擎都搜不到答案的話芝加,就需要找學習小組或去網(wǎng)上發(fā)帖求助了硅卢。
我也是生信菜鳥,進步空間很大藏杖,希望和大家共同學習将塑,共同進步!