https://www.zhihu.com/question/23566982
生物信息學(xué)是為生物學(xué)研究者提供分析工具的學(xué)科鲁猩,滲透到生物學(xué)的幾乎每一個(gè)研究領(lǐng)域粱玲。而你要做的是編寫軟件淹真,而不是學(xué)用別人的軟件。
十年前的生物信息
- 做一個(gè) CLUSTALW 序列比對吭从,
- 用 PHYLIP 算一個(gè)進(jìn)化樹纤子,
- 上 NCBI 做一個(gè) BLAST,
最常用的東西:
- 1睡蟋,你需要會用 Linux踏幻,會使用 bash
- 2,高于入門級的統(tǒng)計(jì)學(xué)知識戳杀,以及一門統(tǒng)計(jì)語言该面,比如 R
- 3,至少一門編程語言信卡,一般來講 C++, Perl, Python, Java 這幾種中的一種隔缀。
- 4,對于你工作的領(lǐng)域傍菇,需要懂這方面的生物學(xué)知識猾瘸,也需要知道目前人們在這個(gè)領(lǐng)域里都用什么其他軟件。
以上四點(diǎn)必不可少丢习。
其他的知識則取決于你是什么領(lǐng)域牵触。
- 比如如果你要研發(fā)高性能的序列比對軟件,則算法和并行計(jì)算的知識必不可少咐低±克迹——本人自己算法很渣,所以沒有把算啊列在以上必備的知識里见擦。
- 如果要頻繁存取大量數(shù)據(jù)绰更,則懂得一種數(shù)據(jù)庫必不可少瞧挤,比如MySQL。
遺傳學(xué)領(lǐng)域里儡湾,目前大部分的生物信息學(xué)研究集中在二代測序(High-throughput sequencing)數(shù)據(jù)的分析工具上特恬。另外做二代基因測序的序列比對(Alignment),現(xiàn)在軟件多如牛毛徐钠,但最常用的基本還是 bowtie, bwa 等少數(shù)幾種癌刽。
這種數(shù)據(jù)和大規(guī)模運(yùn)算一般只能在大型服務(wù)器上運(yùn)行,毫無疑問的需要會 Linux 和 bash尝丐,以及一些分布式計(jì)算的基礎(chǔ)知識显拜。
做生物信息的人主要是研究方法學(xué),需要把自己的方法寫成軟件發(fā)表爹袁。用生物信息學(xué)工具的人則只是用別人的工具而已远荠,發(fā)表的文章也就并不是生物信息學(xué)的文章,而是你自己領(lǐng)域里的文章失息,比如群體遺傳學(xué)譬淳。到現(xiàn)在生物的絕大多數(shù)領(lǐng)域都需要用其他人寫的軟件處理大量數(shù)據(jù),如果把所有這樣的文章都算在生物信息里面盹兢,那 80% 的生物學(xué)文章得都是生物信息學(xué)文章了邻梆。
作者:周杰
鏈接:https://www.zhihu.com/question/23566982/answer/25192621
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)绎秒,非商業(yè)轉(zhuǎn)載請注明出處浦妄。
學(xué)習(xí)使用新軟件時(shí),先粗略地把Manual见芹、Readme剂娄、軟件涉及的文章(包括附件里的內(nèi)容,往往會提供可用的細(xì)節(jié))都過一遍玄呛,然后使用樣例數(shù)據(jù)跑跑看宜咒。遇到問題不要慌張,善用搜索工具進(jìn)行檢索(英文)把鉴,你能遇到的大部分別人都遇到過故黑,看看別人的求助貼和討論內(nèi)容一般都能解決問題。搜索解決不了問題還可以考慮給作者寫郵件庭砍,注意清晰描述遇到的情況(描述問題本身就是理清思路的過程)场晶,寫郵件或者發(fā)帖問問題盡量具體、明確一點(diǎn)怠缸,同時(shí)注意提問的條理和內(nèi)容的可讀性诗轻。
作者:王理中
鏈接:https://www.zhihu.com/question/23566982/answer/25220599
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)揭北,非商業(yè)轉(zhuǎn)載請注明出處扳炬。
必學(xué):1吏颖、計(jì)算機(jī)基礎(chǔ)(linux+perl+R 或者 python+matlab) 2、生信基礎(chǔ)知識(測序+數(shù)據(jù)庫+數(shù)據(jù)格式) 3恨樟、生信研究領(lǐng)域(全基因組半醉,全轉(zhuǎn)錄組,全外顯子組劝术,捕獲目標(biāo)區(qū)域測序) 4缩多、生信應(yīng)用領(lǐng)域(腫瘤篩查,產(chǎn)前診斷养晋,流行病學(xué)衬吆,個(gè)性化醫(yī)療)分而治之:一、計(jì)算機(jī)基礎(chǔ)绳泉,需要看三本書逊抡,一步步的學(xué)會學(xué)通,不需要刻意去找哪個(gè)書零酪,一般linux是鳥哥私房菜冒嫡,perl是小駱駝咯,R是R in action蛾娶,但是看一本書只能入門灯谣,真正想成為菜鳥潜秋,必須每個(gè)要看五本書以上蛔琅!我云盤里面有這基本上的高清打印版,大家可以去淘寶打印一下才幾十塊錢還包郵峻呛,對書比較講究的也可以買正版罗售,也不過是一百多塊錢而已!二钩述、生信基礎(chǔ)知識寨躁,測序方面,在百度文庫找十幾篇一代二代三代測序儀資料仔細(xì)研讀牙勘,然后去優(yōu)酷下載各大主流測序儀的動畫講解职恳,再看看陳巍學(xué)基因的講解;數(shù)據(jù)庫先看看三大主流數(shù)據(jù)庫——NCBI,ENSEMBL,UCSC方面,還有一些也可以了解一些(uniprot,IMGT,KEGG放钦,OMIN,TIGR恭金,GO)同樣也是百度文庫自己搜索資料操禀,但是這次需要自己去官網(wǎng)一個(gè)個(gè)頁面點(diǎn)擊看,一個(gè)個(gè)翻譯成中文理解吃透横腿;數(shù)據(jù)格式講起了就多了颓屑,這個(gè)主要是在項(xiàng)目流程中慢慢學(xué)斤寂,或者你有機(jī)會去上課,不然你看來也是立馬忘記的揪惦,主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等等三遍搞、生信研究領(lǐng)域,各個(gè)領(lǐng)域主要是軟件繁多丹擎,合起來常用的估計(jì)有上百個(gè)軟件了尾抑,一般只有從業(yè)五六年以上的人才有可能把它們?nèi)坑眠^一遍,而且這也完全需要項(xiàng)目來訓(xùn)練蒂培,而不能僅僅是看看軟件手冊再愈,但是研究領(lǐng)域最重要的是背后的原理,需要看各大牛的綜述护戳。a) 生信基礎(chǔ)軟件(blast++套件翎冲,fastqc,flash媳荒,blast抗悍,solexaQA,NGS-QC-toolkit钳枕,SRA-toolkit缴渊,fastx-toolkit)b) snp-calling相關(guān)軟件(bwa,bowtie鱼炒,samtools衔沼,GATK,VarScan.jar昔瞧,annovar)c) 基因組相關(guān)軟件(velvet指蚁,SOAPdenovo2,repeatmasker,repeatscount,piler自晰,orthMCL凝化,inparanoid,clustw,muscle,MAFFT酬荞,quickparanoid搓劫,blast2go,RAxML混巧,phyML)d) 轉(zhuǎn)錄組相關(guān)軟件(trinity枪向,tophat,cufflinks牲剃,RseQC遣疯,RNAseq,GOseq,MISO缠犀,RSEM数苫,khmer,screed辨液,trimmomatic虐急,transDecoder,vast-tools滔迈,picard-tools止吁,htseq,cuffdiff燎悍,edgeR敬惦,DEseq,funnet谈山,davidgo俄删,wego,kobas奏路,KEGG畴椰,Amigo,go)四鸽粉、生信應(yīng)用領(lǐng)域斜脂,講這一塊其實(shí)已經(jīng)脫離了生信菜鳥的解釋范圍了,主要是想說社會上為什么需要搞生信的人才触机,全是因?yàn)樵谀[瘤篩查帚戳,產(chǎn)前診斷,流行病學(xué)威兜,個(gè)性化醫(yī)療等領(lǐng)域有所應(yīng)用销斟,可以造福人類B贰=范妗!這方面政策不確定约谈,產(chǎn)業(yè)不定型笔宿,所以也這絕對是藍(lán)海湾揽,但是也絕對不會有現(xiàn)成的資料直接培訓(xùn)人才蛉迹,我們必須關(guān)注各種微信公眾號速蕊,逛各種測序掠手,醫(yī)學(xué)相關(guān)論壇鸭廷,緊跟業(yè)界精英的腳本烫堤,同時(shí)追著大牛的文獻(xiàn)閱讀指煎,如此這般才能保住菜鳥的身份仗阅!
作者:曾健明
鏈接:https://www.zhihu.com/question/23566982/answer/41832167
來源:知乎
著作權(quán)歸作者所有靡菇。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)重归,非商業(yè)轉(zhuǎn)載請注明出處米愿。