作者:Snail
審稿:童蒙
編輯:angelica
引言
初識ORF被其搞得七葷八素躯保,希望這篇文章可以帶各位小主揭開其神秘面紗。
我們圍繞三個終極的哲學(xué)問題展開:ORF是什么养距,從哪里來鸟悴,到哪里去……
自報家門
ORF幅虑,Open Reading Frame,稱為開放閱讀框盒刚。
DNA通過轉(zhuǎn)錄合成mRNA腺劣。在mRNA中,遺傳密碼以3個核苷酸為單位閱讀因块,每一組可編碼一個氨基酸或作為翻譯的終止信號橘原,即每三個核苷酸序列成為一個密碼子(codon)。
根據(jù)起始點的不同涡上,每條鏈可能有三種不同的方式將核苷酸翻譯成蛋白質(zhì)趾断,其中以起始密碼子(AUG)開始,延伸至終止密碼子(UGA吩愧、UAA芋酌、UAG),可以翻譯成蛋白質(zhì)的讀框稱為開放閱讀框(ORF)雁佳。一般情況脐帝,任何一段堿基序列只有一個讀框是開放的,其他的讀框則會因為頻繁出現(xiàn)終止密碼子而被阻斷糖权。
那么堵腹,CDS和ORF之間又是怎樣的關(guān)系呢?
CDS(coding sequence)是編碼蛋白產(chǎn)物的一段序列星澳,是事實存在的編碼區(qū)疚顷;而ORF是理論上的編碼區(qū),因此CDS一定是一個ORF募判,但ORF不一定均為CDS荡含。
尋蹤覓跡
先來劃重點V渌簟!释液!
ORFfinder是NCBI提供的一款在線點點點的ORF查找器全释。
https://www.ncbi.nlm.nih.gov/orffinder/
TransDecoder是一款專門針對轉(zhuǎn)錄組序列預(yù)測ORF的工具。
https://github.com/TransDecoder/TransDecoder/releases
ORFfinder
1 輸入gi或Accession編號误债,亦或直接輸入序列的fa文件
2 選擇相關(guān)參數(shù):ORF長度的閾值浸船;遺傳密碼子的格式;使用的起始密碼子
3 提交后可得到預(yù)測的ORF序列信息以及推測的氨基酸序列信息
4 得到氨基酸序列后可直接在界面進行SmartBLAST(簡潔強化版blastp)或BLAST寝蹈,對預(yù)測出的ORF進行功能注釋
TransDecoder
1 提取最長的開放閱讀框
TransDecoder.LongOrfs -t transcripts.fa -m 100 -G universal
默認情況下李命,-m默認100,即識別氨基酸個數(shù)大于100對應(yīng)的ORF箫老;-G默認universal封字,即使用標準格式的密碼子。
2 通過blast或Pfam檢索已知蛋白的同源序列耍鬓,保留對應(yīng)的ORF(該步驟可選)
blastp蛋白數(shù)據(jù)庫檢索阔籽,可使用Swissprot (http://www.uniprot.org/[Swissprot)數(shù)據(jù)庫,速度較快牲蜀;或者 Uniref90 速度慢但較為全面笆制。
blastp -query transdecoder_dir/longest_orfs.pep -db uniprot_sprot.fasta -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 10 > blastp.outfmt6
Pfam蛋白質(zhì)結(jié)構(gòu)域檢索,需預(yù)先安裝hmmer3和Pfam數(shù)據(jù)庫涣达。
hmmscan --cpu 8 --domtblout pfam.domtblout Pfam-A.hmm transdecoder_dir/longest_orfs.pep
3 預(yù)測可能的編碼區(qū)
TransDecoder.Predict -t transcripts.fa -retain_blastp_hits blastp.outfmt6 –retain_pfam_hits pfam.domtblout
-retain_blastp_hits / –retain_pfam_hits 參數(shù)可保留步驟二中的ORF在辆。
4 結(jié)果可視化,可在GenomeView或IGV查看候選的ORF
java -jar $GENOMEVIEW/genomeview.jar transcripts.fa ransdecoder.bed
鎖定編碼基因
在獲得一段未知的序列后度苔,我們就可以分析其讀框是阻斷的還是開放的匆篓,一般情況下ORF不會太長,如果不被翻譯成蛋白質(zhì)林螃,則不存在阻止終止密碼子聚集的選擇壓力奕删。證明長序列為ORF是確定該讀框能被翻譯成蛋白質(zhì)的首要證據(jù)俺泣,而沒有蛋白質(zhì)被鑒定出的讀框稱為不明讀框(unidentified reading frame疗认,URF)。因此伏钠,可通過ORF的識別來判定未知序列是否編碼蛋白后横漏,根據(jù)功能注釋信息、推斷未知序列的結(jié)構(gòu)及功能熟掂。
參考
https://github.com/TransDecoder/TransDecoder/wiki
Lewin,B編著; 余龍, 江松敏, 趙壽元主譯. 基因VIII. 北京: 科學(xué)出版社, 2005: 02.