基因家族專(zhuān)題(3)：基因家族成員的鑒定

Data preparation

繼續(xù)上次的內(nèi)容，下載好數(shù)據(jù)后就可以正式開(kāi)始鑒定了拒课。首先回顧一下狼牺，下載好的數(shù)據(jù)羡儿。

基因組序列信息，存儲(chǔ)基因組序列信息的.fasta文件是钥。還有其蛋白質(zhì)序列掠归，也是以.fasta結(jié)尾的文件。一般來(lái)說(shuō)注釋的比較好的基因組都會(huì)含有這些文件悄泥。
基因組基因結(jié)構(gòu)注釋信息虏冻。儲(chǔ)存基因的intron，exon弹囚，CDS,gene等坐標(biāo)信息的.gff3或.gtf文件厨相。
所感興趣的基因家族隱馬可夫模型，hmm文件

-rw-r----- 1 hhu pawsey0149  9738306 Oct 25 12:24 Arabidopsis_thaliana.TAIR10.41.gff3.gz
-rw-r----- 1 hhu pawsey0149 14623390 Oct 25 12:23 Arabidopsis_thaliana.TAIR10.cds.all.fa.gz
-rw-r----- 1 hhu pawsey0149 36462703 Oct 25 12:23 Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
-rw-r----- 1 hhu pawsey0149  9776319 Oct 25 12:22 Arabidopsis_thaliana.TAIR10.pep.all.fa.gz
-rw-r----- 1 hhu pawsey0149   118379 Oct 25 12:26 NBS-ARC.hmm

基因家族鑒定的工具h(yuǎn)mmer

一般尋找基因家族，都可以通過(guò)保守結(jié)構(gòu)域來(lái)預(yù)測(cè)蛮穿，從而找到物種的某一基因家族庶骄，從而進(jìn)行之后的分析。這里就需要用到HMMER践磅，來(lái)鑒定物種某一基因家族瓢姻。

HMMER3.1下載地址：http://hmmer.org/download.html
HMMER3.1 manual：http://eddylab.org/software/hmmer3/3.1b2/Userguide.pdf

hmmbuild/hmmsearch/hmmscan/hmmalign 這幾個(gè)功能是主要用于蛋白質(zhì)結(jié)構(gòu)與分析和注釋的hmmer中小工具

在鑒定基因家族時(shí)，常用到的工具是hmmsearch音诈，里面常用的算法有三種幻碱。一般我們使用--cut_tc算法對(duì)隱馬可夫模型進(jìn)行搜索，tc算法是使用pfam提供的hmm文件中trusted cutoof的值進(jìn)行篩選细溅，相對(duì)比較可靠褥傍。

  --cut_ga : use profile's GA gathering cutoffs to set all thresholding
  --cut_nc : use profile's NC noise cutoffs to set all thresholding
  --cut_tc : use profile's TC trusted cutoffs to set all thresholding

具體實(shí)戰(zhàn)操作

下面會(huì)根據(jù)一篇經(jīng)典文獻(xiàn)中的方法，對(duì)擬南芥進(jìn)行NBS-LRR基因組的探索喇聊。首先恍风，回顧一下文獻(xiàn)看看整體它的思路和方法。

Identification of NBS-LRR genes

Predicted proteins from the cassava genome were scanned using HMMER v3 [39] using the Hidden Markov Model (HMM) corresponding to the Pfam [40] NBS (NB-ARC) family (PF00931; http://pfam.sanger.ac.uk/). From the proteins obtained using the raw NBS HMM, a high-quality protein set (E-value?<?1 × 10?20 and manual verification of an intact NBS domain) was aligned and used to construct a cassava-specific NBS HMM using hmmbuild from the HMMER v3 suite. This new cassava-specific HMM was used, and all proteins with an E-value lower than 0.01 were selected. NBS-LRR genes were further filtered based on manual curation and functional annotation against both the closest homolog from Arabidopsis and the UNIREF100 sequence database. Most of the proteins that were removed had at least a partial kinase domain, but no relationship to NBS-LRR genes; this result was expected because the NBS domain has smaller kinase subdomains

這副圖就是對(duì)應(yīng)了該文章的基因家族鑒定思路誓篱，首先在全基因組的范圍內(nèi)使用hmmersearch和NBS-ARC基因家族的隱馬可夫模型進(jìn)行基因家族的進(jìn)行初步搜索朋贬，接著把質(zhì)量比較高的基因家族候選基因篩選出來(lái)E-value?<?1 × 10?20，然后使用clustalw2對(duì)高質(zhì)量的序列進(jìn)行多序列比對(duì)窜骄，多序列比對(duì)后锦募，對(duì)這些置信的序列進(jìn)行隱馬可夫模型的構(gòu)建（使用hmmbuild），最后使用該新建的隱馬可夫模型邻遏，進(jìn)一步篩選完整的NSB基因家族序列（需再次過(guò)濾糠亩，找到基因家族的成員數(shù)量一般比第一步初步篩選的多）。

把該流程用到我測(cè)試數(shù)據(jù)中：

##目標(biāo)基因家族搜索
hmmsearch --cut_tc --domtblout NBS-ABC.out NBS-ARC.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa

##簡(jiǎn)單看看運(yùn)算的初步輸出結(jié)果
head NBS-ABC.out
##output 
#                                                                            --- full sequence --- -------------- this domain -------------   hmm coord   ali coord   env coord
# target name        accession   tlen query name           accession   qlen   E-value  score  bias   #  of  c-Evalue  i-Evalue  score  bias  from    to  from    to  from    to  acc description of target
#
AT1G61180.1          -            889 NB-ARC               PF00931.22   252   1.4e-90  304.3   0.6   1   1   2.2e-92   2.5e-90  303.5   0.6     1   251   156   397   156   398 0.99 pep chromosome:TAIR10:1:22551271:22554684:1 gene:AT1G61180 transcript:AT1G61180.1 gene_biotype:protein_coding transcript_biotype:protein_coding description:LRR and NB-ARC domains-containing disease resistance protein [Source:UniProtKB/TrEMBL;Acc:Q2V4G0]
AT1G61180.2          -            899 NB-ARC               PF00931.22   252   1.5e-90  304.2   0.6   1   1   2.2e-92   2.5e-90  303.5   0.6     1   251   156   397   156   398 0.99 pep chromosome:TAIR10:1:22551271:22554684:1 gene:AT1G61180 transcript:AT1G61180.2 gene_biotype:protein_coding transcript_biotype:protein_coding description:LRR and NB-ARC domains-containing disease resistance protein [Source:UniProtKB/TrEMBL;Acc:Q2V4G0]

###對(duì)其e-value進(jìn)行篩選准验，篩選出高質(zhì)量的NBS-LRR蛋白質(zhì)序列赎线。
grep -v "#" NBS-ABC.out|awk '($7 + 0) < 1E-20'|cut -f1 -d  " "|sort -u > NBS-ARC_qua_id.txt

~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa NBS-ARC_qua_id.txt >NBS-ARC_qua.fa

對(duì)篩選出來(lái)的序列,使用clustalw2進(jìn)行多序列的比較

clustalw2
 **************************************************************
 ******** CLUSTAL 2.1 Multiple Sequence Alignments  ********
 **************************************************************

     1. Sequence Input From Disc
     2. Multiple Alignments
     3. Profile / Structure Alignments
     4. Phylogenetic trees

     S. Execute a system command
     H. HELP
     X. EXIT (leave program)

Your choice: 1
Sequences should all be in 1 file.
7 formats accepted: 
NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF,                  RSF.
Enter the name of the sequence file : NBS-ARC_qua.fa
 **************************************************************
 ******** CLUSTAL 2.1 Multiple Sequence Alignments  ********
 **************************************************************

     1. Sequence Input From Disc
     2. Multiple Alignments
     3. Profile / Structure Alignments
     4. Phylogenetic trees

     S. Execute a system command
     H. HELP
     X. EXIT (leave program)

Your choice: 1

Sequences should all be in 1 file.

7 formats accepted: 
NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF,                  RSF.

Enter the name of the sequence file : new_NBS.aln

對(duì)這些置信的序列進(jìn)行隱馬可夫模型的構(gòu)建（使用hmmbuild），構(gòu)建更加準(zhǔn)確地盡可能預(yù)測(cè)所有的基因家族成員糊饱。

hmmbuild NBS-ARC.second.out  NBS-ARC_qua.aln 

hmmsearch --cut_tc --domtblout NBS-ARC.second.out NBS-ARC_qua.hmm ../Arabidopsis_thaliana.TAIR10.pep.all.fa

最后對(duì)再次對(duì)這些基因進(jìn)行過(guò)濾與提取

grep -v "#" NBS-ABC.second.out|awk '($7 + 0) < 1E-03' | cut -f1 -d " "|sort -u >final.NBS.list

~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa final.NBS.list >final_NBS-ARC_qua.fa

BLAST-based method

除了使用隱馬可夫模型和hmmer搜索的方法外垂寥，使用同源比對(duì)blast的方法也是鑒定基因家族的其中一種方法。

首先我去了NCBI下載所有植物的存在于Ref-seq（一般認(rèn)為是比較置信的植物基因序列）中的NBS序列

makeblastdb -in ref.nbs.plant.fa -dbtype prot

cat blastp.out |awk '$3>75' |cut -f1 |sort -u > blastp_result_id.list

最后我們還可將上述兩種方法重合的gene id另锋，找出兩種方法共有的基因家族滞项，這樣結(jié)果就比較置信了。

comm -12 blastp_result_id.list hmm_out_id.list > common.list

~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa common.list >final_searh_NBS-ARC_qua.fa

最后可以通過(guò)一些網(wǎng)上的保守結(jié)構(gòu)域搜索網(wǎng)頁(yè)砰蠢，進(jìn)一步對(duì)所找出的結(jié)果進(jìn)行驗(yàn)證：

比如：NCBI CD-Search tool
https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

Pfam的搜索：
https://pfam.xfam.org/search#tabview=tab1

又或者：InterProScan sequence search
https://www.ebi.ac.uk/interpro/search/sequence-search

這些工具都可再次驗(yàn)證所搜尋的蛋白質(zhì)序列是不是含有基因家族對(duì)應(yīng)的domain蓖扑。在查看保守結(jié)構(gòu)域后唉铜，如果該區(qū)域含有NBS所對(duì)應(yīng)的保守結(jié)構(gòu)域台舱，例如LRR區(qū)域等，該蛋白質(zhì)序列可以保留進(jìn)行后續(xù)的分析。如果在該區(qū)域沒(méi)有找到對(duì)應(yīng)的保守區(qū)域竞惋，為了分析的嚴(yán)謹(jǐn)性柜去，需進(jìn)行進(jìn)一步的排查來(lái)確定是否要去掉該序列。這種情況一般分為兩種情況拆宛，第一種就是注釋無(wú)誤嗓奢，該序列確實(shí)丟失了對(duì)應(yīng)的保守結(jié)構(gòu)域，需要去掉浑厚。第二種情況就是注釋有誤股耽，該序列的結(jié)構(gòu)域可能沒(méi)有被完整的保留下來(lái)，這種情況應(yīng)該截取該序列的上下游重新注釋分析钳幅。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末物蝙，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子敢艰，更是在濱河造成了極大的恐慌诬乞，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件钠导，死亡現(xiàn)場(chǎng)離奇詭異震嫉，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)牡属，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)票堵，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人逮栅，你說(shuō)我怎么就攤上這事换衬。” “怎么了证芭？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵瞳浦，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我废士，道長(zhǎng)叫潦，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任官硝，我火速辦了婚禮矗蕊，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘氢架。我一直安慰自己傻咖，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布岖研。她就那樣靜靜地躺著卿操，像睡著了一般警检。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上害淤，一...
開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說(shuō)
那天扇雕，我揣著相機(jī)與錄音，去河邊找鬼窥摄。笑死镶奉，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的崭放。我是一名探鬼主播哨苛，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼币砂！你這毒婦竟也來(lái)了移国？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤道伟，失蹤者是張志新（化名）和其女友劉穎迹缀，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蜜徽，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡祝懂，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了拘鞋。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片砚蓬。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖盆色，靈堂內(nèi)的尸體忽然破棺而出灰蛙，到底是詐尸還是另有隱情，我是刑警寧澤隔躲，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布摩梧，位于F島的核電站，受9級(jí)特大地震影響宣旱，放射性物質(zhì)發(fā)生泄漏仅父。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一浑吟、第九天我趴在偏房一處隱蔽的房頂上張望笙纤。院中可真熱鬧，春花似錦组力、人聲如沸省容。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0贊 19
一樁弒父案燎字，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)腥椒。三九已至阿宅，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間寞酿，已是汗流浹背家夺。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工脱柱，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留伐弹，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓榨为，卻偏偏與公主長(zhǎng)得像惨好，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子随闺，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345

基因家族專(zhuān)題(3)：基因家族成員的鑒定

Data preparation

基因家族鑒定的工具h(yuǎn)mmer

具體實(shí)戰(zhàn)操作

BLAST-based method

推薦閱讀更多精彩內(nèi)容