[基因家族鑒定] hmmsearch結(jié)果解讀

在基因家族分析中,hmmsearch用來在很多候選序列中尋找具有某種基因家族結(jié)構(gòu)域的蛋白履因。在尋找時障簿,需要提供基因家族對應(yīng)的隱馬模型。前段時間給大家介紹了pfam數(shù)據(jù)庫更新后hmm文件不能使用的問題栅迄,有粉絲給出了如下解決方案站故,下載的文件是壓縮格式,將文件添加.gz后綴后毅舆,解壓即可西篓。hmmsearch之前介紹過,今天主要給大家介紹輸出結(jié)果憋活。

part1. 參數(shù)說明

# hmmsearch :: search profile(s) against a sequence database
# HMMER 3.0 (March 2010); http://hmmer.org/
# Copyright (C) 2010 Howard Hughes Medical Institute.
# Freely distributed under the GNU General Public License (GPLv3).
# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
# query HMM file:                  query.hmm
# target sequence database:        target.fasta
# sequence reporting threshold:    E-value <= 1e-05
# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

這里面主要是說明用了哪個模型岂津、輸入序列以及設(shè)置的參數(shù)閾值,這里只設(shè)置了evalue一個參數(shù)余掖,E-value <= 1e-05寸爆。

part2. 篩選結(jié)果

Query:       target.test.aln  [M=583]
Scores for complete sequences (score includes all domains):
   --- full sequence ---   --- best 1 domain ---    -#dom-
    E-value  score  bias    E-value  score  bias    exp  N  Sequence            Description
    ------- ------ -----    ------- ------ -----   ---- --  --------            -----------
   6.5e-165  551.5   0.1   8.6e-165  551.1   0.0    1.0  1  test.query01G2293 gene=test.query01G2293
   1.8e-162  543.5   0.0   2.3e-162  543.1   0.0    1.1  1  test.query05G2589 gene=test.query05G2589
   6.8e-162  541.6   0.0   9.1e-162  541.2   0.0    1.1  1  test.query03G0799 gene=test.query03G0799
   4.1e-159  532.4   0.0   5.4e-159  532.0   0.0    1.0  1  test.query07G1076 gene=test.query07G1076
   8.6e-158  528.0   0.0   1.1e-157  527.7   0.0    1.1  1  test.query07G1966 gene=test.query07G1966

使用hmmsearch篩選的時候目的很明確,就是確定哪些序列中包含目標(biāo)結(jié)構(gòu)域盐欺,這個統(tǒng)計表很直觀赁豆。統(tǒng)計結(jié)果中會統(tǒng)計全部序列和結(jié)構(gòu)域比對的結(jié)果,每個都有對應(yīng)的E-value冗美、score和bias三個統(tǒng)計結(jié)果魔种,最后是擁有該結(jié)構(gòu)域的候選序列。

part3. 比對結(jié)果

這部分首先是輸出每條序列中篩選獲得的所有結(jié)構(gòu)域比對統(tǒng)計結(jié)果粉洼,之后給出每個結(jié)構(gòu)域與query序列詳細(xì)的序列比對結(jié)果节预。

  • 統(tǒng)計結(jié)果
>> test.query01G2293  gene=test.query01G2293
   #    score  bias  c-Evalue  i-Evalue hmmfrom  hmm to    alifrom  ali to    envfrom  env to     acc
 ---   ------ ----- --------- --------- ------- -------    ------- -------    ------- -------    ----
   1 !   10.7   0.0   0.00082       0.4     212     263 ..       9      61 ..       2      75 .. 0.88
   2 !   41.6   0.1   3.5e-13   1.7e-10     310     473 ..      97     261 ..      90     266 .. 0.84
   3 !   21.4   0.0   4.6e-07   0.00022     507     582 ..     286     361 ..     282     364 .. 0.90

上面的結(jié)果顯示test.query01G2293序列中存在3個結(jié)構(gòu)域。

第一列的属韧!表示該結(jié)構(gòu)域全部或者部分存在于比對全序列及結(jié)構(gòu)中安拟,如果不存在,表示為宵喂?糠赦。

對于c-Evalue和i-Evalue,c表示conditional锅棕,計算時假定全序列都是同源序列進(jìn)行比對拙泽,i表示independent E-value,無前面的假設(shè)裸燎。part2比對結(jié)果中的E-value為i-Evalue顾瞻。

后面幾列是比對區(qū)間,hmm為模型文件中的比對區(qū)間德绿,ali為輸入序列中的比對區(qū)間荷荤,env為輸入序列中結(jié)構(gòu)域的區(qū)間退渗。
acc為準(zhǔn)確度

  • 比對結(jié)果

之前沒有注意過這個結(jié)果,發(fā)現(xiàn)這里面的東西還挺多梅猿,詳細(xì)說一下氓辣。

  Alignments for each domain:
  == domain 1    score: 10.7 bits;  conditional E-value: 0.00082
       target.test.aln 212 lrelLvecaeavsednlelaqellarlselsSpegn.pseRlaayfaeaLear 263
                             +lL++ca+a++ ++l+ a  ll  +  l+  +    + Rl++yfa+aL  r
     test.query01G2293   9 ALRLLLSCAKAIEDGDLKSADALLHIILVLADERPYlYESRLVKYFADALVRR 61 
                           5689***********************9999988887889**********987 PP

  == domain 2    score: 41.6 bits;  conditional E-value: 3.5e-13
       target.test.aln 310 ilealenedrvHiiDfdisqGlQwpsLlqeLasrsnkspslriTgigepesgvrseeglretgdrLaqfaeelnvpfe..f 388
                           i +al ++ r+H iDf i + +   s l++L + s+ +  +r+  i +p  + +  e   ++ + L++ a +lnv++e   
     test.query01G2293  97 IDDALMGNRRLHLIDFSIPYENFEGSVLRTLPTFSGDPLPVRVSYILPPFLK-KYVESFSQM-EFLTKDAMNLNVKLEaeL 175
                           558999999**************************************99998.445555544.679999999998886115 PP

       target.test.aln 389 navvs.kledirlesLkv...kegEtvaVnlvfqlhklldesVtesardelLrlikslnPkvvvlaeqeantndasFltrf 465
                           ++v    l +++  +L++   +e+E v+V   f+l kll ++   +a+++ L ++k++nP +v++ +   n+  + Flt +
     test.query01G2293 176 KVVYAnSLAEVDEYKLDFkrrREDEMVVVYYKFKLDKLLTDG---KAMERELVRLKEINPTIVIMLDFYSNHTHSNFLTCL 253
                           56666677778888887633369*****************96...5555556679************************** PP

       target.test.aln 466 iealeyYs 473
                            ++ +yYs
     test.query01G2293 254 EHSFQYYS 261
                           *******9 PP

==后面的內(nèi)容為每個結(jié)構(gòu)域的統(tǒng)計結(jié)果,下方是序列的比對結(jié)果袱蚓。

第一行為數(shù)據(jù)庫中的序列钞啸,.表示在輸入序列中存在插入,大寫的氨基酸表示該位置高度保守(emission probability比較高喇潘,隱馬模型中術(shù)語体斩,具體原理及算法有興趣的可以查閱相關(guān)資料)。第三行為輸入的待測序列颖低,-表示相對于數(shù)據(jù)庫序列絮吵,輸入序列中存在缺失。

最后一行為后驗(yàn)概率值忱屑,區(qū)間從0-9蹬敲,0表示0-5%,1表示5-15%莺戒,以此類推伴嗡,*表示95-100%。

兩條序列中間為一致性序列(consensus sequence)从铲,字母的大小寫與數(shù)據(jù)庫中序列保持一致瘪校,+表示保守型置換(conservative substitution)。這里并不是說一對相同的氨基酸只要出現(xiàn)就被定義為保守置換(示例如下)名段。

17 sllsssrk.........................llsdalaaqakeksl.....................vqhP......lr 45 
   + +s++ +                         +++d+la+qa+eksl                     v+ P      + 
79 DTFSPTDDtdvsdtvlkyisqvlleeemeekpcMFHDSLALQAAEKSLyevlgesypprdqapvcvdpsVESPdncsfgTS 159
   556666666666666666666666677778888********************8888885555544444444476666633 PP

第二位和倒數(shù)第二位都是l-->T阱扬,第二個為保守性置換。這是因?yàn)樵谟嬎銜r伸辟,只有該位點(diǎn)emission probability大于背景頻率才會定義成保守性置換麻惶。

part4. summary結(jié)果

Internal pipeline statistics summary:
-------------------------------------
Query model(s):                            1  (583 nodes)
Target sequences:                      40960  (16088871 residues)
Passed MSV filter:                      2227  (0.0543701); expected 819.2 (0.02)
Passed bias filter:                     1064  (0.0259766); expected 819.2 (0.02)
Passed Vit filter:                       179  (0.00437012); expected 41.0 (0.001)
Passed Fwd filter:                        90  (0.00219727); expected 0.4 (1e-05)
Initial search space (Z):              40960  [actual number of targets]
Domain search space  (domZ):              84  [number of targets reported over threshold]
# CPU time: 2.95u 0.08s 00:00:03.03 Elapsed: 00:00:00.51
# Mc/sec: 18355.80

對于整個篩選過程,先后經(jīng)過MSV信夫、bias窃蹋、Vit以及Fwd過濾,具體原理及算法可以查看官方文檔[1]忙迁。summary中Domain search space (domZ)為最終篩選后獲得的序列,有84條碎乃。

參考文獻(xiàn)

[1] http://eddylab.org/software/hmmer/Userguide.pdf

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末姊扔,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子梅誓,更是在濱河造成了極大的恐慌恰梢,老刑警劉巖佛南,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異嵌言,居然都是意外死亡嗅回,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門摧茴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來绵载,“玉大人,你說我怎么就攤上這事苛白⊥薇” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵购裙,是天一觀的道長懂版。 經(jīng)常有香客問我,道長躏率,這世上最難降的妖魔是什么躯畴? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮薇芝,結(jié)果婚禮上蓬抄,老公的妹妹穿的比我還像新娘。我一直安慰自己恩掷,他們只是感情好倡鲸,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著黄娘,像睡著了一般峭状。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上逼争,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天优床,我揣著相機(jī)與錄音,去河邊找鬼誓焦。 笑死胆敞,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的杂伟。 我是一名探鬼主播移层,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼赫粥!你這毒婦竟也來了观话?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤越平,失蹤者是張志新(化名)和其女友劉穎频蛔,沒想到半個月后灵迫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡晦溪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年瀑粥,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片三圆。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡狞换,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出嫌术,到底是詐尸還是另有隱情哀澈,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布度气,位于F島的核電站割按,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏磷籍。R本人自食惡果不足惜适荣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望院领。 院中可真熱鬧弛矛,春花似錦、人聲如沸比然。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽强法。三九已至万俗,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間饮怯,已是汗流浹背闰歪。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蓖墅,地道東北人库倘。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像论矾,于是被迫代替她去往敵國和親教翩。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容