本文主要工作內(nèi)容:
(1)使用HMM和NCBI-CDD對基因家族進(jìn)行鑒定
(2)使用幾個網(wǎng)站對基因家族表達(dá)蛋白質(zhì)的簡單性質(zhì)進(jìn)行分析
2.基因家族鑒定與基本特征探究
2.1 基因家族鑒定
2.1.1 軟件下載
鑒定基因家族需要使用到hmmer這款軟件,我們可以直接使用conda進(jìn)行安裝公黑,若使用源碼安裝立磁,提供網(wǎng)址如下:http://www.hmmer.org/
2.1.2 利用HMM鑒定
在鑒定過程中需要用到兩個文件,一個是我們之前下載的基因家族HMM模型文件,另外一個是處理后的蛋白質(zhì)序列文件。我們用軟鏈接在新的目錄下操作。
當(dāng)鑒定完成后寸爆。可以看到在—domtblout參數(shù)的輸出文件中,第一列即為我們需要的基因序列id赁豆。但是可以看到存在有重復(fù)id的情況仅醇,這是因為可能一個蛋白序列上存在有多個相似的結(jié)構(gòu)域,因此我們需要在提取id時去重復(fù)魔种。此外根據(jù)一般文獻(xiàn)要求析二,我們還得保證提取出來的基因this sequence中E-value小于1e-5,根據(jù)我的理解這表示比對的可信度更高节预。最后提取出序列id后我們再到蛋白質(zhì)序列文件中提取蛋白質(zhì)序列叶摄。這里使用的是seqtk這款軟件,我們也直接用conda安裝就好心铃。
2.1.3利用NCBI-CDD驗證
本質(zhì)上來說,鑒定基因家族其實依據(jù)的就是它的保守結(jié)構(gòu)域挫剑。NCBI-CDD(Conserved Domain)保存了大量的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)去扣。我們使用HMM模型鑒定出候選基因家族成員后,不妨再使用NCBI-CDD數(shù)據(jù)庫對鑒定到的成員進(jìn)行驗證樊破,看看是否存在假陽性的情況愉棱。這里提供NCBI-CDD的網(wǎng)址:https://www.ncbi.nlm.nih.gov/cdd
在這里我們選擇CD-Search,進(jìn)入到鑒定界面
顯然這個操作界面比較容易理解哲戚。我們把提取到的蛋白質(zhì)序列文件的內(nèi)容全都復(fù)制下來奔滑,然后在左邊對話框中粘貼。然后在右邊的Expect Value threshold中改為0.00001顺少,使其與我們的e-value標(biāo)準(zhǔn)一致朋其。最后我們點(diǎn)擊submit,讓它自己運(yùn)行脆炎。
鑒定成功后梅猿,我們點(diǎn)擊Download下載結(jié)果文件,并將它上傳(復(fù)制)到服務(wù)器上秒裕。我們這里認(rèn)定SBT蛋白質(zhì)家族都含有Peptidases_S8這一保守結(jié)構(gòu)域袱蚓,因此我們依據(jù)結(jié)果文件對每條序列中是否含有保守結(jié)構(gòu)域進(jìn)行篩選,發(fā)現(xiàn)第十條序列中并不存在相應(yīng)的保守序列几蜻,因此我們結(jié)合這一結(jié)果得到最后的蛋白質(zhì)序列喇潘。對其中的序列數(shù)進(jìn)行統(tǒng)計,發(fā)現(xiàn)共有54條序列梭稚,與文獻(xiàn)中鑒定數(shù)量保持一致颖低。
2.2 基本特征探究
2.2.1 蛋白質(zhì)物理與化學(xué)特征
所謂的特征,也就是如等電點(diǎn)弧烤,分子質(zhì)量等簡單描述蛋白質(zhì)性質(zhì)的一些數(shù)據(jù)表征枫甲。這里僅提供網(wǎng)站鏈接,具體使用相對簡單,就不再贅述想幻。https://www.expasy.org/
2.2.2 信號肽鑒定
信號肽的鑒定同樣可通過網(wǎng)站進(jìn)行粱栖。文獻(xiàn)當(dāng)中使用TargetP和SignalP用于此類鑒定。由于有現(xiàn)成的網(wǎng)站脏毯,這里僅提供鏈接地址:https://services.healthtech.dtu.dk/service.php?TargetP-2.0闹究,https://services.healthtech.dtu.dk/service.php?SignalP-5.0