今天要用到genewise 軟件分析數(shù)據(jù)挠羔,記錄一下過程池户!
1. GeneWise 簡介
Genewise主要用于將蛋白質(zhì)序列和DNA序列進行比對,從而對DNA序列上的編碼區(qū)進行預測。這是一個非常老的軟件,距離他不更新至少有10多年了膳叨,但是目前還是有很多公司用他進行基因組注釋,包括ENSEMBL的注釋流程的幾個核心部分用到的也是它各淀。
2. GeneWise 安裝
wget http://www.ebi.ac.uk/~birney/wise2/wise2.4.1.tar.gz
tar zxf wise2.4.1.tar.gz -C /opt/biosoft/
cd /opt/biosoft/src
find . -name makefile | xargs sed -i 's/glib-config/pkg-config glib-2.0/' #將src目錄下所有makefile中的glib-config替換成glib-2.0
perl -p -i -e 's/getline/getline_ReadSeqVars/g' ./HMMer2/sqio.c #替換genewise使用庫中函數(shù)名發(fā)生改變的部分懒鉴,例如getline,現(xiàn)在是getline_ReadSeqVar
perl -p -i -e 's/isnumber/isdigit/' models/phasemodel.c
perl -p -i -e's/csh welcome.csh/sh welcome.csh/' makefile #將csh改成sh
sed -i 's/-ldyna_glib/-ldyna_glib `pkg-config --libs glib-2.0`/' models/makefile #解決編譯過程中g_hash_table_foreach_remove的bug, 似乎在Linux平臺不存在這個問題
make all #最后編譯加測試
export WISECONFIGDIR=~/home/yt/biotools/wise2.4.1/wisecfg
make test
echo 'PATH=$PATH:~/home/yt/biotools/wise2.4.1/src/bin/' >> ~/.bashrc #修改環(huán)境變量
echo 'export WISECONFIGDIR=~/home/yt/biotools/wise2.4.1/wisecfg/' >> ~/.bashrc
source ~/.bashrc
3. GeneWise的使用
在GeneWise的安裝目錄下碎浇,有一個wise2.tex文件临谱,闡述了詳細的genewise的使用方法。其軟件最常用的命令是genewise奴璃。該命令的常用示例:
genewise protein.fasta dna.fasta -both -gff
#程序輸入的蛋白質(zhì)序列和DNA序列分別是2個fasta文件悉默。這兩個fasta文件中僅有第一條序列是有效的,genewise僅對其中的2個第一條序列進行比對苟穆。以上示例對dna序列的正負鏈都進行cds預測抄课,并將gff格式結果文件輸出到標準輸出唱星。
genewise的常用參數(shù):
-trev #僅對負義鏈進行cds預測
-tfor #僅對正義鏈進行cds預測,該參數(shù)是默認值
-both #對負鏈都進行cds預測
-genes #給出gene結構的結果跟磨,非常簡單的exon信息結果间聊。默認情況下僅輸出適合人類閱讀的比對結果
-gff #給出gff格式的結果
-cdna #給出cdna序列
-pep #給出cds翻譯出的蛋白質(zhì)序列
-splice [model/flat] #使用的split site是model(默認值)或GT/AG。
-help #給出幫助信息抵拘。
-version #給出版本信息哎榴。
-silent #標準錯誤輸出不輸出messages信息。
-quiet #標準錯誤輸出不輸出report/info信息僵蛛。
GeneWise的高級使用
注意尚蝌,-options的順序并不重要,但是蛋白質(zhì)文件必須是dna文件之前
基因序列與蛋白質(zhì)比較 genewise:
genewise protein.pep cosmid.dna 比較蛋白質(zhì)序列與DNA序列
genewise -hmmer pkinase.hmm cosmid.dna 比較了蛋白質(zhì)譜HMM與DNA序列
genewisedb protein.pep human.fa 將單個蛋白質(zhì)序列與DNA序列數(shù)據(jù)庫比較
genewisedb -hmmer pkinase.hmm human.fa 將單個蛋白質(zhì)譜HMM與DNA序列數(shù)據(jù)庫
genewisedb -prodb protein.pep -dnas cosmid.dna 比較蛋白質(zhì)數(shù)據(jù)庫序列到單個dna序列
genewisedb -pfam Pfam -dnas cosmid.dna 比較了蛋白質(zhì)譜HMM的數(shù)據(jù)庫到單個dna序列
genewisedb -prodb protein.pep human.fa 比較蛋白質(zhì)數(shù)據(jù)庫序列到dna數(shù)據(jù)庫序列-請注意充尉,這將需要一段時間飘言!
genewisedb -pfam Pfam human.fa 比較了蛋白質(zhì)譜HMM的數(shù)據(jù)庫到單個序列的數(shù)據(jù)庫-請注意,這將需要一段時間驼侠!
estwise(蛋白質(zhì)與est / cDNA比較)具有完全相同的運行模式姿鸿。
estwise protein.pep singleest.fa 將蛋白質(zhì)序列與DNA序列進行比較(相同如上面的示例)
estwise -hmmer pkinase.hmm singleest.fa 將HMM與DNA序列進行比較
estwisedb protein.pep est.fa 將單個蛋白質(zhì)序列與DNA序列數(shù)據(jù)庫
estwisedb -hmmer pkinase.hmm est.fa 將單個蛋白質(zhì)配置文件HMM與DNA序列數(shù)據(jù)庫
estwisedb -prodb protein.pep -dnas singleest.fa 比較蛋白質(zhì)數(shù)據(jù)庫序列到單個dna序列
estwisedb -pfam Pfam -dnas singleest.fa 比較了蛋白質(zhì)譜HMM的數(shù)據(jù)庫到單個dna序列
estwisedb -prodb protein.pep est.fa 比較蛋白質(zhì)數(shù)據(jù)庫序列到dna數(shù)據(jù)庫序列-請注意,這將需要一段時間倒源!
estwisedb -pfam Pfam est.fa 比較了蛋白質(zhì)譜HMM的數(shù)據(jù)庫到單個序列的數(shù)據(jù)庫-請注意般妙,這將需要一段時間
示例:
蛋白質(zhì)數(shù)據(jù)庫與基因組數(shù)據(jù)庫比較,輸出格式為 gff 格式相速,輸出文件名為genewise.out
genewisedb -prodb protein.fasta bed_FASTA.fasta -gff > genewise.out
4.genewise的運行原理簡述:
- genewise的算法:21:93算法是genewise的基礎算法碟渺。該算法簡單講就是 Match-Insert-Delete,在蛋白質(zhì)序列和DNA序列比對后能準確劃定intron邊界突诬。算法將intron分成5部分:5'端splice site苫拍、中間intron主體、富含CT區(qū)域旺隙、連接區(qū)绒极、3'端splice site。根據(jù)蛋白質(zhì)序列和DNA序列的比對結果算出Intron部分蔬捷,從而將DNA序列的CDS區(qū)分成了Match垄提、Insert和Delete 3部分,再對這3部分進行蛋白質(zhì)翻譯或移碼翻譯周拐,從而劃定intron邊界铡俐,得到CDS信息。
- 6:23算法則是2:93算法的簡單版本妥粟,也是軟件的默認設置审丘。和2:93算法相比,6:23算法的intron沒有第3和第4部分(富含CT區(qū)域勾给、連接區(qū))滩报。同時锅知,6:23算法更適合于DNA序列中沒有屏蔽重復或introns序列比較怪異的情況。使用該算法的時候脓钾,-intron參數(shù)的值得tied(也是該參數(shù)默認的值)售睹,否則會得到錯誤的很長的intron結果。
- 若是算法后面帶個 L 字樣可训,則表示適用于進行輸入的蛋白質(zhì)序列是 HMM 模型侣姆。此外, 還有其它的一些算法沉噩,可以參考wise2.pdf文件。
- genewise對基因進行預測后柱蟀,有一個得分川蒙。該得分 = log2(預測模型的可能性/隨機結果的可能性) 。因此长已,0表示該結果是個隨機的結果畜眨,不可靠的。根據(jù)軟件作者的經(jīng)驗术瓮,得分高于35的結果是非晨的簦可靠的;得分25-35的結果是可信的胞四;得分18-25的結果可能僅適用于某些蛋白質(zhì)家族恬汁;得分低于15的是不可信的。
用臨近物種的protein序列對基因組進行homolog gene預測的時候辜伟,需要通過blast將proteins序列和基因組序列進行比對氓侧,再提取基因組的目標基因區(qū)域和最佳結果protein進行genewise分析。因此导狡,需要自己寫一些程序進行并行化的genewise計算约巷,從而達到對全基因組大數(shù)據(jù)的分析。Genewise軟件提供了一支程序/opt/biosoft/wise2.4.1/src/perl/scripts/blastwise.pl旱捧,程序能進行該項處理(我沒有用過該程序独郎,我自己寫用python寫代碼,并借助bedtools得到目標序列)枚赡。
示例:單個蛋白質(zhì)序列跟單個基因比較
genewise jason.pep jason.dna
#顯示結果
Name: wise2-4-1 $ (unreleased release)
This program is freely distributed under a GPL. See source directory
Copyright (c) GRL limited: portions of the code are from separate copyright
Query protein: BRR2
Comp Matrix: /usr/share/wise/BLOSUM62.bla
Gap open: 12
Gap extension: 2
Start/End default
Target Sequence Contig4084
Strand: forward
Start/End (protein) default
Gene Parameter file: /usr/share/wise/gene.stat
Splice site model: GT/AG only
GT/AG bits penalty -9.96
Codon Table: /usr/share/wise/codon.table
Subs error: 1e-06
Indel error: 1e-06
Null model syn
Algorithm 623
Find start end points: [964,36][2175,3876] Score 454309
Recovering alignment: Alignment recoveredplicit read offffone 74%%
genewise output
Score 1310.86 bits over entire alignment
Scores as bits over a synchronous coding model
Warning: The bits scores is not probablistically correct for single seqs
See WWW help for more info
BRR2 965 YVRMLRSPALYSVGPEYDD-DKYLVQKR
YVRML SP LY+VG +Y + D LVQKR
YVRMLESPKLYNVGADYQEGDDALVQKR
Contig4084 35 tgcatgtcactaggggtcgggggcgcac
atgttaccataatgcaaaagaacttaag
tgagggtcggctgcaccggctcgctgga
BRR2 992 DLLHSAAILLEKCKLLVYN
DL+HSAA+LLEK L+ Y+
A:A[gcc] DLIHSAAVLLEKGGLVRYD
Contig4084 119 GGTGAGTA Intron 1 CAGCCgcactgggccgaggcgctg
<1-----[120 : 169]-1> attaccctttaaggttgaa
tgctcttctcagatctctc
BRR2 1012 RQSGTLTATELGKVAASYYVTHNSMAIYNRLLMQTTSFIELFRVFSFSD
R +G +T+LG++A+ YY+ ++SM++YN+ L ++I+LFRVF++S+
RATGVFQSTDLGRIASHYYIAYSSMSVYNKHLKPNMTMIDLFRVFALSN
Contig4084 229 cgaggtctagcgcagtcttagtttatgtaaccacaaaaagctcgtgtaa
gccgttaccatggtccaaatcacctctaaaatacatcttattgttctga
ttttccgtcctcttcgccctgctagcgccgctgttgtgccccagctgcc
BRR2 1061 EFKHIPVREEEKVELAKLLERVPIPIRERLDEPAAKINALLQSYISRQR
EF+ IPVR+EEK+ELAKLLERVPIP++E +DE AK+N LLQ+YIS+ +
EFRLIPVRQEEKLELAKLLERVPIPVKEGVDESVAKVNVLLQAYISQLK
Contig4084 376 gtacacgacggacgtgaccgagcacgagggggtggagagctcgtatcca
atgttctgaaaatatcattagtctctaagtaactcatatttacatcata
gcagctcgaaaacggcggtggggacgggtgcatgcggtgtgagtcagtg
BRR2 1110 LDGFALVADMVYVTQSAGRIMRAIFEISLRRGWSSVATLSLDTCKMIEK
L GF +V DMV++ QSAGRI+RA+FEI L++GW+ +LD CKM+E+
LSGFDIVTDMVFIQQSAGRIIRAMFEICLKKGWAQPMRAALDLCKMVER
Contig4084 523 ctgtgagagagtacctggcaacgatgatcaagtgccacggcgctaagga
tcgtattcattttaaccggttgcttatgtaaggcactgcctatgattag
ccaccccgcgtccaattctccccgtactcagcgtaggatttcgtagtga
BRR2 1159 RLWPTMSPLRQFPNCPSEVIRRVEKKEFPWQRYFDLDPAELGELVGVPK
R+W +M+PLRQFP E+++R E+K+FPW RYFDLD AELGEL+G+PK
RMWKSMTPLRQFPRINREIVQRAERKDFPWYRYFDLDAAELGELIGLPK
Contig4084 670 aatataaccactcaaacgagccggaagtcttattgcggggcggtagtca
gtgactcctgatcgtagattagcagaatcgagatataccatgattgtca
ggggtgtgcgactgcctgttgtgaggcctgcgctctcctaaaggccgcg
BRR2 1208 EGRRVYNMVQSFPRLSVEAHVQPITRSLVRVELVINSQFNWDDHLSGTS
G + ++V FPRL ++AHV P+TRSL+++ + + F WD ++ G S
SGAYIQSLVHKFPRLDLQAHVLPLTRSLLKINVTLTPDFQWDRNVHGAS
Contig4084 817 aggtactcgcatcccgccgcgcccactccaaagacacgtctgcagcgga
ggcatacttaatcgtatacattctcgcttatatctccatagagatagcg
cacccgtttcgccacttattcgcctattcgcccttttccggtttatcct
BRR2 1257 EAFWILVEDVDGDRLLHYEQFFLLKKYKDDEHIVNFTVPLLEPLPPCYF
+AFWI+VEDVDG+ +L+++QF+L +++ +DEH V +TVP+ EP+PP Y+
QAFWIIVEDVDGENVLYHDQFILRERFAEDEHYVTITVPISEPVPPNYY
Contig4084 964 cgttaagggggggagctcgctatcgatggggctgaaagcatgcgccatt
actgtttaatagaattaaaatttgagtcaaaaatctctctcactccaaa
aatgccggcgtcgttttccgtcaaggcggtgttgcccccctgtatccct
BRR2 1306 IKIVSDRWLHSITKVPLSFQRLIMPEKFPAPTPLLDLQNAPVSSLNNPS
+ ++SDRWL + +K+P+SF LI PE FP TPLL+LQ P+++L+N +
LSVISDRWLQAESKLPISFAHLIRPEPFPPHTPLLELQPLPITALHNKA
Contig4084 1111 ctgatgattcggaatcattgctaacgctcccactcgccctcaagccaag
tcttcaggtacagatctctcattgcactccaccttatactctcctaaac
gtctttggaaggcgaccgcttgcgcaatttcctgtacatggtagttcgt
BRR2 1355 FISLYPNFKFFNKIQTQVFNSVYKTNDSVFIGAPNGSGKTVCAELALLH
F SLYP F+ FNKIQTQVF +++ T+D+VFIGAP GSGKT+CAE ALL
FESLYP-FEHFNKIQTQVFQALFTTDDNVFIGAPTGSGKTICAEFALLR
Contig4084 1258 tgtctc tgctaaacacgtcgctaaggagtaggcagagaaatggtgtta
tactac taataatacattacttccaaatttgcccgggactgcatcttg
tgtttt cgcccgcacaccgctcttcctccctgtaacaatttggtggga
BRR2 1404 HWSQ--EDYGTAVYIAPIQEIVDRRYEEWYGKFSDLGDGKVLVKLTGER
WS+ D AV I P QE+VD R EW KF L KV+V LTGE
LWSKKGKDVPRAVCIEPYQEMVDTRVAEWSNKFEGLE--KVIVALTGES
Contig4084 1402 ctaaagaggcaggtagctcgaggacgggttaatggcg agaggcaggt
tggaagaatcgctgtacaaattacgtcagcaatagta atttctcgac
tgcggtgtggggaccgtcgaggttaggagtcgtgagg ggcccccgag
BRR2 1451 SQDLKLIQVADLIFCTPSQWDSLSKRWRSMRSIQKVDFYICDELQLLGG
+ DL L++ AD++ CTPSQWD LS+RW++ + +Q + + I DELQL+GG
TADLALLRKADVVVCTPSQWDLLSRRWKTRKDVQNIGLLIADELQLIGG
Contig4084 1543 aggcgctcagggggtactctgtctcataaaaggcaagccagggcctagg
ccatcttgacatttgcccagattcgggacgaataatgtttcaatattgg
gctggagaagtttctttaggtgttaaggaggtggctgggtctgtaacct
BRR2 1500 FYGPLYEIVISRIRYMAVQLEKNIRVVGLSVSVANARDLGEWLGTSPQC
G YE+++SR RY++ Q R+V SVS++NARDLG+W+G S Q
DVGSTYEVIVSRTRYVSQQTGITTRIVACSVSLSNARDLGDWIGASSQT
Contig4084 1690 gggtatggagtaaatgtccagaaaaaggtagataagagtggtaggaaca
atgccaatttcgcgatcaacgtccgttcggtgtgacgatgagtgcggac
tgttccggttcagatatagggcccatacctgcacttgtgttgcattcac
BRR2 1549 IFNFSPKDRPNPLTIHLQSFSITHFPSLMLAMSKPIYRSLKNFISQRKS
+FNFSP RP PL +HLQSF++ HFPSLMLAM+KP Y S+ S +
VFNFSPAARPLPLEVHLQSFNVPHFPSLMLAMAKPAYLSMVEH-SAGRP
Contig4084 1837 gtattcggcccccggctcttagcctctcacgagacgtctaggc tggcc
ttatccccgctctatatactatcatcctttctcaccatcttaa ccggc
gtctttctatctcggtggtccgtccctcgttgcacctctggac ttcgg
BRR2 1598 TIVFTPDRKVAKQLAFDLVTFSMADEDEYLFSLMENE----AFNKVEDA
TI F RK K A D++T+ +AD+DE F +E E + ++ D
TICFVASRKQCKLTANDILTYCLADDDETRFLNVEREDLEPHLERLSDE
Contig4084 1981 aattggtcactacagagacattcgggggactcaggaggtgcctgatagg
ctgttccgaagatccaattcagtcaaaacgttatagaatacatagtgaa
cccctcgcgatgctcctctgcctgtctgtaccttgaatgggcggagccg
BRR2 1643 ALQQSLKHGIAYISEITSSNDQNIVQYLYRHGLIKVLIASR
L+++L++GI Y E S D+ IV L+ G IKVL+AS+
DLKETLRYGIGYYHEALSKLDKKIVTTLFEEGAIKVLVASK
Contig4084 2128 gtagatatgagttcggcaatgaaagaattggggaagcggta
ataactgagtgaaaactgataaattccttaagctatttcca
tgggcggcttactcgtgcggcagtctagcggatcggtgctg
BRR2 1684 DVIYSLKAKSNAVIVMGTQYYD
D +SL + + VI+MG QY+D
DTAWSLPSTAYMVIIMGVQYFD
Contig4084 2251 GTAAGTT Intron 2 TAGgagtacctagtagaaaggcttg
<0-----[2251 : 2301]-0>accggtccccatttttgtaata
cttgtctgtttgcccgtcatct
BRR2 1706 GKEHRYIDYPISELLQMLGFTASIGSSELSQVILMTVTTKKEYYKKFLN
G+EHRY+DY I+++LQM+G S+ +LM T+K+++KKFLN
GQEHRYVDYAIADILQMMGRACRPTIDTSSRCVLMCQQTRKDFFKKFLN
Contig4084 2368 gcgcctggtgaggaccaagcgtccaagattctgtatccacagttaatta
gaaagataactcattattggcggcctacccggtttgaacgaattaatta
cggcactttccctccaggcattcagtcctggcgggtggcagcccagcac
BRR2 1755 EPLPMESHLQVWLHDAFVSEISTQTIESKQDAVDWLTWSYMYRRLVANP
E LP+ES L +LHD F +EI +TIE+KQDAVDW TW+++YRRL+ NP
EALPVESSLPSFLHDHFNAEIVARTIENKQDAVDWCTWTWFYRRLMQNP
Contig4084 2515 ggtcggtatcattcgctaggaggaaagaacggggttatatttaatacac
actctacgtcgttaaatacattcgctaaaaactaggcgcgtaggttaac
gaggcgatagccgctccccgtaggtcgtggttttgttgcgccggaggtc
BRR2 1804 A YYGLQDITHESVSEFLSDLVE
+Y LQ T + E+LS+LVE
G FYNLQGTTPTHIGEYLSELVE
Contig4084 2662 gGTGAGTA Intron 3 CAGttaccgaacacaggtctgcgg
g<0-----[2665 : 2716]-0>taatagccccatgaatcatta
a tccagccattttcacatatca
BRR2 1826 TTMNDLSEARLITVDDEDDSCVALNLAMIASHYGITYITMQTFALSLSE
TT+NDL + I + D+ D+ NL MIAS Y I+YIT++ F+ S+ E
TTLNDLVNSDCIIIQDDMDT-LPNNLGMIASFYYISYITVEIFSQSIKE
Contig4084 2780 aatagtgatgtaaacggaga ccaatgaagttttattaaggattctaag
cctaattacagtttaaatac tcaatgttcctaatcatctattcactaa
ccgtcgccgtctccactgcc ccccatgtactcccaccccacctaccaa
BRR2 1875 RTKMKGLLEIVTSAAEYEQLPIRKYEDIVLERIHSRLPVRLSNPNYEDP
TK+KGLLEIV+SA E+E +PIR +ED +LERI+ R+PV+++ +Y P
TTKLKGLLEIVSSAHEFETVPIRHHEDTLLERIYDRVPVKVAKVDYSSP
Contig4084 2924 aaacagtcgagttgcgtgagcaaccggaccgaatgcgcgaggaggtatc
ccatagttattcccaatactctgaaaacttagtaagtctatcataagcc
tcacgcgtatctagtgtgctgcgctactttggtcctgttgtcactccac
BRR2 1924 HTKSFILLAAHFSRFELPPGLVIDQKFILTRVHNLLGACVDTLSSEGHL
+ K+F+LL AHFSR LPP L IDQ IL ++ LL A VD +SS+ L
YFKTFLLLQAHFSRTTLPPDLAIDQSTILGKIIGLLSAAVDVMSSKS-L
Contig4084 3071 ttaatccccgctacaacccgtgagctaacgaaagcctgggggataaa t
atacttttacatggcctccatctaaccttgattgttccctattcgag t
tcatccgtattcccgcttccgtctattttcgactttactgttgccgt g
BRR2 1973 IACIRPMEMSQMVTQALWDRDSPLKQIPYFDDALIERCNKEGVHDVFDI
+ C+ M++SQM QA+WDRDSPLKQ+PYFD ++ R +G+ V+DI
LGCLGAMDLSQMCVQAMWDRDSPLKQVPYFDADVLGRFKAKGLDSVYDI
Contig4084 3215 cgttggagcacatgcgatgagtctacgcttggggcgatagagtgtgtga
tggtgctatgatgtactgagacctaatcatacattggtacagtactaat
tatgtggcttagtgggggtgtatggggcctcccctgacgcgtgccgtcc
BRR2 2022 IDLDDEKRTELLHMDNAH A
++L+D++R +LL M++ A
MELEDDERNDLLRMNDRQ L:L[ctt] A
Contig4084 3362 agcggggaagttaaagacCTGTACGTT Intron 4 CAGTg
tataaaagaattgtaaga <2-----[3418 : 3471]-2> c
gggattagttggggtcag g
BRR2 2042 KCAEFINKYPDIDIDFEIEDSEDVHANSPSVLIVQLTRELEEDEEVDTT
+ A+F+N YP+I++ + +ED+ + ++ P VL + L RE +E D
RVAKFVNSYPNIEVSYHVEDASSLTSSDPVVLNITLDREADEGNPEDQV
Contig4084 3476 cggatgattcaaggttcggggttcattgcggcaaacgcgggggacggcg
gtcattacacatatcaataaccctcccactttatctagacaagacaaat
atcgccttttttgttcccacctttctcctcgcttcgtcatcacctacag
BRR2 2091 VIAPYFPAQKTEHWWLVISDDKT--LLAIKKITLGRSLTTKMEFVPPAM
AP+FP +K WWLV+ D+KT L AIKK+T+ +L TK+EF P
ADAPHFPHKKMVSWWLVVGDEKTKSLYAIKKVTVKATLKTKLEFTLPE-
Contig4084 3623 gggcctccaaagtttcgggggaaatttgaaagagagacaaacgtaccg
caccatcaaattcggtttgaaacactactaatctacctacatatctca
ctacccttgggcaggcggtcagcaggcgcggcttagatgtgtacacta
BRR2 2138 GTLKYKLSCFSDSYMGVDYEKEFECNVLEPLDTEMEDGE
G KL + DSY G D +F+ L+ ++ E D E
GEWNLKLFLICDSYAGAD--QDFDIETLKVVEGESSDEE
Contig4084 3767 ggtatacttatgatgggg cgtgagacagggggatggg
gagatattttgagacgca aatatactattagagcaaa
aggcgggcgcttctaagc gcttcgttgagaggctcgg
//
#end