網(wǎng)址:https://asia.ensembl.org/index.html
- Ensembl是一個 脊椎動物 基因組的基因組瀏覽器织盼,支持比較基因組學(xué)衅檀、進(jìn)化萤衰、序列變異和轉(zhuǎn)錄調(diào)控的研究抚官。Ensembl注解基因上陕,計算多種校準(zhǔn),預(yù)測調(diào)節(jié)功能和收集疾病數(shù)據(jù)拓春。
Ensembl 的特點:
1释簿、物種種類齊全。
2硼莽、提供物種基因組序列辕万。
3、有比對工具:BLAST, BLAT, BioMart和變異效應(yīng)預(yù)測器(VEP)沉删。
Ensembl提供搜索功能,種類包括Gene, Transcript, Variant, Phenotype, Structural variation, Somatic mutation, Protein families, Gene tree, GenomicAlignment, Translation, Protein domains, Clones and regions, Marker.
提供物種數(shù)據(jù)的大類:
Protein-coding and non-coding genes, splice variants, cDNA and protein sequences, non-coding RNAs.
其中
- FASTA files for genes, cDNAs, ncRNA,
- proteins GTF or GFF3 files for genes, cDNAs, ncRNA, proteins
其中cDNA是互補(bǔ)DNA醉途,是由mRNA反轉(zhuǎn)錄來的DNA矾瑰,不包括ncRNA.雙鏈DNA縮寫是dsDNA,ncRNA表示非編碼RNA.
CDS是編碼序列(Coding sequence)的縮寫隘擎。DNA轉(zhuǎn)錄成mRNA殴穴,mRNA經(jīng)剪接等加工后翻譯出蛋白質(zhì),所謂CDS就是與蛋白質(zhì)序列一 一對應(yīng)的DNA序列
- primary_assembly 結(jié)尾的文件货葬,該文件內(nèi)部有完整的基因組信息(包括每條染色體的序列信息)采幌,一般做比對選它。
- alt 結(jié)尾的參考基因組文件震桶,這個文件的alt代表:Alternate loci休傍,不同的單倍體型,里面有不同的HLA序列蹲姐,基因在一條染色體上的組合稱單元型(haplotype 磨取,又稱單倍型)
- chromosome+數(shù)字 結(jié)尾的代表每個染色體的序列信息
- 以toplevel結(jié)尾的文件,其內(nèi)部包括了很多該物種的亞型柴墩,或者說包括了大量的變異信息忙厌,其余很多部分都是冗余的,不建議做比對時使用江咳,否則建索引就很慢逢净。
- dna_rm: 該類序列為dna repeat masker序列,即屏蔽重復(fù)序列歼指,該序列中爹土,所有重復(fù)序列均會變成N;在做比對時不建議使用
- dna_sm: 該類序列為dna soft masker序列东臀,即軟屏蔽重復(fù)序列着饥,該類序列中,所有重復(fù)序列均會變成小寫惰赋;有些軟件在比對時可以進(jìn)行大小寫轉(zhuǎn)換宰掉,有些則不會