問題一:各區(qū)域注釋之和大于變異總數(shù)?
snpEff的結(jié)果很簡單肌似,但常常遇到如下問題费就。
我的SNP總數(shù):
但是,注釋的exon川队、intron和intergenic之和2,278,570就已經(jīng)大于了總SNP數(shù)力细。
我大概能知道是什么原因。一個snp會落在多個基因上固额,所以既有可能落在exon眠蚂,又有可能落在intron區(qū),最后會大于總snp斗躏。同樣逝慧,一個gene有多個轉(zhuǎn)錄本也會出現(xiàn)這樣的情況。如果是Indel或者其他結(jié)構(gòu)變異,這種情況更加可能發(fā)生了笛臣。
關(guān)鍵是栅干,我看一些高水平文章的統(tǒng)計中,往往注釋各區(qū)域之和少于或等于總的snp數(shù)捐祠,如:
他們是如何處理碱鳞,怎樣才能得到這樣的結(jié)果呢?snpEff結(jié)果文檔沒說踱蛀,網(wǎng)上也無解窿给。有人用最佳transcript,但還是會出現(xiàn)這種情況率拒。
number of functions is more than namber of variants in snpEff's output
問題二:注釋Region出現(xiàn)Gene和transcript等區(qū)域崩泡?
在一些注釋結(jié)果中,特別是大的結(jié)構(gòu)變異中猬膨,常常還會出現(xiàn)gene角撞、transcript之類的變異統(tǒng)計,有些則沒有勃痴。按說有exon谒所,應(yīng)該都會落在gene,為什么gene時有時無沛申。這如何理解劣领?
同樣,該問題snpEff文檔中也沒有詳細解釋铁材。
希望有大佬指點一二尖淘。