nanopore技術(shù)的錯誤率具有偏好性夕膀,包含indel箫章、單堿基錯配等錯誤類型,且存在系統(tǒng)誤差嫡锌。在高GC含量區(qū)域虑稼、同聚物區(qū)域和串聯(lián)重復(fù)區(qū)域錯誤率大大增加。
同聚物Homopolymer是指基因組上單一堿基重復(fù)的區(qū)域(例 AAAAAAAAAA)势木,這樣的區(qū)域基因組上還不少蛛倦,會引入indel。
串聯(lián)重復(fù)序列是指以相對恒定的短序列為重復(fù)單位啦桌,首尾相接溯壶, 串聯(lián)連接形成的重復(fù)序列,又稱衛(wèi)星DNA (satellite DNA)甫男。在人類基因組中茸塞,串聯(lián)重復(fù)序列約占10%,主要分布在非編碼區(qū), 少數(shù)位于編碼區(qū)查剖。編碼區(qū)中的串聯(lián)重復(fù)序列與功能有關(guān)钾虐,非編碼區(qū)串聯(lián)重復(fù)序列多分布在間隔DNA或內(nèi)含子,重復(fù)單位短的僅2bp長的可達數(shù)十堿基對笋庄,重復(fù)次數(shù)少則數(shù)次效扫,多則幾百次,會引入indel直砂。
缺失型錯誤率和錯配錯誤率在高GC區(qū)域出現(xiàn)了顯著的增加菌仁,呈現(xiàn)明顯的GC bias現(xiàn)象