2020-01-15 了解人類不同版本參考基因組及如何選擇

2013年發(fā)布了GRCh38痰哨,每年會在不改變序列和坐標的情況下發(fā)布一些Patches
https://www.ncbi.nlm.nih.gov/grc/help/patches/
**《Biostar Handbook》建議使用最新版本的基因組兄世,并且要知道如何在不同基因組之間映射信息(即liftover coordinates)

liftOver from UCSC (web工具和命令行工具)
https://www.ncbi.nlm.nih.gov/genome/tools/remap
remap from NCBI (web工具)
https://www.ncbi.nlm.nih.gov/genome/tools/remap
crossmap (命令行工具)
http://crossmap.sourceforge.net/

進行l(wèi)iftover需要一個chain data过咬,用于描述新舊build之間的差異:

conda install crossmap -y
CrossMap.py

# Get the chain file that maps from hg19 to hg38.
# 下載chain data
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/liftOver/hg19ToHg38.over.chain.gz
# Get a test data file that will be remapped.
# bed文件烈菌?
wget http://data.biostarhandbook.com/data/ucsc/test.hg19.bed
# Run the remapping process.
# 進行remap
CrossMap.py bed hg19ToHg38.over.chain.gz test.hg19.bed test.hg38.bed

*.bed文件不知道是什么锣披,學習:
《生信分析過程中這些常見文件(fastq/bed/gtf/sam/bam/wig)的格式以及查看方式你都知道嗎棒动?》https://blog.csdn.net/qazplm12_3/article/details/85222665


bwa作者Heng Li 2017年的博客給出了一些選擇參考基因組的建議:
https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use

1. 比對至GRCh37(hg19)屎篱,使用hs37-1kg

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz

2. 比對至GRCh37,并且認為 decoy sequence* 有助于variant calling啰劲,使用hs37d5

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz

關于decoy sequence,在博文《關于人參考基因組fasta文件的組成部分說明》中有提及檀何,EB病毒基因組:
http://www.reibang.com/p/5b73773e30ef

3. 比對至GRCh38(hg38):

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz


GRCh37(hg19)和GRCh38(hg38)還有其它小版本蝇裤。

各個版本的基因組可能存在的問題:

1. Inclusion of ALT contigs.


由于基因組是用單倍體類型表現(xiàn)的,因此需要alt序列表示雙倍體中的等位基因等频鉴。
ALT contigs are large variations with very long flanking sequences nearly identical to the primary human assembly. Most read mappers will give mapping quality zero to reads mapped in the flanking sequences. This will reduce the sensitivity of variant calling and many other analyses. You can resolve this issue with an ALT-aware mapper, but no mainstream variant callers or other tools can take the advantage of ALT-aware mapping.
黃色部分為flanking sequence栓辜,起調(diào)控作用

2. Padding ALT contigs with long “N”s. (?)

This has the same problem with 1 and also increases the size of genome unnecessarily. It is worse.

3. Inclusion of multi-placed sequences.

偽常染色體序列(PARs)是X和Y染色體上核苷酸的同源序列,假常染色體基因(到目前為止至少發(fā)現(xiàn)了29個)表現(xiàn)出常染色體遺傳而不是性別相關的遺傳模式垛孔。

偽常染色體區(qū)域PAR1藕甩、PAR2是X和Y染色體上核苷酸的同源序列; 正常雄性具有假常染色體基因的兩個副本:一個在其Y染色體的假常染色體區(qū)域中周荐,另一個在其X染色體的相應部分中狭莱。正常雌性也具有假常染色體基因的兩個副本:它們的兩個X染色體均包含假常染色體區(qū)域; X和Y染色體之間的cross over通常僅限假常染色體區(qū)域概作。 因此腋妙,雌性可以繼承其父親的Y染色體上最初存在的等位基因。

alpha satellites在維基百科中重定向至centromere
https://en.wikipedia.org/wiki/Centromere#The_centromeric_sequence

In both GRCh37 and GRCh38, the pseudo-autosomal regions (PARs) of chrX are also placed on to chrY. If you use a reference genome that contains both copies, you will not be able to call any variants in PARs with a standard pipeline. In GRCh38, some alpha satellites are placed multiple times, too. The right solution is to hard mask PARs on chrY and those extra copies of alpha repeats.

4. Not using the rCRS mitochondrial sequence.

rCRS是1981年宣布的人類線粒體DNA的劍橋參考序列(CRS)的修訂版(rCRS)讯榕。儲存在Genebank NCBI數(shù)據(jù)庫骤素,檢索號NC_012920匙睹。
同時還有非洲(Yoruba)參考序列,非洲(Uganda)參考序列济竹,瑞典參考序列痕檬,日本參考序列,重構智人參考序列(RSRS)

rCRS is widely used in population genetics. However, the official GRCh37 comes with a mitochondrial sequence 2bp longer than rCRS. If you want to analyze mitochondrial phylogeny, this 2bp insertion will cause troubles. GRCh38 uses rCRS.

5. Converting semi-ambiguous IUB codes to “N”.


將RYKM等簡并堿基都替換成N

This is a very minor issue, though. Human chromosomal sequences contain few semi-ambiguous bases.

6. Using accession numbers instead of chromosome names.

使用檢索號而非染色體名

Do you know CM000663.2 corresponds to chr1 in GRCh38?

7. Not including unplaced and unlocalized contigs.

基因組中不包括來自unlocalized和unplaced序列送浊,導致來自這些序列的讀段被強制map到其它染色體上梦谜,導致錯誤的variant call.

This will force reads originated from these contigs to be mapped to the chromosomal assembly and lead to false variant calls.

不同版本基因組問題簡要總結:
  1. Alt contigs的存在→variant calling和其它分析的敏感性降低→使用ALT-aware tools
  2. 用Ns填充Alt contigs→造成和1相似的問題
  3. 包括PARs→使用standard pipeline會call不到PARs上的variants→hard mask掉chrY上的PARs
  4. 不使用rCRS→在分析線粒體系統(tǒng)發(fā)育時會遇到問題
  5. 用N表示所有簡并堿基→不是什么大問題
  6. 使用Accession Number而非染色體名
  7. 不包括unlocalized和unplaced序列--導致false variant calls
  • hg19/chromFa.tar.gz from UCSC: 1, 3, 4 and 5.
  • hg38/hg38.fa.gz from UCSC: 1, 3 and 5.
  • GCA_000001405.15_GRCh38_genomic.fna.gz from NCBI: 1, 3, 5 and 6.
  • Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz from EnsEMBL: 3.
  • Homo_sapiens.GRCh38.dna.toplevel.fa.gz from EnsEMBL: 1, 2 and 3.
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市罕袋,隨后出現(xiàn)的幾起案子改淑,更是在濱河造成了極大的恐慌,老刑警劉巖浴讯,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件朵夏,死亡現(xiàn)場離奇詭異,居然都是意外死亡榆纽,警方通過查閱死者的電腦和手機仰猖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來奈籽,“玉大人饥侵,你說我怎么就攤上這事∫缕粒” “怎么了躏升?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長狼忱。 經(jīng)常有香客問我膨疏,道長,這世上最難降的妖魔是什么钻弄? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任佃却,我火速辦了婚禮,結果婚禮上窘俺,老公的妹妹穿的比我還像新娘饲帅。我一直安慰自己,他們只是感情好瘤泪,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布灶泵。 她就那樣靜靜地躺著,像睡著了一般对途。 火紅的嫁衣襯著肌膚如雪丘逸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天掀宋,我揣著相機與錄音深纲,去河邊找鬼仲锄。 笑死,一個胖子當著我的面吹牛湃鹊,可吹牛的內(nèi)容都是我干的儒喊。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼币呵,長吁一口氣:“原來是場噩夢啊……” “哼怀愧!你這毒婦竟也來了?” 一聲冷哼從身側響起余赢,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤芯义,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后妻柒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扛拨,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年举塔,在試婚紗的時候發(fā)現(xiàn)自己被綠了绑警。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡央渣,死狀恐怖计盒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情芽丹,我是刑警寧澤北启,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站拔第,受9級特大地震影響咕村,放射性物質發(fā)生泄漏。R本人自食惡果不足惜楼肪,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一培廓、第九天 我趴在偏房一處隱蔽的房頂上張望惹悄。 院中可真熱鬧春叫,春花似錦、人聲如沸泣港。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽当纱。三九已至呛每,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間坡氯,已是汗流浹背晨横。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工洋腮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人手形。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓啥供,卻偏偏與公主長得像,于是被迫代替她去往敵國和親库糠。 傳聞我的和親對象是個殘疾皇子伙狐,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355