基于3D-DNA,ALLHiC掛載二倍體基因組

關(guān)于3D-DNA,前面已經(jīng)有簡單介紹诉稍,本次主要介紹ALLHiC分析流程

ALLHiC的流程主要分為以下5個步驟:


  • Prune: 修剪(二倍體基因組可以不用)
  • Partition: 根據(jù)Hic對contig進行分組
  • Rescue: 將未分組的contig繼續(xù)進行分組
  • Optimize: 確定每組的順序和方向
  • Build:得到fasta序列和AGP文件

軟件安裝

git clone https://github.com/tangerzhang/ALLHiC
cd ALLHiC
chmod +x bin/*
chmod +x scripts/*  
export PATH=/your/path/to/ALLHiC/scripts/:/your/path/to/ALLHiC/bin/:$PATH

同時需要安裝samtools v1.9+, bedtools, matplotlib v2.0+

conda create -y -n allhic python=3.7 samtools bedtools matplotlib

大概流程

若發(fā)現(xiàn)組裝的scaffolds存在很多misjoin妙真,則可以通過3D-DNA進行糾錯缴允,然后使用ALLHiC。
關(guān)于3D-DNA流程珍德,可查看前面內(nèi)容练般,3D-DNA可以得到\color{red}{seq.FINAL.fasta}

  • 準備輸入文件
perl software/ALLHiC/scripts/release3DDNA.pl 16 seq.FINAL.fasta

上述將3D-DNA組裝好的結(jié)果根據(jù)片段長度從大到小排列矗漾,得到相應(yīng)的chr,而后將chr中的NN將其分割成多個tig.correced.contig薄料,并得到相應(yīng)chr.tour 文件敞贡。最后用ALLHIC_build根據(jù)tig.correced.contig序列以及tour文件構(gòu)建groups.agp文件,因為是根據(jù)N進行分割的摄职,所以agpW和U一次排列
得到\color{red}{tig.HiCcorrected.fasta}作為ALLHiC輸入文件

  • 建索引
samtools faidx tig.HiCcorrected.fasta
bwa index -a bwtsw tig.HiCcorrected.fasta
  • HiC reads回帖基因組
bwa aln -t 24 tig.HiCcorrected.fasta reads_R1.fastq.gz > sample_R1.sai  
bwa aln -t 24 tig.HiCcorrected.fasta reads_R2.fastq.gz > sample_R2.sai  
bwa sampe tig.HiCcorrected.fasta sample_R1.sai sample_R2.sai reads_R1.fastq.gz reads_R2.fastq.gz > sample.bwa_aln.sam
  • 過濾SAM文件

酶切位點根據(jù)自己實驗進行選擇

PreprocessSAMs.pl sample.bwa_aln.sam tig.HiCcorrected.fasta HindIII
#如果有BAM文件
#PreprocessSAMs.pl sample.bwa_aln.bam tig.HiCcorrected.fasta HindIII
filterBAM_forHiC.pl sample.bwa_aln.REduced.paired_only.bam sample.clean.sam
samtools view -bt tig.HiCcorrected.fasta.fai sample.clean.sam > sample.clean.bam

其中\color{red}{PreprocessSAMs.pl}

  • 將500bp以內(nèi)沒有酶切位點的reads全部過濾嫡锌;
  • 保留雙端均比對上的reads,得到*.paired_only.bam 文件
  • 得到reads比對情況 ..flagstat文件

\color{red}{filterBAM_forHiC.pl}的過濾標準:

  • 比對質(zhì)量高于30(MQ)
  • 只保留唯一比對(XT:A:U)
  • 編輯距離(NM)低于5
  • 錯誤匹配低于(XM)4
  • 不能有超過2個的gap(XO,XG)
  • Partition
    根據(jù)預(yù)先定的組(本項目選用16個組)對contig進行分組
ALLHiC_partition -b sample.clean.bam -r tig.HiCcorrected.fasta -e AAGCTT -k 16  

#參數(shù)
-h 幫助信息
-b prunned bam(跳過prune琳钉,直接用sample.clean.bam)
-r 組裝的基因組
-e 酶切位點 (HindIII: AAGCTT; MboI: GATC)
-k 組的數(shù)量 (根據(jù)物種染色體定)
-m 最少的酶切位點势木,默認25
  • Optimize
    確定每個組contig的順序和方向
# 提取CLM和每個contig的酶切數(shù)
allhic extract sample.clean.bam tig.HiCcorrected.fasta--RE AAGCTT
--RE: 默認GATC

# 確定contig順序和方向 (可并行)
allhic optimize sample.clean.counts_AAGCTT.16g1.txt sample.clean.clm
allhic optimize sample.clean.counts_AAGCTT.16g2.txt sample.clean.clm
...
allhic optimize sample.clean.counts_AAGCTT.16g16.txt sample.clean.clm
  • 獲取染色體級別組裝
ALLHiC_build tig.HiCcorrected.fasta
  • 繪制熱圖
# 獲取染色體長度
perl getFaLen.pl -i groups.asm.fasta -o len.txt
# 構(gòu)建chrn.list
grep 'merge.clean.counts_GATC' len.txt > chrn.list
# 畫圖(對染色體畫,500K)
ALLHiC_plot sample.clean.bam groups.agp chrn.list 500k pdf

畫圖腳本即根據(jù)bam文件獲取reads比對到的contig位置并進行計數(shù)歌懒,根據(jù)AGP文件將contig對應(yīng)在染色體上進行作圖
腳本戳這里getFaLen.pl

參考

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末啦桌,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子及皂,更是在濱河造成了極大的恐慌甫男,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件验烧,死亡現(xiàn)場離奇詭異板驳,居然都是意外死亡,警方通過查閱死者的電腦和手機碍拆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門若治,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人感混,你說我怎么就攤上這事端幼。” “怎么了弧满?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵婆跑,是天一觀的道長。 經(jīng)常有香客問我庭呜,道長滑进,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任募谎,我火速辦了婚禮扶关,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘近哟。我一直安慰自己驮审,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著疯淫,像睡著了一般地来。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上熙掺,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天未斑,我揣著相機與錄音,去河邊找鬼币绩。 笑死蜡秽,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的缆镣。 我是一名探鬼主播芽突,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼董瞻!你這毒婦竟也來了寞蚌?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤钠糊,失蹤者是張志新(化名)和其女友劉穎挟秤,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抄伍,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡艘刚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了截珍。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片攀甚。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖笛臣,靈堂內(nèi)的尸體忽然破棺而出云稚,到底是詐尸還是另有隱情,我是刑警寧澤沈堡,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站燕雁,受9級特大地震影響诞丽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拐格,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一僧免、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧捏浊,春花似錦懂衩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽牵敷。三九已至,卻和暖如春法希,著一層夾襖步出監(jiān)牢的瞬間枷餐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工苫亦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留毛肋,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓屋剑,卻偏偏與公主長得像润匙,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子唉匾,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345