生信 | 三維基因組技術(shù)(二):Hi-C輔助組裝與Lachesis的使用

寫在前面

  • 以下內(nèi)容均來自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記

1.Hi-C 輔助組裝(PGA)技術(shù)原理

染色質(zhì)在細(xì)胞核內(nèi)分布的并不是隨機分布的,而是不同染色體占據(jù)不同的空間。

染色體疆域
  • Hi-C實驗原理圖
Hi-C實驗原理圖
  • 基因組互作衰減

染色體內(nèi)互作強度較強裂七,但也隨著空間距離的增大互作強度在衰減

互作衰減
  • Hi-C互作三大規(guī)律

  • 1.染色體內(nèi)互作富集(Intrachromosomal interaction enrichment)
  • 2.互作隨距離衰減(distance-dependent interaction decay)
  • 3.局部互作平滑(local interaction smoothness)
    \color{red}{可以通過以上三個規(guī)律來 判斷組裝的好壞}

2.Hi-C技術(shù)輔助基因組組裝目的

  • 將contigs組裝到假染色體層面,實現(xiàn)基因組組裝到染色體層面
輔助組裝

3.Hi-C技術(shù)主流輔助組裝軟件

  • 首選軟件:Lachesis
  • 輔助組裝步驟

1.Cluster(聚類)龙誊。因為染色質(zhì)內(nèi)的互 作強度要高于染色質(zhì)間的互作強度,所 以先對contig/scaffold進行聚類成染色體群喷楣。
2.Order(排序)载迄。確定每個染色體群中contig/scaffold的順序
3.Orient(定向)。確定每個 contig/scaffold的方向三個步驟按照互作強度依次

輔助組裝步驟

  • Cluster聚類原理
聚類原理
  • Order排序原理
排序原理
  • Orient定向原理
定向原理

4.Hi-C PGA代碼實操(PGA即輔助組裝)

4.1 軟件安裝與編譯

git clon https://github.com/shendurelab/LACHESIS.git
#此外還需要使用conda安裝boost與samtools
conda install -c conda-forge boost-cpp -y
conda install -c bioconda samtools -y
conda install -c bioconda bwa -y
#都安裝完成后抡蛙,開始編譯
cd LACHESIS/
make
#后續(xù)用到的腳本都在/lachesis/src/bin目錄下

4.2 數(shù)據(jù)比對

  • 在基因組草圖目錄中建立bwa索引
bwa index draft_genome.fasta
  • 采用bwa-mem模式,將Hi-C reads比對到基因組草圖魂迄,生成sam文件
bwa mem -t 10 ./draft_genome.fasta ./R1.fastq.gz ./R2.fastq.gz > thaliana.sam

4.3 數(shù)據(jù)過濾

  • 使用lachesis首先過濾掉flagstat大于2048的序列(flagstat > 2048表示去除補充匹配的reads見下圖)
perl /lachesis/PreprocessSAMs-rmsubalig.pl thaliana.sam thaliana.II.sam
#PreprocessSAMs-rmsubalig.pl腳本接輸入和輸出文件的名字粗截,運行完會得到一個過濾后的sam文件:后綴.II.sam
cp /lachesis/src/bin/PreprocessSAMs.pl ./
vim PreprocessSAMs.pl
#小tips:vim下使用set nu顯示行號捣炬,輸入數(shù)字直接跳轉(zhuǎn)
#根據(jù)Hi-C實驗過程中使用的限制性內(nèi)切酶熊昌,更改酶切位點序列 (擬南芥使用的是HindIII,對應(yīng)的酶切位點序列是AAGCTT湿酸,$RE_site對應(yīng)的就是酶切序列)
修改PreprocessSAMs.pl
  • PreprocessSAMs.sh程序復(fù)制到當(dāng)前目錄婿屹,并加以修改
cp /lachesis/src/bin/PreprocessSAMs.sh ./
vim PreprocessSAMs.sh
#以下幾處需修改:
#DIR
#在第46行,修改為目前所在的目錄路徑推溃,可用pwd命令顯示當(dāng)前路徑
#SAMS
#在第48行昂利,修改為上一步生成的sam文件名字 (例如thaliana.II.sam)
#ASSEMBLY
#在第49行,修改為參考基因組的路徑(例如../01.ref/arabidopsis_thaliana_draft_genome.fasta)
#注意:ASSEMBLY一定要用相對路徑,否則會報錯PreprocessSAMs.pl: Can't find draft assembly fil
修改PreprocessSAMs.sh
  • 然后過濾出距離酶切位點500bp以內(nèi)且唯一比對的reads
sh PreprocessSAMs.sh
# 注意:這一步運行完需要按回車鍵結(jié)束
cd ..
  • 結(jié)果文件
數(shù)據(jù)過濾結(jié)果文件

4.4 Lachesis組裝

  • 建立一個lachesis分析文件夾并進入蜂奸,例如:
mkdir 04.lachesis
cd 04.lachesis
  • 新建一個過濾文件的目錄犁苏,同時建立過濾文件的軟鏈接
mkdir bam_file
cd bam_file
ln -s /data/alnbam/*.II.REduced.paired_only.bam
cd ..
  • 復(fù)制一個lachesis的配置文件到當(dāng)前目錄,并修改
cp lachesis/src/bin/INIs/test_case.ini ./
vim test_case.ini
  • 以下為輸入輸出文件位置參數(shù)扩所,本例需修改:
    OUTPUT_DIR:第35行围详,建議修改為out/NNJ_90_2_3_120_10,用文件夾名來記錄重要參數(shù)值
    DRAFT_ASSEMBLY_FASTA:第45行祖屏,修改為參考基因組的路徑助赞,建議設(shè)為絕對路徑/local_data1/draft_genome.fasta
    SAM_DIR:第49行,修改為比對文件所在的路徑袁勺,即bam_file
    SAM_FILES:第54行雹食,修改為過濾得到的bam文件的名字,本例中擬南芥有兩組數(shù)據(jù):samplex.II.REduced.paired_only.bam sampley.II.REduced.paired_only.bam
    RE_SITE_SEQ:第58行魁兼,因為本例中是使用的是HindIII酶婉徘,其對應(yīng)的序列為AAGCTT,因此酶切序列設(shè)為AAGCTT

    修改test_case.ini

  • 配置文件test_case.ini的重要參數(shù)咐汞。在實際項目中會有不同
    USE_REFERENCE:0代表不使用標(biāo)準(zhǔn)基因組進行評估盖呼;1表示用標(biāo)準(zhǔn)基因組進行評估(本例中不用修改)
    REF_ASSEMBLY_FASTA:后面是標(biāo)準(zhǔn)參考基因組,如:REF_ASSEMBLY_FASTA = /local_data1/ninanjie.fa
    BLAST_FILE_HEAD:后面加標(biāo)準(zhǔn)基因組和參考基因組的blastn比對結(jié)果化撕,這里的格式固定几晤,只需輸入前綴BLAST_FILE_HEAD = /local_data1/ler1_vs_tari10

    CLUSTER_N:第129行,后面接物種所對應(yīng)的染色體數(shù)目植阴,本例樣本為擬南芥蟹瘾,因此設(shè)為5
    CLUSTER_MIN_RE_SITES:第137行,聚類分析中contig/scaffold序列中的最小酶切位點數(shù)掠手,建議設(shè)為90
    CLUSTER_MAX_LINK_DENSITY:第140行憾朴,聚類分析中contig/scaffold序列中的最大Link深度,建議設(shè)為2
    CLUSTER_NONINFORMATIVE_RATIO:第144行喷鸽,聚類回插中contig/scaffold序列與目標(biāo)cluster互作數(shù)同其他cluster互作數(shù)比例众雷,建議設(shè)為3
    ORDER_MIN_N_RES_IN_TRUNK:第153行,排序分析中TRUNK內(nèi)contig/scaffold序列中的最小酶切位點數(shù)做祝,建議設(shè)為120
    ORDER_MIN_N_RES_IN_SHREDS:第155行砾省,排序分析中回插contig/scaffold序列的最小酶切位點數(shù),建議設(shè)為10

  • 最后新建的兩個目錄作為組裝基因組和標(biāo)準(zhǔn)基因組比對圖片的存放地址

mkdir ~/bin #會在這個目錄下生成畫圖腳本
mkdir ~/public_html #在這個目錄下生成圖片
ulimit -s unlimited #表示不限制線程混槐,如果沒有設(shè)置則會報錯
  • 運行Lachesis
/gnu_modulefile/lachesis test_case.ini
  • 結(jié)果文件
    txt文件是Lachesis組裝的基因和已發(fā)表的標(biāo)準(zhǔn)基因組的比較結(jié)果信息编兄,Lachesis的組裝信息在out文件夾
    進入我們設(shè)置的out/NNJ_90_2_3_120_10
    main_results/中的clusters.txt和clusters.by_name.txt展示了lachesis聚類的結(jié)果,一行代表一個group(相當(dāng)于一條染色體)
    group*.ordering則展示的是每一個group中排序和方向的結(jié)果

    cached_data/中則是各個group互作矩陣文件声登,以及在lachesis排序過程中的trunk信息狠鸳。這個文件夾存放的是程序運行的中間臨時文件揣苏,僅知道即可
    REPORT.txt則是對Lachesis的組裝結(jié)果做了一個總體的展示.REPORT.txt第一部分記錄Lachesis組裝全部參數(shù);REPORT.txt第二部分記錄Cluster碰煌,Order以及最后Trunk的信息:
    CLUSTERING METRICS部分:如果給了近緣物種信息舒岸,會將Cluster與近緣物種進行對比,統(tǒng)計沒有比對上的Contig數(shù)以及在染色體上位置不同的Contig數(shù)芦圾;如果項目沒有提供近緣物種信息蛾派,則僅統(tǒng)計Cluster信息
    ORDERING METRICS部分:記錄了orderings中contigs數(shù)目以及堿基數(shù),trunks中的contigs數(shù)目以及堿基數(shù)个少。其中orderings中contigs長度與所有序列長度的比值即掛載率洪乍,如下圖中紅色框內(nèi)的
  • 通過讀取main_results文件夾中的聚類、排序與定向信息夜焦,可以使用lachesis中CreateScaffoldedFasta.pl腳本生成最終的組裝結(jié)果fasta文件
perl /src/bin/CreateScaffoldedFasta.pl /local_data1/draft_genome.fasta /local_data1/04.lachesis/out/NNJ_90_2_3_120_10
#輸入兩個參數(shù)壳澳,第一個是參考基因組路徑,第二個是上一步lachesis組裝時的輸出文件夾路徑
  • 生成的最終組裝文件:
    /local_data1//04.lachesis/out/NNJ_90_2_3_120_10/Lachesis_assembly.fasta
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末茫经,一起剝皮案震驚了整個濱河市巷波,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌卸伞,老刑警劉巖抹镊,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異荤傲,居然都是意外死亡垮耳,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進店門遂黍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來终佛,“玉大人,你說我怎么就攤上這事雾家×逭茫” “怎么了?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵芯咧,是天一觀的道長豌研。 經(jīng)常有香客問我,道長唬党,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任鬼佣,我火速辦了婚禮驶拱,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘晶衷。我一直安慰自己蓝纲,他們只是感情好阴孟,可當(dāng)我...
    茶點故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著税迷,像睡著了一般永丝。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上箭养,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天慕嚷,我揣著相機與錄音,去河邊找鬼毕泌。 笑死喝检,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的撼泛。 我是一名探鬼主播挠说,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼愿题!你這毒婦竟也來了损俭?” 一聲冷哼從身側(cè)響起潘酗,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎崎脉,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體囚灼,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡骆膝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年灶体,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蝎抽。...
    茶點故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡政钟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出樟结,到底是詐尸還是另有隱情,我是刑警寧澤碎连,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布驮履,位于F島的核電站,受9級特大地震影響倒戏,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜杜跷,卻給世界環(huán)境...
    茶點故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一葱椭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧秦陋,春花似錦治笨、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至俯萌,卻和暖如春果录,著一層夾襖步出監(jiān)牢的瞬間咐熙,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工返弹, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留爪飘,地道東北人师崎。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像穷蛹,于是被迫代替她去往敵國和親昼汗。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容