生信 | 三維基因組技術(shù)（三）：Hi-C 數(shù)據(jù)比對(duì)及HiC-Pro的使用

寫在前面

以下內(nèi)容均來自我在菲沙基因（Frasergen）暑期生信培訓(xùn)班上記錄的課堂筆記

1.Hi-C原理簡介

1.1 Hi-C技術(shù)
高通量染色體構(gòu)象捕獲技術(shù)(High-throughput chromosome conformation capture)研究全基因組三維構(gòu)象及分析染色質(zhì)片段相互作用的實(shí)驗(yàn)技術(shù)
1.2 Hi-C目的
了解核內(nèi)染色質(zhì)的三維構(gòu)象、獲得細(xì)胞核內(nèi)空間位置非常接近或存在相互作用的染色質(zhì)測序片段更好地研究染色質(zhì)內(nèi)或染色質(zhì)間的互作舒憾、基因調(diào)控元件在全基因組范圍內(nèi)調(diào)控的情況
1.3 Hi-C應(yīng)用方向
輔助基因組組裝、揭示空間調(diào)控病毡、揭示物種進(jìn)化、疾病研究屁柏、三維結(jié)構(gòu)差異分析啦膜、還原染色體三維結(jié)構(gòu)、構(gòu)建染色體跨度單體型
1.4 互作本質(zhì)
$\color{red}{統(tǒng)計(jì)學(xué)上基因組兩點(diǎn)之間發(fā)生空間接觸的概率}$
1.5 Hi-C實(shí)驗(yàn)原理

Hi-C實(shí)驗(yàn)原理
1.6 二代文庫構(gòu)建及測序
二代文庫進(jìn)行片段篩選400-600bp的片段淌喻，實(shí)際插入片段長度為300-500bp
一般測序讀長：PE150

二代測序
1.7 Hi-C實(shí)際文庫類型
將HIC數(shù)據(jù)進(jìn)行比對(duì)是會(huì)出現(xiàn)不同的比對(duì)情況僧家，我們需要的是 $\color{red}{雙端唯一匹配}$ 。對(duì)單端匹配裸删、多處比對(duì)八拱、未比對(duì)的reads進(jìn)行過濾。

對(duì)Hi-C文庫構(gòu)建中產(chǎn)生的多種分子類型，包括 re-ligation肌稻、Dangling ends清蚀、self circle 、dump reads 及valid pairs reads等類型爹谭。在 Hi-C 分析中枷邪，僅valid pair可以反映基因組上位點(diǎn)與位點(diǎn)間的互作信息。因此诺凡，非重復(fù)的valid pair所占的比例是評(píng)估Hi-C文庫質(zhì)量的重要指標(biāo)
互作矩陣的生成
由于計(jì)算資源东揣，數(shù)據(jù)量等因素，我們往往認(rèn)為確定一個(gè)互作單位：bin腹泌。將基因組按照一定大小分成bin嘶卧。將過濾后的有效序列分配到這些bin中
互作矩陣的矯正
Hi-C數(shù)據(jù)中由于內(nèi)切酶的偏好性、基因組本身質(zhì)量真屯、基因組序列特異性會(huì)導(dǎo)致其在基因組不同位置間存在偏差脸候。因此，我們會(huì)對(duì)互作矩陣進(jìn)行校正绑蔫，使其數(shù)據(jù)在基因組上每個(gè)位點(diǎn)的覆蓋度一致。
常用的矯正方式有 $\color{red}{迭代矯正泵额、歸一化}$ 等

2.比對(duì)軟件介紹

常用短序列比對(duì)軟件

	Bowtie2	BWA
算法原理	FM-Index(基于BWT)	BWT construction algorithm
常用比對(duì)模式	End-to-End	Mem(pair-end)
輸出	SAM配深、TSV	SAM
特點(diǎn)	支持單端、雙端reads比對(duì)嫁盲；支持插入篓叶、缺失錯(cuò)誤比對(duì)	支持單端、雙端reads比對(duì)羞秤；支持插入缸托、缺失、嵌合reads比對(duì)
區(qū)別	MAPQ值打分算法不同于BWA	處理嵌合reads時(shí)會(huì)分段輸出比對(duì)結(jié)果;基因組mapping率略高于Bowtie2

SAM格式詳解
SAM分為兩部分瘾蛋，注釋信息（header section）和比對(duì)結(jié)果部分（alignment section）
注釋信息：可有可無俐镐，以@開頭，用不同的tag代表不同的信息
比對(duì)結(jié)果:

列	字段名	中文解釋	舉例
1	QNAME	比對(duì)片段的編號(hào)哺哼，read name	V300059328L4C001R0010000044
2	FLAG	位標(biāo)符佩抹，reads mapping情況的數(shù)字表示	16
3	RNAME	比對(duì)上參考序列的編號(hào)	chr10
4	POS	比對(duì)上參考序列的位置，1-based	321541
5	MAPQ	比對(duì)的質(zhì)量分?jǐn)?shù)MAPQ=-10 * log10(mapping出錯(cuò)的概率)	60
6	CIGAR	簡要比對(duì)表達(dá)式	150M
7	MRNM	mate比對(duì)上的參考序列	chr10
8	MPOS	mate比對(duì)參考序列的位置	322000
9	ISIZE	reads比對(duì)長度	470
10	SEQ	reads的序列
11	QUAL	ASCII 碼格式的序列質(zhì)量
12	可選區(qū)域	AS:i 匹配的得分取董；XS:i 第二好的匹配的得分棍苹；YS:i mate 序列匹配的得分

3.HiC常規(guī)軟件比較

軟件名	hiclib	HiC-Pro	HICUP	Juice
比對(duì)軟件	Bowtie2	Bowtie2	Bowtie2	BWA-mem
比對(duì)策略	迭代比對(duì)	全局、局部比對(duì)	先截短后比對(duì)	Pair-end茵汰，嵌合reads過濾
嵌合reads處理	√	√	√	√
構(gòu)建矩陣	√	√	×	√
標(biāo)準(zhǔn)化	ICE	ICE	×	KR
結(jié)果文件	hdf5枢里、hm、bychr(HDF5)	SAM、validpair	SAM	SAM栏豺、MND梭灿、.hic
特點(diǎn)	比對(duì)結(jié)果可靠，存儲(chǔ)消耗小	簡單易用冰悠，輸出結(jié)果可讀	過濾非常嚴(yán)格	后續(xù)分析接口多堡妒，juicebox可視化

4.HiC-Pro代碼實(shí)操

4.1 軟件安裝

HiC-Pro軟件安裝(需要的包有點(diǎn)多，些許繁瑣)

git clone https://github.com/nservant/HiC-Pro.git
cd ./HiC-Pro
vi config-install.txt

修改HiC-Pro目錄下的config-install.txt

#########################################################################
## Paths and Settings  - Start editing here !
#########################################################################
PREFIX = 文件安裝位置
BOWTIE2_PATH = bowtie2安裝目錄
SAMTOOLS_PATH = samtools安裝目錄
R_PATH = R的安裝目錄
PYTHON_PATH = python安裝目錄
CLUSTER_SYS = 用于集群提交的調(diào)度器,必須為TORQUE,SGE,SLURM,LSF四個(gè)中的一種

修改保存后

make CONFIG_SYS=config-install.txt install

4.2 bowtie2索引構(gòu)建

 bowtie2-build [options] <reference> <bt2_index_base>

reference : 下載的參考基因組溉卓，genome.fa
bt2_index_base: 構(gòu)建索引前綴

4.3 使用digest_genome.py生成酶切片段文件

python HiC-Pro/bin/utils/digest_genome.py -r [常用限制性內(nèi)切酶序列] [-o OUT] fastafile

-r：常用限制性內(nèi)切酶：

限制性內(nèi)切酶	酶切位點(diǎn)皮迟，`^`為切割位點(diǎn)
MboI	^GATC
DpnII	^GATC
BglII	A^GATCT
HindIII	A^AGCTT

生成的bed文件

4.3 生成基因組sizes文件,獲得基因組每條染色體bases數(shù)bed文件

samtools faidx genome.fa
awk ‘{print $1 "\t" $2}‘ genome.fa.fai > genome_sizes.bed

genome_sizes.bed

4.4 Hi-C數(shù)據(jù)準(zhǔn)備

創(chuàng)建sample文件夾，一個(gè)文件夾放入一個(gè)樣品的fastq文件（生物學(xué)重復(fù)可以放入）

4.5 配置Config文件

vi ./config-install.txt

需要修改的參數(shù)有：
N_CPU:給定的CPU內(nèi)存數(shù)桑寨，給的越多伏尼，運(yùn)行的越快（根據(jù)服務(wù)器配置）；
LOGFILE:日志文件的名稱尉尾；
JOB_MEM:內(nèi)存的大小
PAIR1_EXT= _R1 :R1測序數(shù)據(jù)名稱中有_R1
PAIR2_EXT = _R2:R2測序數(shù)據(jù)名稱中有_R2
MIN_MAPQ: 最低的質(zhì)量分?jǐn)?shù)爆阶，用于篩選，表示低于該MAPQ值會(huì)被過濾
BOWTIE2_IDX_PATH: 基因組bowtie2索引路徑沙咏，eg:/path/hg19
BOWTIE2_GLOBAL_OPTIONS: 默認(rèn)GLOBAL比對(duì)設(shè)置
BOWTIE2_LOCAL_OPTIONS: 默認(rèn)LOCAL比對(duì)設(shè)置
REFERENCE_GENOME： Bowtie2索引前綴
GENOME_SIZE：基因組sizes bed文件
GENOME_FRAGMENT: 基因組酶切文件,eg. /path/hg19_HindIII.bed
LIGATION_SITE: 酶切位點(diǎn)末端補(bǔ)平再次連接后形成的嵌合序列辨图，eg. AAGCTAGCTT
MIN_FRAG_SIZE: 最小的理論酶切片段大小,eg. 100
MAX_FRAG_SIZE: 最大的理論酶切片段大小,eg. 100000
MIN_INSERT_SIZE: 最小的文庫片段大小,eg.100
MAX_INSERT_SIZE: 最大的文庫片段大小,eg.1000
BIN_SIZE:需要生成的矩陣分辨率（bp)
MATRIX_FORMAT：矩陣的形式，upper表示保留上半部分

4.6 HiC-Pro運(yùn)行

HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [options]

-c: config文件路徑
-o：結(jié)果生成路徑
-i: 原始數(shù)據(jù)路徑
-p: 集群運(yùn)行

5.結(jié)果解讀

bowtie_results:比對(duì)結(jié)果目錄
hic_results:hic矩陣及分析結(jié)果目錄
logs:存放分析日志
rawdata：鏈接了原始數(shù)據(jù)
tmp：存放中間文件

bwt2:存放合并后的bam文件和統(tǒng)計(jì)結(jié)果
bwt2_global:存放全局比對(duì)結(jié)果
bwt2_local:存放局部比對(duì)結(jié)果

data:存放validpair及其他無效數(shù)據(jù)文件
matrix:存放不同分辨率矩陣文件
pic:存放統(tǒng)計(jì)分析圖片
stats:存放統(tǒng)計(jì)表

Data文件

allVaildPairs:合并后的pairs數(shù)據(jù)
DEPairs:Dangling end pairs數(shù)據(jù)
DumpPairs:實(shí)際片段長度和理論片段長度
不同的數(shù)據(jù)
REPairs：酶切片段重新連接的pairs
FiltePairs:MAPQ過低的pairs
SCPairs：片段自連的pairs

Matrix文件

raw:原始矩陣
iced：ice標(biāo)準(zhǔn)化后的矩陣
Pic文件肢藐，出圖

HiC文庫片段分布文件

雙端比對(duì)過濾質(zhì)控圖

有效數(shù)據(jù)過濾質(zhì)控圖

配對(duì)數(shù)據(jù)不同類型數(shù)據(jù)比例展示圖

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末故河，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子吆豹，更是在濱河造成了極大的恐慌鱼的，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件痘煤，死亡現(xiàn)場離奇詭異凑阶，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)衷快，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門宙橱，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人烦磁，你說我怎么就攤上這事养匈。” “怎么了都伪？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵呕乎，是天一觀的道長。經(jīng)常有香客問我陨晶，道長猬仁，這世上最難降的妖魔是什么帝璧？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮湿刽，結(jié)果婚禮上的烁，老公的妹妹穿的比我還像新娘。我一直安慰自己诈闺，他們只是感情好渴庆，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著雅镊，像睡著了一般襟雷。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上仁烹，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說
那天耸弄，我揣著相機(jī)與錄音，去河邊找鬼卓缰。笑死计呈，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的征唬。我是一名探鬼主播捌显，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼鳍鸵！你這毒婦竟也來了苇瓣？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤偿乖，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后哲嘲，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贪薪，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年眠副，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了画切。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡囱怕，死狀恐怖霍弹，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情娃弓，我是刑警寧澤典格，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站台丛，受9級(jí)特大地震影響耍缴，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一防嗡、第九天我趴在偏房一處隱蔽的房頂上張望变汪。院中可真熱鬧，春花似錦蚁趁、人聲如沸裙盾。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案他嫡，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽番官。三九已至，卻和暖如春涮瞻，著一層夾襖步出監(jiān)牢的瞬間鲤拿，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工署咽，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留近顷，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓宁否，卻偏偏與公主長得像窒升，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子慕匠，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345

生信 | 三維基因組技術(shù)（三）：Hi-C 數(shù)據(jù)比對(duì)及HiC-Pro的使用

生信 | 三維基因組技術(shù)（三）：Hi-C 數(shù)據(jù)比對(duì)及HiC-Pro的使用

寫在前面

1.Hi-C原理簡介

2.比對(duì)軟件介紹

3.HiC常規(guī)軟件比較

4.HiC-Pro代碼實(shí)操

4.1 軟件安裝

4.2 bowtie2索引構(gòu)建

4.3 使用digest_genome.py生成酶切片段文件

4.3 生成基因組sizes文件,獲得基因組每條染色體bases數(shù)bed文件

4.4 Hi-C數(shù)據(jù)準(zhǔn)備

4.5 配置Config文件

4.6 HiC-Pro運(yùn)行

5.結(jié)果解讀

總目錄

Bowtie_result目錄

hic_result目錄

推薦閱讀更多精彩內(nèi)容