生信 | 三維基因組技術(shù)(三):Hi-C 數(shù)據(jù)比對(duì)及HiC-Pro的使用

寫在前面

以下內(nèi)容均來自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記

1.Hi-C原理簡介

  • 1.1 Hi-C技術(shù)
    高通量染色體構(gòu)象捕獲技術(shù)(High-throughput chromosome conformation capture)研究全基因組三維構(gòu)象及分析染色質(zhì)片段相互作用的實(shí)驗(yàn)技術(shù)
  • 1.2 Hi-C目的
    了解核內(nèi)染色質(zhì)的三維構(gòu)象、獲得細(xì)胞核內(nèi)空間位置非常接近或存在相互作用的染色質(zhì)測序片段更好地研究染色質(zhì)內(nèi)或染色質(zhì)間的互作舒憾、基因調(diào)控元件在全基因組范圍內(nèi)調(diào)控的情況
  • 1.3 Hi-C應(yīng)用方向
    輔助基因組組裝、揭示空間調(diào)控病毡、揭示物種進(jìn)化、疾病研究屁柏、三維結(jié)構(gòu)差異分析啦膜、還原染色體三維結(jié)構(gòu)、構(gòu)建染色體跨度單體型
  • 1.4 互作本質(zhì)
    \color{red}{統(tǒng)計(jì)學(xué)上基因組兩點(diǎn)之間發(fā)生空間接觸的概率}
  • 1.5 Hi-C實(shí)驗(yàn)原理
    Hi-C實(shí)驗(yàn)原理
  • 1.6 二代文庫構(gòu)建及測序
    二代文庫進(jìn)行片段篩選400-600bp的片段淌喻,實(shí)際插入片段長度為300-500bp
    一般測序讀長:PE150
    二代測序
  • 1.7 Hi-C實(shí)際文庫類型
    將HIC數(shù)據(jù)進(jìn)行比對(duì)是會(huì)出現(xiàn)不同的比對(duì)情況僧家,我們需要的是\color{red}{雙端唯一匹配}。對(duì)單端匹配裸删、多處比對(duì)八拱、未比對(duì)的reads進(jìn)行過濾。
    對(duì)Hi-C文庫構(gòu)建中產(chǎn)生的多種分子類型,包括 re-ligation肌稻、Dangling ends清蚀、self circle 、dump reads 及valid pairs reads等類型爹谭。 在 Hi-C 分析中枷邪,僅valid pair可以反映基因組上位點(diǎn)與位點(diǎn)間的互作信息。因此诺凡,非重復(fù)的valid pair所占的比例是評(píng)估Hi-C文庫質(zhì)量的 重要指標(biāo)
  • 互作矩陣的生成
    由于計(jì)算資源东揣,數(shù)據(jù)量等因素,我們往往認(rèn)為確定一個(gè)互作單位:bin腹泌。將基因組按照一定大小分成bin嘶卧。將過濾后的有效序列分配到這些bin中
  • 互作矩陣的矯正
    Hi-C數(shù)據(jù)中由于內(nèi)切酶的偏好性、基因組本身質(zhì)量真屯、基因組序列特異性會(huì)導(dǎo)致其在基因組不同位置間存在偏差脸候。因此,我們會(huì)對(duì)互作矩陣進(jìn)行校正绑蔫,使其數(shù)據(jù)在基因組上每個(gè)位點(diǎn)的覆蓋度一致。
    常用的矯正方式有\color{red}{迭代矯正泵额、歸一化}

2.比對(duì)軟件介紹

  • 常用短序列比對(duì)軟件
Bowtie2 BWA
算法原理 FM-Index(基于BWT) BWT construction algorithm
常用比對(duì)模式 End-to-End Mem(pair-end)
輸出 SAM配深、TSV SAM
特點(diǎn) 支持單端、雙端reads比對(duì)嫁盲;支持插入篓叶、缺失錯(cuò)誤比對(duì) 支持單端、雙端reads比對(duì)羞秤;支持插入缸托、缺失、嵌合reads比對(duì)
區(qū)別 MAPQ值打分算法不同于BWA 處理嵌合reads時(shí)會(huì)分段輸出比對(duì)結(jié)果;基因組mapping率略高于Bowtie2
  • SAM格式詳解
    SAM分為兩部分瘾蛋,注釋信息(header section)和比對(duì)結(jié)果部分(alignment section)
    注釋信息:可有可無俐镐,以@開頭,用不同的tag代表不同的信息
    比對(duì)結(jié)果:
字段名 中文解釋 舉例
1 QNAME 比對(duì)片段的編號(hào)哺哼,read name V300059328L4C001R0010000044
2 FLAG 位標(biāo)符佩抹,reads mapping情況的數(shù)字表示 16
3 RNAME 比對(duì)上參考序列的編號(hào) chr10
4 POS 比對(duì)上參考序列的位置,1-based 321541
5 MAPQ 比對(duì)的質(zhì)量分?jǐn)?shù)MAPQ=-10 * log10(mapping出錯(cuò)的概率) 60
6 CIGAR 簡要比對(duì)表達(dá)式 150M
7 MRNM mate比對(duì)上的參考序列 chr10
8 MPOS mate比對(duì)參考序列的位置 322000
9 ISIZE reads比對(duì)長度 470
10 SEQ reads的序列
11 QUAL ASCII 碼格式的序列質(zhì)量
12 可選區(qū)域 AS:i 匹配的得分取董;XS:i 第二好的匹配的得分棍苹;YS:i mate 序列匹配的得分

3.HiC常規(guī)軟件比較

軟件名 hiclib HiC-Pro HICUP Juice
比對(duì)軟件 Bowtie2 Bowtie2 Bowtie2 BWA-mem
比對(duì)策略 迭代比對(duì) 全局、局部比對(duì) 先截短后比對(duì) Pair-end茵汰,嵌合reads過濾
嵌合reads處理
構(gòu)建矩陣 ×
標(biāo)準(zhǔn)化 ICE ICE × KR
結(jié)果文件 hdf5枢里、hm、bychr(HDF5) SAM、validpair SAM SAM栏豺、MND梭灿、.hic
特點(diǎn) 比對(duì)結(jié)果可靠,存儲(chǔ)消耗小 簡單易用冰悠,輸出結(jié)果可讀 過濾非常嚴(yán)格 后續(xù)分析接口多堡妒,juicebox可視化

4.HiC-Pro代碼實(shí)操

4.1 軟件安裝
  • HiC-Pro軟件安裝(需要的包有點(diǎn)多,些許繁瑣)
git clone https://github.com/nservant/HiC-Pro.git
cd ./HiC-Pro
vi config-install.txt
#########################################################################
## Paths and Settings  - Start editing here !
#########################################################################
PREFIX = 文件安裝位置
BOWTIE2_PATH = bowtie2安裝目錄
SAMTOOLS_PATH = samtools安裝目錄
R_PATH = R的安裝目錄
PYTHON_PATH = python安裝目錄
CLUSTER_SYS = 用于集群提交的調(diào)度器,必須為TORQUE,SGE,SLURM,LSF四個(gè)中的一種
  • 修改保存后
make CONFIG_SYS=config-install.txt install
4.2 bowtie2索引構(gòu)建
 bowtie2-build [options] <reference> <bt2_index_base>

reference : 下載的參考基因組溉卓,genome.fa
bt2_index_base: 構(gòu)建索引前綴

4.3 使用digest_genome.py生成酶切片段文件
python HiC-Pro/bin/utils/digest_genome.py -r [常用限制性內(nèi)切酶序列] [-o OUT] fastafile

-r:常用限制性內(nèi)切酶:

限制性內(nèi)切酶 酶切位點(diǎn)皮迟,^為切割位點(diǎn)
MboI ^GATC
DpnII ^GATC
BglII A^GATCT
HindIII A^AGCTT
生成的bed文件
4.3 生成基因組sizes文件,獲得基因組每條染色體bases數(shù)bed文件
samtools faidx genome.fa
awk ‘{print $1 "\t" $2}‘ genome.fa.fai > genome_sizes.bed
genome_sizes.bed
4.4 Hi-C數(shù)據(jù)準(zhǔn)備
  • 創(chuàng)建sample文件夾,一個(gè)文件夾放入一個(gè)樣品的fastq文件(生物學(xué)重復(fù)可以放入)
4.5 配置Config文件
vi ./config-install.txt
  • 需要修改的參數(shù)有:
    N_CPU:給定的CPU內(nèi)存數(shù)桑寨,給的越多伏尼,運(yùn)行的越快(根據(jù)服務(wù)器配置);
    LOGFILE:日志文件的名稱尉尾;
    JOB_MEM:內(nèi)存的大小
    PAIR1_EXT= _R1 :R1測序數(shù)據(jù)名稱中有_R1
    PAIR2_EXT = _R2:R2測序數(shù)據(jù)名稱中有_R2
    MIN_MAPQ: 最低的質(zhì)量分?jǐn)?shù)爆阶,用于篩選,表示低于該MAPQ值會(huì)被過濾
    BOWTIE2_IDX_PATH: 基因組bowtie2索引路徑沙咏,eg:/path/hg19
    BOWTIE2_GLOBAL_OPTIONS: 默認(rèn)GLOBAL比對(duì)設(shè)置
    BOWTIE2_LOCAL_OPTIONS: 默認(rèn)LOCAL比對(duì)設(shè)置
    REFERENCE_GENOME: Bowtie2索引前綴
    GENOME_SIZE: 基因組sizes bed文件
    GENOME_FRAGMENT: 基因組酶切文件,eg. /path/hg19_HindIII.bed
    LIGATION_SITE: 酶切位點(diǎn)末端補(bǔ)平再次連接后形成的嵌合序列辨图,eg. AAGCTAGCTT
    MIN_FRAG_SIZE: 最小的理論酶切片段大小,eg. 100
    MAX_FRAG_SIZE: 最大的理論酶切片段大小,eg. 100000
    MIN_INSERT_SIZE: 最小的文庫片段大小,eg.100
    MAX_INSERT_SIZE: 最大的文庫片段大小,eg.1000
    BIN_SIZE:需要生成的矩陣分辨率(bp)
    MATRIX_FORMAT:矩陣的形式,upper表示保留上半部分
4.6 HiC-Pro運(yùn)行
HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [options]

-c: config文件路徑
-o: 結(jié)果生成路徑
-i: 原始數(shù)據(jù)路徑
-p: 集群運(yùn)行

5.結(jié)果解讀

  • 總目錄

bowtie_results:比對(duì)結(jié)果目錄
hic_results:hic矩陣及分析結(jié)果目錄
logs:存放分析日志
rawdata:鏈接了原始數(shù)據(jù)
tmp:存放中間文件

  • Bowtie_result目錄

bwt2:存放合并后的bam文件和統(tǒng)計(jì)結(jié)果
bwt2_global:存放全局比對(duì)結(jié)果
bwt2_local:存放局部比對(duì)結(jié)果

  • hic_result目錄

data:存放validpair及其他無效數(shù)據(jù)文件
matrix:存放不同分辨率矩陣文件
pic:存放統(tǒng)計(jì)分析圖片
stats:存放統(tǒng)計(jì)表

  • Data文件

allVaildPairs:合并后的pairs數(shù)據(jù)
DEPairs:Dangling end pairs數(shù)據(jù)
DumpPairs:實(shí)際片段長度和理論片段長度
不同的數(shù)據(jù)
REPairs:酶切片段重新連接的pairs
FiltePairs:MAPQ過低的pairs
SCPairs:片段自連的pairs

  • Matrix文件

    raw:原始矩陣
    iced:ice標(biāo)準(zhǔn)化后的矩陣
  • Pic文件肢藐,出圖

    HiC文庫片段分布文件

    雙端比對(duì)過濾質(zhì)控圖

    有效數(shù)據(jù)過濾質(zhì)控圖

    配對(duì)數(shù)據(jù)不同類型數(shù)據(jù)比例展示圖
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末故河,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子吆豹,更是在濱河造成了極大的恐慌鱼的,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件痘煤,死亡現(xiàn)場離奇詭異凑阶,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)衷快,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門宙橱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人烦磁,你說我怎么就攤上這事养匈。” “怎么了都伪?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵呕乎,是天一觀的道長。 經(jīng)常有香客問我陨晶,道長猬仁,這世上最難降的妖魔是什么帝璧? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮湿刽,結(jié)果婚禮上的烁,老公的妹妹穿的比我還像新娘。我一直安慰自己诈闺,他們只是感情好渴庆,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著雅镊,像睡著了一般襟雷。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上仁烹,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天耸弄,我揣著相機(jī)與錄音,去河邊找鬼卓缰。 笑死计呈,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的征唬。 我是一名探鬼主播捌显,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼鳍鸵!你這毒婦竟也來了苇瓣?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤偿乖,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后哲嘲,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贪薪,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年眠副,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了画切。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡囱怕,死狀恐怖霍弹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情娃弓,我是刑警寧澤典格,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站台丛,受9級(jí)特大地震影響耍缴,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一防嗡、第九天 我趴在偏房一處隱蔽的房頂上張望变汪。 院中可真熱鬧,春花似錦蚁趁、人聲如沸裙盾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽番官。三九已至,卻和暖如春涮瞻,著一層夾襖步出監(jiān)牢的瞬間鲤拿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工署咽, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留近顷,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓宁否,卻偏偏與公主長得像窒升,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子慕匠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容