寫在前面
以下內(nèi)容均來自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記
1.Hi-C原理簡介
-
1.1 Hi-C技術(shù)
高通量染色體構(gòu)象捕獲技術(shù)(High-throughput chromosome conformation capture
)研究全基因組三維構(gòu)象及分析染色質(zhì)片段相互作用的實(shí)驗(yàn)技術(shù) -
1.2 Hi-C目的
了解核內(nèi)染色質(zhì)的三維構(gòu)象、獲得細(xì)胞核內(nèi)空間位置非常接近或存在相互作用的染色質(zhì)測序片段更好地研究染色質(zhì)內(nèi)或染色質(zhì)間的互作舒憾、基因調(diào)控元件在全基因組范圍內(nèi)調(diào)控的情況 -
1.3 Hi-C應(yīng)用方向
輔助基因組組裝、揭示空間調(diào)控病毡、揭示物種進(jìn)化、疾病研究屁柏、三維結(jié)構(gòu)差異分析啦膜、還原染色體三維結(jié)構(gòu)、構(gòu)建染色體跨度單體型 -
1.4 互作本質(zhì)
-
1.5 Hi-C實(shí)驗(yàn)原理
-
1.6 二代文庫構(gòu)建及測序
二代文庫進(jìn)行片段篩選400-600bp的片段淌喻,實(shí)際插入片段長度為300-500bp
一般測序讀長:PE150
-
1.7 Hi-C實(shí)際文庫類型
將HIC數(shù)據(jù)進(jìn)行比對(duì)是會(huì)出現(xiàn)不同的比對(duì)情況僧家,我們需要的是。對(duì)單端匹配裸删、多處比對(duì)八拱、未比對(duì)的reads進(jìn)行過濾。
非重復(fù)的valid pair
所占的比例是評(píng)估Hi-C文庫質(zhì)量的 重要指標(biāo)
-
互作矩陣的生成
由于計(jì)算資源东揣,數(shù)據(jù)量等因素,我們往往認(rèn)為確定一個(gè)互作單位:bin
腹泌。將基因組按照一定大小分成bin嘶卧。將過濾后的有效序列分配到這些bin中
-
互作矩陣的矯正
Hi-C數(shù)據(jù)中由于內(nèi)切酶的偏好性、基因組本身質(zhì)量真屯、基因組序列特異性會(huì)導(dǎo)致其在基因組不同位置間存在偏差脸候。因此,我們會(huì)對(duì)互作矩陣進(jìn)行校正绑蔫,使其數(shù)據(jù)在基因組上每個(gè)位點(diǎn)的覆蓋度一致。
常用的矯正方式有等
2.比對(duì)軟件介紹
- 常用短序列比對(duì)軟件
Bowtie2 | BWA | |
---|---|---|
算法原理 | FM-Index(基于BWT) | BWT construction algorithm |
常用比對(duì)模式 | End-to-End | Mem(pair-end) |
輸出 | SAM配深、TSV | SAM |
特點(diǎn) | 支持單端、雙端reads比對(duì)嫁盲;支持插入篓叶、缺失錯(cuò)誤比對(duì) | 支持單端、雙端reads比對(duì)羞秤;支持插入缸托、缺失、嵌合reads比對(duì) |
區(qū)別 | MAPQ值打分算法不同于BWA | 處理嵌合reads時(shí)會(huì)分段輸出比對(duì)結(jié)果;基因組mapping率略高于Bowtie2 |
-
SAM格式詳解
SAM分為兩部分瘾蛋,注釋信息(header section)和比對(duì)結(jié)果部分(alignment section)
注釋信息:可有可無俐镐,以@
開頭,用不同的tag代表不同的信息
比對(duì)結(jié)果:
列 | 字段名 | 中文解釋 | 舉例 |
---|---|---|---|
1 | QNAME | 比對(duì)片段的編號(hào)哺哼,read name | V300059328L4C001R0010000044 |
2 | FLAG | 位標(biāo)符佩抹,reads mapping情況的數(shù)字表示 | 16 |
3 | RNAME | 比對(duì)上參考序列的編號(hào) | chr10 |
4 | POS | 比對(duì)上參考序列的位置,1-based | 321541 |
5 | MAPQ | 比對(duì)的質(zhì)量分?jǐn)?shù)MAPQ=-10 * log10(mapping出錯(cuò)的概率) | 60 |
6 | CIGAR | 簡要比對(duì)表達(dá)式 | 150M |
7 | MRNM | mate比對(duì)上的參考序列 | chr10 |
8 | MPOS | mate比對(duì)參考序列的位置 | 322000 |
9 | ISIZE | reads比對(duì)長度 | 470 |
10 | SEQ | reads的序列 | |
11 | QUAL | ASCII 碼格式的序列質(zhì)量 | |
12 | 可選區(qū)域 | AS:i 匹配的得分取董;XS:i 第二好的匹配的得分棍苹;YS:i mate 序列匹配的得分 |
3.HiC常規(guī)軟件比較
軟件名 | hiclib | HiC-Pro | HICUP | Juice |
---|---|---|---|---|
比對(duì)軟件 | Bowtie2 | Bowtie2 | Bowtie2 | BWA-mem |
比對(duì)策略 | 迭代比對(duì) | 全局、局部比對(duì) | 先截短后比對(duì) | Pair-end茵汰,嵌合reads過濾 |
嵌合reads處理 | √ | √ | √ | √ |
構(gòu)建矩陣 | √ | √ | × | √ |
標(biāo)準(zhǔn)化 | ICE | ICE | × | KR |
結(jié)果文件 | hdf5枢里、hm、bychr(HDF5) | SAM、validpair | SAM | SAM栏豺、MND梭灿、.hic |
特點(diǎn) | 比對(duì)結(jié)果可靠,存儲(chǔ)消耗小 | 簡單易用冰悠,輸出結(jié)果可讀 | 過濾非常嚴(yán)格 | 后續(xù)分析接口多堡妒,juicebox可視化 |
4.HiC-Pro代碼實(shí)操
4.1 軟件安裝
git clone https://github.com/nservant/HiC-Pro.git
cd ./HiC-Pro
vi config-install.txt
- 修改HiC-Pro目錄下的config-install.txt
#########################################################################
## Paths and Settings - Start editing here !
#########################################################################
PREFIX = 文件安裝位置
BOWTIE2_PATH = bowtie2安裝目錄
SAMTOOLS_PATH = samtools安裝目錄
R_PATH = R的安裝目錄
PYTHON_PATH = python安裝目錄
CLUSTER_SYS = 用于集群提交的調(diào)度器,必須為TORQUE,SGE,SLURM,LSF四個(gè)中的一種
- 修改保存后
make CONFIG_SYS=config-install.txt install
4.2 bowtie2索引構(gòu)建
bowtie2-build [options] <reference> <bt2_index_base>
reference
: 下載的參考基因組溉卓,genome.fa
bt2_index_base
: 構(gòu)建索引前綴
4.3 使用digest_genome.py生成酶切片段文件
python HiC-Pro/bin/utils/digest_genome.py -r [常用限制性內(nèi)切酶序列] [-o OUT] fastafile
-r
:常用限制性內(nèi)切酶:
限制性內(nèi)切酶 | 酶切位點(diǎn)皮迟,^ 為切割位點(diǎn) |
---|---|
MboI | ^GATC |
DpnII | ^GATC |
BglII | A^GATCT |
HindIII | A^AGCTT |
4.3 生成基因組sizes文件,獲得基因組每條染色體bases數(shù)bed文件
samtools faidx genome.fa
awk ‘{print $1 "\t" $2}‘ genome.fa.fai > genome_sizes.bed
4.4 Hi-C數(shù)據(jù)準(zhǔn)備
- 創(chuàng)建sample文件夾,一個(gè)文件夾放入一個(gè)樣品的fastq文件(生物學(xué)重復(fù)可以放入)
4.5 配置Config文件
vi ./config-install.txt
- 需要修改的參數(shù)有:
N_CPU
:給定的CPU內(nèi)存數(shù)桑寨,給的越多伏尼,運(yùn)行的越快(根據(jù)服務(wù)器配置);
LOGFILE
:日志文件的名稱尉尾;
JOB_MEM
:內(nèi)存的大小
PAIR1_EXT= _R1
:R1測序數(shù)據(jù)名稱中有_R1
PAIR2_EXT = _R2
:R2測序數(shù)據(jù)名稱中有_R2
MIN_MAPQ
: 最低的質(zhì)量分?jǐn)?shù)爆阶,用于篩選,表示低于該MAPQ值會(huì)被過濾
BOWTIE2_IDX_PATH
: 基因組bowtie2索引路徑沙咏,eg:/path/hg19
BOWTIE2_GLOBAL_OPTIONS
: 默認(rèn)GLOBAL比對(duì)設(shè)置
BOWTIE2_LOCAL_OPTIONS
: 默認(rèn)LOCAL比對(duì)設(shè)置
REFERENCE_GENOME
: Bowtie2索引前綴
GENOME_SIZE
: 基因組sizes bed文件
GENOME_FRAGMENT
: 基因組酶切文件,eg. /path/hg19_HindIII.bed
LIGATION_SITE
: 酶切位點(diǎn)末端補(bǔ)平再次連接后形成的嵌合序列辨图,eg. AAGCTAGCTT
MIN_FRAG_SIZE
: 最小的理論酶切片段大小,eg. 100
MAX_FRAG_SIZE
: 最大的理論酶切片段大小,eg. 100000
MIN_INSERT_SIZE
: 最小的文庫片段大小,eg.100
MAX_INSERT_SIZE
: 最大的文庫片段大小,eg.1000
BIN_SIZE
:需要生成的矩陣分辨率(bp)
MATRIX_FORMAT
:矩陣的形式,upper表示保留上半部分
4.6 HiC-Pro運(yùn)行
HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [options]
-c
: config文件路徑
-o
: 結(jié)果生成路徑
-i
: 原始數(shù)據(jù)路徑
-p
: 集群運(yùn)行
5.結(jié)果解讀
-
總目錄
bowtie_results
:比對(duì)結(jié)果目錄
hic_results
:hic矩陣及分析結(jié)果目錄
logs
:存放分析日志
rawdata
:鏈接了原始數(shù)據(jù)
tmp
:存放中間文件
-
Bowtie_result目錄
bwt2
:存放合并后的bam文件和統(tǒng)計(jì)結(jié)果
bwt2_global
:存放全局比對(duì)結(jié)果
bwt2_local
:存放局部比對(duì)結(jié)果
-
hic_result目錄
data
:存放validpair及其他無效數(shù)據(jù)文件
matrix
:存放不同分辨率矩陣文件
pic
:存放統(tǒng)計(jì)分析圖片
stats
:存放統(tǒng)計(jì)表
- Data文件
allVaildPairs
:合并后的pairs數(shù)據(jù)DEPairs
:Dangling end pairs數(shù)據(jù)DumpPairs
:實(shí)際片段長度和理論片段長度不同的數(shù)據(jù)
REPairs
:酶切片段重新連接的pairsFiltePairs
:MAPQ過低的pairsSCPairs
:片段自連的pairs
- Matrix文件
raw
:原始矩陣
iced
:ice標(biāo)準(zhǔn)化后的矩陣 -
Pic文件肢藐,出圖