ChIP-seq實(shí)踐(H3K27Ac,enhancer的篩選和enhancer相關(guān)基因的GO分析)

在實(shí)踐之前苟呐，我先查找了一下有關(guān)組蛋白修飾的知識點(diǎn)：
（參考文章：http://www.reibang.com/p/8aca72809c5c）

組蛋白修飾能預(yù)測染色質(zhì)的類型（異染色質(zhì)或常染色質(zhì)）怎静、區(qū)分基因組功能元件（啟動子焊虏、增強(qiáng)子、基因主體）以及檢測決定這些元件處于活性狀態(tài)或是抑制狀態(tài)。例如H3K4me2和H3K4me3修飾大多數(shù)富集在轉(zhuǎn)錄起始位點(diǎn)附近的啟動子上激活基因表達(dá)隧饼，而H3K27me2和H3K27me3與基因抑制相關(guān)进统。因此可通過CHIP-seq分析組蛋白修飾的分布尋找基因的啟動子區(qū)和增強(qiáng)子區(qū)域及其是激活或抑制基因表達(dá)助币。

H3K4me1可作為增強(qiáng)子的標(biāo)志，H3K4me3作為啟動子標(biāo)志螟碎。研究表明眉菱，H3K4me1和H3K4me3與基因激活相關(guān)，H3K4me3主要富集在轉(zhuǎn)錄起始位點(diǎn)附近的啟動子區(qū)域掉分，而大多數(shù)H3K4me1修飾富集在增強(qiáng)子區(qū)域俭缓；H3K27ac與基因激活相關(guān)克伊，主要富集在增強(qiáng)子和啟動子區(qū)域，當(dāng)增強(qiáng)子區(qū)只有H3K4me1修飾富集時华坦，該增強(qiáng)子處于平衡狀態(tài)愿吹，而當(dāng)增強(qiáng)子區(qū)域同時富集H3K4me1和H3K27ac修飾時，該增強(qiáng)子就處于激活狀態(tài)促進(jìn)基因表達(dá)惜姐；H3K27的甲基化是可逆的過程犁跪，H3K27me1顯示出對轉(zhuǎn)錄具有正向影響,啟動子區(qū)域的H3K27me3甲基化修飾時抑制基因的轉(zhuǎn)錄,而H3K27me2廣泛分布并且在沉默非細(xì)胞類型特異性增強(qiáng)子中起作用。

下表為常見的組蛋白修飾的主要分布及功能：

image

異染色質(zhì)是染色質(zhì)的濃縮歹袁，轉(zhuǎn)錄無活性狀態(tài)坷衍，H3K9甲基化是異染色質(zhì)的標(biāo)志。H3K27me1和H3K9me3存在于著絲粒異染色質(zhì)區(qū)域条舔，而H3K27me3和H3K9me2共同存在于抑制的常染色質(zhì)區(qū)域中枫耳。H3K9ac也與H3K14ac和H3K4me3高度共存共同作為活性基因啟動子的標(biāo)志。

本次實(shí)踐文章：
Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma
用不同濃度的OSCC抗癌物THZ1處理兩種OSCC細(xì)胞系：KYSE510和TE7逞刷。
尋找藥物處理后的超級增強(qiáng)子嘉涌。

1.下載SRA原始數(shù)據(jù)：

#!/bin/bash
for ((i=251;i<=254;i++))
do wget https://sra-download.ncbi.nlm.nih.gov/traces/sra28/SRR/003028/SRR3101$i
done

2.提取fastq文件：

#!/bin/bash
for i in SRR310125*
do
        echo $i
        fastq-dump --gzip --split-files $i
done

每運(yùn)行一個文件，都會在家目錄下的ncbi文件里生成一個臨時文件夸浅，非常占內(nèi)存仑最。由于我的存儲空間沒有了，所以我就直接下載了fastq文件帆喇。下載fastq文件的網(wǎng)址是：https://www.ebi.ac.uk/ena/data/view/SRX1530372警医。再復(fù)制下fastq.gz文件的地址。
網(wǎng)上有的文章提到：盡量不要用wget或curl去下載sra文件坯钦，某些情況下會導(dǎo)致下載的文件不完整预皇。所以這次我也嘗試了用ascp下載的方法。
這里說一下用ascp下載的方法婉刀。

安裝ASCP:

#下載
$ wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
$ tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安裝
$ bash aspera-connect-3.7.4.147727-linux-64.sh
#要去home目錄里查看是否有.aspera文件夾
$ cd /home
$ ls -a 
#如果看到.aspera文件夾，代表安裝成功
#永久添加環(huán)境變量
$ echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
$ source ~/.bashrc
#查看是否可以調(diào)用
$ ascp --help

ascp的用法：ascp [參數(shù)] 目標(biāo)文件目標(biāo)地址突颊，在線文檔
ascp命令的常用參數(shù):
-v verbose mode 嘮叨模式，能讓你實(shí)時知道程序在干啥爬橡，方便查錯。
-T 取消加密棒动，否則有時候數(shù)據(jù)下載不了。
-i 提供私鑰文件的地址柜裸。
-l 設(shè)置最大傳輸速度缕陕，一般200m到500m，如果不設(shè)置疙挺，反而速度會比較低，可能有個較低的默認(rèn)值。
-k 斷點(diǎn)續(xù)傳锦爵，一般設(shè)置為值1
-Q 一般加上它
-P 提供SSH port奥裸，一般是33001。

在EBI網(wǎng)站copy下載地址一般是ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR310/004/SRR3101254/SRR3101254.fastq.gz這樣的格式樟氢。需要把ftp://ftp.sra.ebi.ac.uk換成era-fasp@fasp.sra.ebi.ac.uk:侠鳄。NOTE: 這篇文章的ChIP-seq是單端測序。
我的代碼：

$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR310/001/SRR3101251/SRR3101251.fastq.gz .
$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR310/002/SRR3101252/SRR3101252.fastq.gz .
$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR310/003/SRR3101253/SRR3101253.fastq.gz .
$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR310/004/SRR3101254/SRR3101254.fastq.gz .

另外要注意的是：era-fasp@fasp.sra.ebi.ac.uk后面是:號碴开，不是路徑
最后gz結(jié)尾有一個空格潦牛，然后是"."挡育。如果沒有空格和點(diǎn)，則會報錯橡淆。無法下載蒿叠。

3.使用fastqc質(zhì)量檢查
4.bowtie2比對

下面這些代碼是按照上一次實(shí)踐的方法寫的明垢，直接生成bam文件市咽。因?yàn)檫@篇文獻(xiàn)的測序結(jié)果質(zhì)量很好，所以沒有去掉3'端的幾個堿基
#!/bin/bash
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101251.fastq.gz | samtools sort -O bam -o /media/yanfang/FYWD/CHIPSEQ/sambam/TE7_H3K27Ac.bam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101252.fastq.gz | samtools sort -O bam -o /media/yanfang/FYWD/CHIPSEQ/sambam/TE7_input.bam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101253.fastq.gz | samtools sort -O bam -o /media/yanfang/FYWD/CHIPSEQ/sambam/KYSE510_H3K27Ac.bam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101254.fastq.gz | samtools sort -O bam -o /media/yanfang/FYWD/CHIPSEQ/sambam/KYSE510_input.bam

下面這些代碼是bowtie2比對后生成sam文件的方法溯革。有些文章里在進(jìn)行比對的時候是用的bowtie進(jìn)行比對的，并且設(shè)置了只保留比對一次的reads致稀。我這里用的是bowtie2抖单，所以沒有設(shè)置這個參數(shù)。
#!/bin/bash
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101251.fastq.gz -S TE7_H3K27Ac.sam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101252.fastq.gz -S TE7_input.sam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101253.fastq.gz -S KYSE510_H3K27Ac.sam
bowtie2 -p 6 -x /media/yanfang/FYWD/CHIPSEQ/fqfile/bowtie2hg19/hg19 -U /media/yanfang/FYWD/CHIPSEQ/fqfile/SRR3101254.fastq.gz -S KYSE510_input.sam

#比對率如下：
64273075 reads; of these:
  64273075 (100.00%) were unpaired; of these:
    1285733 (2.00%) aligned 0 times
    46680241 (72.63%) aligned exactly 1 time
    16307101 (25.37%) aligned >1 times
98.00% overall alignment rate
[bam_sort_core] merging from 16 files and 1 in-memory blocks...
64402758 reads; of these:
  64402758 (100.00%) were unpaired; of these:
    1271927 (1.97%) aligned 0 times
    45320875 (70.37%) aligned exactly 1 time
    17809956 (27.65%) aligned >1 times
98.03% overall alignment rate
[bam_sort_core] merging from 16 files and 1 in-memory blocks...
64555367 reads; of these:
  64555367 (100.00%) were unpaired; of these:
    901311 (1.40%) aligned 0 times
    48336949 (74.88%) aligned exactly 1 time
    15317107 (23.73%) aligned >1 times
98.60% overall alignment rate
[bam_sort_core] merging from 16 files and 1 in-memory blocks...
68947224 reads; of these:
  68947224 (100.00%) were unpaired; of these:
    4955211 (7.19%) aligned 0 times
    45955461 (66.65%) aligned exactly 1 time
    18036552 (26.16%) aligned >1 times
92.81% overall alignment rate
[bam_sort_core] merging from 17 files and 1 in-memory blocks...

5.使用MACS獲得Chip-seq富集區(qū)
以下是官方網(wǎng)站對于常規(guī)峰和“寬”峰的一些解釋(https://www.encodeproject.org/chip-seq/histone/) 。有的文章說常規(guī)峰和寬峰分析過程會有些不一樣羊精，所以我特異查了一下H3K27Ac是什么峰囚玫，根據(jù)這個表來看屬于常規(guī)峰。

For narrow-peak histone experiments, each replicate should have 20 million usable fragments.
For broad-peak histone experiments, each replicate should have 45 million usable fragments.
H3K9me3 is an exception as it is enriched in repetitive regions of the genome. Compared to other broad marks, there are few H3K9me3 peaks in non-repetitive regions of the genome in tissues and primary cells. This results in many ChIP-seq reads that map to a non-unique position in the genome. Tissues and primary cells should have 45 million total mapped reads per replicate.

image.png

For narrow-peak histone experiments, each replicate should have 10 million usable fragments(https://www.encodeproject.org/data-standards/terms/#read-depth).
For broad-peak histone experiments, each replicate should have 20 million usable fragments.

$ macs2 callpeak -c /media/yanfang/FYWD/CHIPSEQ/sambam/TE7_input.bam -t /media/yanfang/FYWD/CHIPSEQ/sambam/TE7_H3K27Ac.bam -m 10 30 -p 1e-5 -f BAM -g hs -n TE7_H3K27Ac 2>TE7_H3K27Ac.masc2.log
$ macs2 callpeak -c /media/yanfang/FYWD/CHIPSEQ/sambam/KYSE510_input.bam -t /media/yanfang/FYWD/CHIPSEQ/sambam/KYSE510_H3K27Ac.bam -m 10 30 -p 1e-5 -f BAM -g hs -n KYSE510_H3K27Ac 2>KYSE510_H3K27Ac.masc2.log

-c:對照組。
-t：處理組本昏。
--format:輸入的文件類型涌穆。
--輸出的文件前綴名稱。
--keep-dup對于重復(fù)序列的處理方式趁舀，1效果最好祝沸。指明MACS在染色體同一位置的reads（重復(fù)序列處理方式）。
--wig：輸出的文件類型奉狈。
--single-profile表示輸出單文件仁期。
--space是文獻(xiàn)中的要求。（Wiggle files were generated using read pileups for every 50 base pair bins）
--m:This parameter is used to select the regions within MFOLD range of high-confidence enrichment ratio against background to build model. The regions must be lower than upper limit, and higher than the lower limit of fold enrichment. DEFAULT:10,30 means using all regions not too low (>10) and not too high (<30) to build paired-peaks model. If MACS can not find more than 100 regions to build model, it will use the --shiftsize parameter to continue the peak detection.This parameter is used to select the regions within MFOLD range of high-confidence enrichment ratio against background to build model. The regions must be lower than upper limit, and higher than the lower limit of fold enrichment. 構(gòu)建雙峰模型時使用跛蛋，默認(rèn)[10,30]赊级。表示選擇那些倍數(shù)變化在10-30之間的富集區(qū)域，如果找不到100個區(qū)域構(gòu)建模型橡伞，并且你還設(shè)置了--fix-biomodal,它就會用--shiftsize參數(shù)繼續(xù)分析晋被。

call peak 后得到以下幾個文件類型：

image.png

打開peak.xls文件后墨微，表頭有幾行顯示：

image.png

6.構(gòu)建index文件
為了在IGV里查看peak翘县，需要把bam文件先構(gòu)建index谴分，即生成bam.bai文件：

$ samtools index TE7_H3K27Ac.bam TE7_H3K27Ac.bam.bai
$ samtools index TE7_input.bam TE7_input.bam.bai
$ samtools index KYSE510_H3K27Ac.bam KYSE510_H3K27Ac.bam.bai
$ samtools index KYSE510_input.bam KYSE510_input.bam.bai

順便插一句：[生信人必會之samtools](https://vip.biotrainee.com/d/117-samtools）
這篇文章大概是我看到過寫的最好最全面的samtool使用方法牺蹄。
7.用deeptools里的bamcoverage工具將bam文件標(biāo)準(zhǔn)化

$ bamCoverage -b TE7_H3K27Ac.bam -o TE7_H3K27Ac.bw -p 10 --normalizeUsing RPKM
$ bamCoverage -b TE7_input.bam -o TE7_input.bw -p 10 --normalizeUsing RPKM
$ bamCoverage -b KYSE510_H3K27Ac.bam -o KYSE510_H3K27Ac.bw -p 10 --normalizeUsing RPKM
$ bamCoverage -b KYSE510_input.bam -o KYSE510_input.bw -p 10 --normalizeUsing RPKM

將生成的bw文件（標(biāo)準(zhǔn)化后的）導(dǎo)入IGV：

這是文獻(xiàn)里IRF6基因附近的peak富集情況

這是我自己做的IRF6基因附近的富集情況

這是文獻(xiàn)里TP63基因附近的peak富集情況

這是我自己做的TP63基因附近peak的富集情況

其他文獻(xiàn)里涉及到的IGV的圖氓奈，都幾乎和我做出來的一模一樣鼎天，說明分析過程基本沒啥問題。

7.ROSE篩選super-enhancer
這部分是本次實(shí)踐的重點(diǎn)育勺，ROSE官網(wǎng)：http://younglab.wi.mit.edu/super_enhancer_code.html
有關(guān)這個ROSE軟件講解的比較好的中文版的文章：https://blog.csdn.net/oxygenjing/article/details/77862115
ROSE的最主要用法有ROSE_main.py和ROSE_geneMapper.py涧至。其中ROSE_main.py 用于尋找增強(qiáng)子而ROSE_geneMapper.py 用于為增強(qiáng)子相關(guān)的基因進(jìn)行注釋桑包。

首先看一下ROSE_mian.py 用法：

(1)安裝ROSE，我們直接從其托管在Bitbucket倉庫中克隆Python腳本

git clone https://bitbucket.org/young_computation/rose.git

也可以像這篇文章一樣https://blog.csdn.net/oxygenjing/article/details/77862115蓖康，安裝ROSE

$ wget https://bitbucket.org/young_computation/rose/get/1a9bb86b5464.zip
$ unzip 1a9bb86b5464.zip

(2)安裝后蒜焊，首先準(zhǔn)備文件：peaks的gff文件。這個peak文件是MACS2 call peak之后生成的peaks文件鳖悠。
官方網(wǎng)站對gff文件的格式要求：
.gff must have the following columns:
1: chromosome (chr#)
2: unique ID for each constituent enhancer region
4: start of constituent
5: end of constituent
7: strand (+,-,.)
9: unique ID for each constituent enhancer region
所以要先從peak文件里提取這些要用的列优妙。這里要注意的是：1,2,4,5,7,9是gff文件的列數(shù)套硼，第3，6九妈，8列不是不要了雾鬼，而是要都寫成“ ”空格形式。
（剛開始我以為其他三列都不要了晶疼，所以在gff文件里只有6列翠霍，結(jié)果一直報錯蠢莺。后來按照某篇教程里寫的其他三列都換成"."，結(jié)果也一直報錯......整整折騰了我3天的時間蒋情，死活跑不通耸携。）

$ awk '{print $1"\t"$10"\t"" ""\t"$2"\t"$3"\t"" ""\t"".""\t"" ""\t"$10}' TE7_H3K27Ac_peaks.bed > TE7_peaks.gff

這里的\t是以制表符分割的意思夺衍。每一列用\t分割，并且用""括起來河劝。

(3)接下來創(chuàng)建一個虛擬的python2.7的環(huán)境，因?yàn)槲已b的是python3牌里，所以需要創(chuàng)建一個虛擬的環(huán)境來運(yùn)行ROSE牡辽。

source activate py27

(4)還需要將samtools的PATH設(shè)置到這個文件夾里敞临，因?yàn)镽OSE運(yùn)行時需要調(diào)用samtools挺尿。如果你的samtool沒有設(shè)置全局變量，是要多一步添加PATH的攀涵。但是因?yàn)槲业膕amtool已經(jīng)在全局變量里洽沟，可以直接在這個文件夾里打"samtools"就可以調(diào)用蜗细，所以我就沒有再設(shè)置環(huán)境變量了炉媒。

(5)之后我們需要bam文件（這個bam文件是需要先sort的吊骤。處理組，對照組）眷细，gff文件（處理組）溪椎，bam.bai文件（也就是bam的index文件沼侣，處理組和對照組）蛾洛。把這些文件全都放進(jìn)ROSE安裝的文件夾里，切記：運(yùn)行ROSE的時候也要在其安裝的文件夾里運(yùn)行扶供，我也不知道這軟件開發(fā)的人是咋想的。扳碍。笋敞。

然后一切準(zhǔn)備好之后，就是見證奇跡的時刻了趁餐。（雖然我這個奇跡到了第4天才看到后雷。贾漏。。之前3.9天都在解決報錯問題了）

python ROSE_main.py -g HG19 -i ./TE7/TE7_peaks.gff -r ./TE7/TE7_H3K27Ac_sorted.bam -c ./TE7/TE7_input_sorted.bam -o roseresult -s 12500 -t 2500

如果運(yùn)行時有報錯盒齿，例如有類似如下顯示：

Traceback (most recent call last):
  File "ROSE_bamToGFF.py", line 249, in <module>
    main()
  File "ROSE_bamToGFF.py", line 240, in main
    newGFF = mapBamToGFF(bamFile,gffFile,options.sense,int(options.extension),options.floor,options.rpm,options.matrix)
  File "ROSE_bamToGFF.py", line 76, in mapBamToGFF
    gffLocus = ROSE_utils.Locus(line[0],int(line[3]),int(line[4]),line[6],line[1])

請確保你的bam文件格式，gff文件格式翎承，samtool的環(huán)境變量都沒有問題的情況下叨咖，并且所有需要的文件在ROSE安裝的文件夾里啊胶，仍然出現(xiàn)這些報錯焰坪，你可以嘗試這樣修改源代碼：（參考官方給出的解決方法：https://bitbucket.org/young_computation/rose/issues/44/typeerror-issue）
FIX:
Make the following changes to ROSE_utils.py:
Line 602 (original): command = 'samtools view %s | head -n 1' % (bamFile)
Line 602 (new): command = './samtools view %s | head -n 1' % (bamFile)
Line 632 (original): command = 'samtools flagstat %s' % (self._bam)
Line 632 (new): command = './samtools flagstat %s' % (self._bam)
Line 657 (original): command = 'samtools view %s %s' % (self._bam,locusLine)
Line 657 (new): command = './samtools view %s %s' % (self._bam,locusLine)

最后運(yùn)行后會生成很多文件：

image.png

輸出文件如下（參考文章:https://blog.csdn.net/oxygenjing/article/details/77862115）：
1.gtf（這個文件在gff文件夾里）：該文件為輸入gtf文件的副本某饰。

2.stitched.gtf（這個文件也在gff文件夾里）：該文件為通過STITCHING_DISTANCE將INPUT_CONSTITUENT_GFF拼接在一起創(chuàng)建的gff文件；文件列數(shù)如下：
chrom, name, [blank], start, end, [blank], [blank], strand, [blank], [blank], name
其中 name 字段的命名方式為：拼接起來的區(qū)域數(shù)+最左端區(qū)域ID诫尽。

3._MAPPED.gff（在mappedGFF文件夾里）: 每個bam文件通過bamToGFF的輸出文件炬守，包含以下列：
（成分ID减途，測試區(qū)域观蜗，平均讀取密度（單位為每百萬位元每百萬映射的單位讀數(shù)密度））

4.* _STITCHED * _MAPPED.gff（在mappedGFF文件夾里墓捻，處理組和對照組分別有一個文件）：每個bam文件通過bamToGFF的輸出文件坊夫，該文件中對增強(qiáng)子區(qū)域進(jìn)行了拼接环凿，包含以下列：
（拼接增強(qiáng)子ID，測試區(qū)域羽杰，平均讀取密度（單位為百萬映射每單位拼接增強(qiáng)子數(shù)））

5.STITCHED_ENHANCER_REGION_MAP.txt：利用bamToGFF計(jì)算后得到的拼接enhancer密度文件，包含以下列：
（拼接增強(qiáng)子ID惕澎，染色體唧喉，拼接增強(qiáng)子起始位置忍抽，拼接增強(qiáng)子末端位置，拼接數(shù)干跛，BAM信號等級驯鳖，BAM信號）

AllEnhancers.table.txt：enhancer列表久免，包含每個增強(qiáng)子的排名和是否為超級增強(qiáng)子阎姥，內(nèi)容包括：增強(qiáng)子ID，染色體泽腮，拼接增強(qiáng)子起始位點(diǎn)诊赊，拼接增強(qiáng)子末端鲸郊，拼接數(shù)秆撮，拼接成分大小，BAM的信號拨匆，BAM的等級惭每，是否為超增強(qiáng)子：是（1）否（0）

7._SuperEnhancers.table.txt：超級enhancer的排名宏赘，為_AllEnhancers.table.txt 文件的子集峻汉。包含以下列：
（拼接增強(qiáng)劑ID扳埂，染色體，拼接增強(qiáng)子起始位點(diǎn)，拼接增強(qiáng)子末端，拼接數(shù)葱淳，縫合在一起的成分的大小途戒，RANKING_BAM的信號喷斋，RANKING_BAM的等級，超增強(qiáng)子的二進(jìn)制（1）與典型（0））

8._Enhancers_withSuper.bed 可以加載到UCSC瀏覽器中可視化的enhancer bed文件

其中那個png圖片就是我們需要的：所有enhancer的散點(diǎn)圖

所有enhancer的散點(diǎn)圖。其他有的教程這個橫坐標(biāo)和縱坐標(biāo)是我的兩倍，不知道是不是因?yàn)橛玫腗ACS版本不一樣造成的裙士。他們用的是MACS做的call peak。我用的是MACS2做的。

之后是KYSE510細(xì)胞系的：

python ROSE_main.py -g HG19 -i ./KYSE510_peaks.gff -r ./KYSE510_H3K27Ac_sorted.bam -c ./KYSE510_input_sorted.bam -o KYSE510_roseresult -s 12500 -t 2500

image.png

8.ROSE注釋enhancer

python ROSE_geneMapper.py -i ./TE7_roseresult/TE7_peaks_AllEnhancers.table.txt -g HG19 -o ./TE7_roseresult 2> ./TE7_roseresult/TE7_enhancer_anno.log
python ROSE_geneMapper.py -i ./KYSE510_roseresult/KYSE510_peaks_AllEnhancers.table.txt -g HG19 -o ./KYSE510_roseresult 2> ./KYSE510_roseresult/KYSE510_enhancer_anno.log

得到以下兩個表格：

image.png

1.ENHANCER_TO_GENE.txt： enhancer重疊基因边器、附近基因以及最近的基因列表
2.GENE_TO_ENHANCER.txt：以每個基因?yàn)榱忻暮推湎嚓P(guān)的增強(qiáng)子位置信息列表（https://blog.csdn.net/oxygenjing/article/details/77862115）

9.利用R做GO富集分析
這部分我也是新手，不知道過程是否正確，反正是跑通了，對不對的還需再多看看虾宇。旭贬。。
首先在上一步里，我得到了_peaks_AllEnhancers_GENE_TO_ENHANCER.txt這個表，我用的這個表進(jìn)行的GO分析。

>library(clusterProfiler)
>library(DOSE)
>library(org.Hs.eg.db)
#TE7的enhancer GO富集分析
#首先讀取文件吁断，第一行作為列名
>enhancer.relate.gene<-read.table(file="TE7_peaks_AllEnhancers_GENE_TO_ENHANCER.txt",header=T)
#因?yàn)樵谶@個txt里的最后一列注明是否為super enhancer又兵，如果是則為1；如果不是則空白宅粥。所以取為1的所有行，即挑選出所有的super enhancer
>gene<-enhancer.relate.gene[which(enhancer.relate.gene$IS_SUPER=='1'),]
#查看super enhancer的數(shù)據(jù)集
> head(gene)
  GENE_NAME REFSEQ_ID                                PROXIMAL_ENHANCERS ENHANCER_RANKS IS_SUPER
1     LAMA5 NM_005560                           chr20:60924936-60956028              1        1
2     RPS21 NM_001024                           chr20:60924936-60956028              1        1
3 C20orf151 NM_080833                           chr20:60924936-60956028              1        1
4     ADRM1 NM_007002                           chr20:60924936-60956028              1        1
5   CABLES2 NM_031215                           chr20:60924936-60956028              1        1
6    MIR205 NR_029622 chr1:209528209-209591314,chr1:209607925-209609032         2,1441        1
#將這個super enhancer的table第一列提出來，因?yàn)榈谝涣惺腔蛎?gene_name<- gene[,1]
#查看基因名
head(gene_name)
[1] "LAMA5"     "RPS21"     "C20orf151" "ADRM1"     "CABLES2"   "MIR205" 
#調(diào)用R包
library("stringr") 
library("clusterProfiler")
#GO的BP分析
ego_bp <- enrichGO(gene_name,
                   OrgDb      = org.Hs.eg.db,
                   keyType    = 'SYMBOL',
                   ont        = "BP",
                   pAdjustMethod = "BH",
                   pvalueCutoff = 0.001,
                   )
#泡泡圖
dotplot(ego_bp, font.size=10)

泡泡圖

#GO圖
plotGOgraph(ego_bp)

GO圖

#bar圖
barplot(ego_bp,showCategory = 10,title="The GO_BP enrichment analysis of all super enhancers-related genes in TE7")+ 
  scale_size(range=c(2, 12))+
  scale_x_discrete(labels=function(ego_bp) str_wrap(ego_bp,width = 25))

image.png

KYSE510的分析過程和結(jié)果我就不放進(jìn)來了竹习，只需要把輸入的文件換掉就行，其他的一模一樣随夸。

最后編輯于：2020.07.31 10:57:22

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

禁止轉(zhuǎn)載殿遂，如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市邑飒，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖腔召，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡舔琅，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門战惊，熙熙樓的掌柜王于貴愁眉苦臉地迎上來横缔，“玉大人，你說我怎么就攤上這事〕跽” “怎么了媳叨？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長平痰。經(jīng)常有香客問我赔蒲，道長腻扇，這世上最難降的妖魔是什么窒篱？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任高镐，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘州邢。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著财忽，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上深胳，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天敛劝，我揣著相機(jī)與錄音像捶，去河邊找鬼唆垃。笑死沉删，一個胖子當(dāng)著我的面吹牛矾瑰，可吹牛的內(nèi)容都是我干的凉夯。我是一名探鬼主播，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼人柿，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了扎阶？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤犀农，失蹤者是張志新（化名）和其女友劉穎宰掉，沒想到半個月后轨奄，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡挨务，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了玉组。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谎柄。...
茶點(diǎn)故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖朝巫，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站撒犀，受9級特大地震影響映凳，放射性物質(zhì)發(fā)生泄漏矫渔。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一撕阎、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧汗侵，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽疤剑。三九已至弯菊，卻和暖如春才漆，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工见间，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人惊橱。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓觅廓，卻偏偏與公主長得像矮瘟，于是被迫代替她去往敵國和親板辽。傳聞我的和親對象是個殘疾皇子耳标，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評論 2贊 345

ChIP-seq實(shí)踐(H3K27Ac,enhancer的篩選和enhancer相關(guān)基因的GO分析)

推薦閱讀更多精彩內(nèi)容