首先這個(gè)名字要寫對:ChIP-seq假抄,有很多論文沒注意大小寫愚战,其實(shí)沒理解每個(gè)字母所代表的含義。
ChIP-seq大致原理看一看:
Figure 1: Workflow of a ChIP-seq analysis: Chromatin in the nucleus (1) is cross-linked and sheared (2), followed by
enrichment of complexes containing the target protein using immunoprecipitation (3). Short reads obtained from
massively parallel sequencing (4) are mapped to a reference genome (5) yielding in a distribution of tags on the
genome (adapted from http://en.wikipedia.org/wiki/File:Chip_sequencing2.png 2008 - 02-29)
一句話說完,其實(shí)就是探索你要研究的蛋白在全基因組范圍內(nèi)的結(jié)合位點(diǎn)羹与。
先用甲醛把細(xì)胞內(nèi)蛋白和DNA結(jié)合的生理狀態(tài)固定,類似照相機(jī)拍攝畫面庶灿。之后就是打斷這些DNA纵搁,再用你研究的蛋白抗體富集你研究的蛋白和DNA結(jié)合的這些碎片。獲得這些碎片后再把蛋白和DNA解開交聯(lián)往踢。之后就是測序建庫測序腾誉。
要看的論文很多【唬看過的先記錄一下:
1利职,Practical Guidelines for the Comprehensive Analysis of
ChIP-seq Data
文章從數(shù)據(jù)質(zhì)控,比對瘦癌,peak calling,peak注釋猪贪,motif分析都給出了注意點(diǎn),值得一讀
論文從數(shù)據(jù)的質(zhì)控到最后的peak注釋都給了很多說明讯私。
2哮伟,碩士論文
基于ChIP-seq全基因組識(shí)別毛竹筍尖與鞭筍尖組蛋白修飾位點(diǎn)
文章使用了組蛋白修飾做了chip-seq,從實(shí)驗(yàn)流程到數(shù)據(jù)分析妄帘,詳細(xì)楞黄。值得一看。特別是MACS的使用方法
3抡驼,視頻教程
B站的https://www.bilibili.com/video/BV1Yx411x7kE
4鬼廓,網(wǎng)上別人的實(shí)踐
擬南芥的數(shù)據(jù),準(zhǔn)備實(shí)踐一下
http://www.reibang.com/p/78571f87bef9
MACS2 callpeak原理
https://www.plob.org/article/7227.html
https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html
記錄一下筆記:
富集倍數(shù):
實(shí)驗(yàn)樣本的富集倍數(shù)要比對照組要大于2倍到50倍之間致盟,太大倍數(shù)會(huì)被認(rèn)為是建庫時(shí)的PCR重復(fù)
兩個(gè)圖的含義
下面這張圖是形象化地解釋了上面這個(gè)圖碎税。視頻亮點(diǎn)之一,其他跑流程的教程沒有把圖說明白馏锡。
左邊曲線圖是在整個(gè)基因組范圍內(nèi)雷蹂,求出每段區(qū)間覆蓋的reads數(shù)目的平均值,然后以X軸為為基因區(qū)間杯道,Y軸為覆蓋在某個(gè)區(qū)段的reads數(shù)匪煌,連成曲線圖繪制。
右邊熱圖是把基因組所有基因,每個(gè)基因內(nèi)的TSS上下游區(qū)間內(nèi)的所有reads數(shù)目加和萎庭,然后按照大小排序霜医,再把每個(gè)區(qū)間內(nèi)的reads按照示意圖的表示給畫出來。
實(shí)際兩張圖表示的一個(gè)意思驳规,都是在全基因組范圍內(nèi)查看TSS上下游區(qū)間內(nèi)的reads分布肴敛,也就是這個(gè)蛋白的富集區(qū)間就是在大部分基因的TSS周圍。
(下次再忘記可以翻翻視頻吗购,43:28處開始講這兩個(gè)圖含義)
一般來說医男,基因結(jié)合基因TSS位置,可能是結(jié)合很多基因捻勉,也就是廣譜調(diào)控昨登。
接下來視頻是講實(shí)際操作:
1,下載數(shù)據(jù)
1)下載數(shù)據(jù)的腳本
最好把下載的數(shù)據(jù)鏈接寫在一個(gè)腳本里面。然后記錄好數(shù)據(jù)的各種信息贯底,方便日后查看丰辣。
2)文件改名的腳本,也可以寫在一起禽捆,放進(jìn)一個(gè)腳本
命名的規(guī)范:
命名之前的文件名字是啥笙什。重新命名后的文件名字是啥。
要在過段時(shí)間后胚想,還能知道這個(gè)文件當(dāng)初是用來干嘛的琐凭。
舉例:
293是細(xì)胞系
chip-seq是數(shù)據(jù)類型
control是對照
rep1是重復(fù)1
R1是PE測序的read1文件
fasq是文件類型
gz是壓縮文件
2,質(zhì)控
fastqc
可以把建立文件夾浊服,質(zhì)控等步驟的命令寫在一個(gè)bash文件內(nèi)统屈,一起執(zhí)行
3,比對
重點(diǎn)學(xué)習(xí)這部分牙躺,批處理腳本
比對結(jié)果
for循環(huán)嵌套:
外層循環(huán)每做一次愁憔,內(nèi)層便全部做一次。
ps grep cut xargs -i kill -9
組合使用殺掉多個(gè)進(jìn)程
4孽拷,過濾掉map質(zhì)量分?jǐn)?shù)低的reads
比對完后做mapQ>20的過濾吨掌,sam轉(zhuǎn)為bam
異步操作就可以
samtools view -q 20 -h -b -o sam_file &
-q 僅僅保存質(zhì)量分?jǐn)?shù)大于多少的reads
-h保留頭文件
-b輸出bam
-o輸出文件
bam文件名字
-@ 核心數(shù)
sam文件名字
5,sort bam
6 peak calling
使用MACS2
90:50左右開始說MACS
完結(jié)-
視頻有些是口誤脓恕,自己鑒別膜宋。學(xué)到不少東西。下面自己要把循環(huán)腳本和代碼規(guī)范練習(xí)一下炼幔。只記錄了自己認(rèn)為重要的東西秋茫。如果想學(xué)習(xí),最好還是要看視頻乃秀。