Genrich:ATAC-seq,ChIP-seq 差異富集peak calling分析工具教程

Genrich介紹

Genrich 是一個(gè)用于從高通量測(cè)序數(shù)據(jù)中識(shí)別基因組區(qū)域的顯著富集(即peak calling)的生物信息學(xué)工具五辽。它主要用于處理ChIP-seq(染色質(zhì)免疫沉淀測(cè)序)藕各、ATAC-seq(轉(zhuǎn)座酶可及性測(cè)序)和DNAse-seq(DNase I敏感位點(diǎn)測(cè)序)等實(shí)驗(yàn)的數(shù)據(jù)堂鲜。這些技術(shù)廣泛用于研究蛋白質(zhì)與DNA的相互作用以及染色質(zhì)的開放性凳谦。

主要特點(diǎn)和功能:

  1. 處理多種讀取類型:Genrich 能夠處理配對(duì)末端和單端讀取昔期。對(duì)于配對(duì)末端讀取晒屎,Genrich可以準(zhǔn)確推斷出兩個(gè)正確配對(duì)比對(duì)之間的全長(zhǎng)DNA片段。

  2. 高級(jí)映射策略:Genrich 在分析映射到多個(gè)位置的讀取時(shí)钉鸯,能夠?yàn)槊總€(gè)位置添加一個(gè)分?jǐn)?shù)計(jì)數(shù)吧史,這有助于在基因組的難以訪問區(qū)域進(jìn)行峰值檢測(cè)。

  3. 去除PCR重復(fù):Genrich提供了去除PCR重復(fù)的選項(xiàng)唠雕,這對(duì)于確保數(shù)據(jù)質(zhì)量和避免假陽性非常重要贸营。

  4. 統(tǒng)計(jì)分析:它使用對(duì)數(shù)正態(tài)分布作為零模型來計(jì)算每個(gè)基因組位置的p值,可以選擇將p值轉(zhuǎn)換為q值岩睁,后者可以用來控制假發(fā)現(xiàn)率钞脂。

  5. 靈活的分析模式:Genrich 不僅支持標(biāo)準(zhǔn)的ChIP-seq數(shù)據(jù)分析,還提供了專門的ATAC-seq分析模式捕儒,以及能夠調(diào)整分析參數(shù)以適應(yīng)不同類型的實(shí)驗(yàn)數(shù)據(jù)冰啃。

  6. 效率和性能:該工具在性能上進(jìn)行了優(yōu)化,可以處理大規(guī)模數(shù)據(jù)集刘莹,并能夠在合理的時(shí)間內(nèi)返回結(jié)果阎毅。

  7. 多重復(fù)實(shí)驗(yàn)分析:Genrich 能夠處理多個(gè)重復(fù)實(shí)驗(yàn)的數(shù)據(jù),通過合并各重復(fù)的p值并進(jìn)行統(tǒng)計(jì)調(diào)整來提高峰值檢測(cè)的可靠性点弯。

總的來說扇调,Genrich 是一種強(qiáng)大的工具,用于基因組數(shù)據(jù)分析抢肛,特別是在尋找與生物學(xué)調(diào)控相關(guān)的關(guān)鍵基因組區(qū)域方面狼钮。它的多功能性和高效性使其成為生物信息學(xué)領(lǐng)域廣泛使用的工具之一。

安裝

下載:https://github.com/jsh58/Genrich/releases

wget https://github.com/jsh58/Genrich/archive/refs/tags/v0.6.1.tar.gz
 tar zxf v0.6.1.tar.gz
 cd Genrich-0.6.1/
 make

添加到bashrc中或鏈接到/user/local/bin/

sudo ln -s /path/to/Genrich/Genrich-0.6.1/Genrich /usr/local/bin/

用法:

$ ./Genrich -t sample.bam -o sample.narrowPeak -v

ATAC-seq分析模塊

 Genrich -t mysample.bam -o mysample.narrowPeak -f mysample.genrich.log -j -r -y -e MT -p 0.01
 
 -j               Use ATAC-seq mode (def. false)
 -d  <int>        Expand cut sites to <int> bp (def. 100)
 -D               Skip Tn5 adjustments of cut sites (def. false)</pre>

這些參數(shù)是 Genrich 命令行工具的一部分捡絮,用于分析高通量測(cè)序數(shù)據(jù)以識(shí)別基因組上的顯著富集區(qū)域(peaks)熬芜。下面是這些參數(shù)的詳細(xì)解釋:

必需的參數(shù):

  • -t <file>: 輸入的 SAM/BAM 文件,包含實(shí)驗(yàn)樣本的數(shù)據(jù)福稳。

  • -o <file>: 輸出文件涎拉,儲(chǔ)存檢測(cè)到的峰值,格式為 ENCODE narrowPeak。

可選的輸入/輸出參數(shù):

  • -c <file>: 輸入的 SAM/BAM 文件曼库,包含對(duì)照樣本的數(shù)據(jù)区岗。

  • -f <file>: 輸出 bedgraph 格式的文件,用于顯示 p/q 值毁枯。

  • -k <file>: 輸出 bedgraph 格式的文件慈缔,用于顯示堆疊值和 p 值。

  • -b <file>: 輸出 BED 格式的文件种玛,用于顯示讀取/片段/區(qū)間藐鹤。

  • -R <file>: 輸出 PCR 重復(fù)的文件(僅在使用 -r 參數(shù)時(shí)有效)。

過濾選項(xiàng):

  • -r: 移除 PCR 重復(fù)赂韵。

  • -e <arg>: 排除的染色體列表娱节,用逗號(hào)分隔。

  • -E <file>: 輸入 BED 文件祭示,定義要排除的基因組區(qū)域肄满。

  • -m <int>: 保留對(duì)齊的最小 MAPQ 分?jǐn)?shù)(默認(rèn)為 0)。

  • -s <float>: 保留次優(yōu)對(duì)齊质涛,其對(duì)齊得分 (AS) 至少為最佳對(duì)齊得分減去 <float>(默認(rèn)為 0)稠歉。

  • -y: 保留未配對(duì)的alignments。

  • -w <int>: 保留未配對(duì)的alignments汇陆,并將長(zhǎng)度修改為 <int>怒炸。

  • -x: 保留未配對(duì)的alignments,并將長(zhǎng)度修改為配對(duì)平均值毡代。

ATAC-seq 特定選項(xiàng):

  • -j: 使用 ATAC-seq 模式(默認(rèn)為關(guān)閉)阅羹。

  • -d <int>: 將切割位點(diǎn)擴(kuò)展到 <int> bp(默認(rèn)為 100)。

  • -D: 跳過 Tn5 切割位點(diǎn)的調(diào)整(默認(rèn)為關(guān)閉)教寂。

峰值調(diào)用選項(xiàng):

  • -p <float>: 最大 p 值閾值(默認(rèn)為 0.01)捏鱼。

  • -q <float>: 最大 q 值閾值(FDR-adjusted p-value; 默認(rèn)為 1)。

  • -a <float>: 峰值的最小 AUC 閾值(默認(rèn)為 200.0)酪耕。

  • -l <int>: 峰值的最小長(zhǎng)度(默認(rèn)為 0)穷躁。

  • -g <int>: 顯著位點(diǎn)之間的最大距離(默認(rèn)為 100)。

其他選項(xiàng):

  • -X: 跳過峰值調(diào)用步驟因妇。

  • -P: 直接從日志文件(由 -f 生成)調(diào)用峰值。

  • -z: 使用 gzip 壓縮輸出文件猿诸。

  • -v: 打印狀態(tài)更新和計(jì)數(shù)到標(biāo)準(zhǔn)錯(cuò)誤輸出(stderr)婚被。

這些參數(shù)提供了對(duì) Genrich 工具行為的廣泛控制,使用戶可以根據(jù)具體的實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)類型調(diào)整分析過程梳虽。

Genrich用于鑒定基因組中峰值(peaks)主要步驟:

  1. 解析實(shí)驗(yàn)樣本的比對(duì):首先址芯,解析與參考基因組比對(duì)的配對(duì)末端讀取,以準(zhǔn)確推斷出跨越兩個(gè)正確配對(duì)的比對(duì)的完整DNA片段。默認(rèn)情況下谷炸,不考慮未配對(duì)的比對(duì)北专,盡管有三個(gè)選項(xiàng)可以保留這些比對(duì)。

  2. 創(chuàng)建實(shí)驗(yàn)“堆疊”:通過計(jì)算覆蓋基因組每個(gè)位置的DNA片段的數(shù)量來創(chuàng)建旬陡。

  3. 使用對(duì)照樣本創(chuàng)建對(duì)照堆疊:如果可用的話拓颓,使用對(duì)照樣本和背景水平來創(chuàng)建一個(gè)對(duì)照堆疊。

  4. 計(jì)算每個(gè)基因組位置的p值:這一計(jì)算假定一個(gè)以對(duì)照/背景堆疊值為參數(shù)μ的對(duì)數(shù)正態(tài)分布為零模型描孟。

  5. (可選) 將p值轉(zhuǎn)換為q值:使用Benjamini-Hochberg程序從p值計(jì)算q值驶睦。

  6. 計(jì)算所有達(dá)到統(tǒng)計(jì)顯著區(qū)域的“曲線下面積”(AUC):例如,q < 0.05 ? -log(q) > 1.301匿醒。

  7. 合并附近區(qū)域并調(diào)用峰值:將總AUC高于閾值的區(qū)域合并场航,并稱之為峰值。

此外廉羔,Genrich還提供多重映射讀取的處理選項(xiàng)溉痢,允許在否則無法接觸到的基因組區(qū)域檢測(cè)峰值,并且還提供了一種用于ATAC-seq的替代分析模式憋他。此外孩饼,Genrich還具有去除PCR重復(fù)的功能,并計(jì)算基因組長(zhǎng)度以用于計(jì)算背景堆疊值和q值举瑰。

該方法允許使用多個(gè)重復(fù)實(shí)驗(yàn)共同調(diào)用峰值捣辆,首先分別分析重復(fù)實(shí)驗(yàn),然后通過Fisher方法合并各個(gè)位置的p值此迅,轉(zhuǎn)換為q值并調(diào)用峰值汽畴。

reference:https://github.com/jsh58/Genrich

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市耸序,隨后出現(xiàn)的幾起案子忍些,更是在濱河造成了極大的恐慌,老刑警劉巖坎怪,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件罢坝,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡搅窿,警方通過查閱死者的電腦和手機(jī)嘁酿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來男应,“玉大人闹司,你說我怎么就攤上這事°迤” “怎么了游桩?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵牲迫,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我借卧,道長(zhǎng)盹憎,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任铐刘,我火速辦了婚禮陪每,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘滨达。我一直安慰自己奶稠,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布捡遍。 她就那樣靜靜地躺著锌订,像睡著了一般。 火紅的嫁衣襯著肌膚如雪画株。 梳的紋絲不亂的頭發(fā)上辆飘,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音谓传,去河邊找鬼蜈项。 笑死,一個(gè)胖子當(dāng)著我的面吹牛续挟,可吹牛的內(nèi)容都是我干的紧卒。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼诗祸,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼跑芳!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起直颅,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤博个,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后功偿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體盆佣,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年械荷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了共耍。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡吨瞎,死狀恐怖征堪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情关拒,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站着绊,受9級(jí)特大地震影響谐算,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜归露,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一洲脂、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧剧包,春花似錦恐锦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至堕油,卻和暖如春潘飘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背掉缺。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工卜录, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人眶明。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓艰毒,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親搜囱。 傳聞我的和親對(duì)象是個(gè)殘疾皇子丑瞧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容