Genrich介紹
Genrich 是一個(gè)用于從高通量測(cè)序數(shù)據(jù)中識(shí)別基因組區(qū)域的顯著富集(即peak calling)的生物信息學(xué)工具五辽。它主要用于處理ChIP-seq(染色質(zhì)免疫沉淀測(cè)序)藕各、ATAC-seq(轉(zhuǎn)座酶可及性測(cè)序)和DNAse-seq(DNase I敏感位點(diǎn)測(cè)序)等實(shí)驗(yàn)的數(shù)據(jù)堂鲜。這些技術(shù)廣泛用于研究蛋白質(zhì)與DNA的相互作用以及染色質(zhì)的開放性凳谦。
主要特點(diǎn)和功能:
處理多種讀取類型:Genrich 能夠處理配對(duì)末端和單端讀取昔期。對(duì)于配對(duì)末端讀取晒屎,Genrich可以準(zhǔn)確推斷出兩個(gè)正確配對(duì)比對(duì)之間的全長(zhǎng)DNA片段。
高級(jí)映射策略:Genrich 在分析映射到多個(gè)位置的讀取時(shí)钉鸯,能夠?yàn)槊總€(gè)位置添加一個(gè)分?jǐn)?shù)計(jì)數(shù)吧史,這有助于在基因組的難以訪問區(qū)域進(jìn)行峰值檢測(cè)。
去除PCR重復(fù):Genrich提供了去除PCR重復(fù)的選項(xiàng)唠雕,這對(duì)于確保數(shù)據(jù)質(zhì)量和避免假陽性非常重要贸营。
統(tǒng)計(jì)分析:它使用對(duì)數(shù)正態(tài)分布作為零模型來計(jì)算每個(gè)基因組位置的p值,可以選擇將p值轉(zhuǎn)換為q值岩睁,后者可以用來控制假發(fā)現(xiàn)率钞脂。
靈活的分析模式:Genrich 不僅支持標(biāo)準(zhǔn)的ChIP-seq數(shù)據(jù)分析,還提供了專門的ATAC-seq分析模式捕儒,以及能夠調(diào)整分析參數(shù)以適應(yīng)不同類型的實(shí)驗(yàn)數(shù)據(jù)冰啃。
效率和性能:該工具在性能上進(jìn)行了優(yōu)化,可以處理大規(guī)模數(shù)據(jù)集刘莹,并能夠在合理的時(shí)間內(nèi)返回結(jié)果阎毅。
多重復(fù)實(shí)驗(yàn)分析:Genrich 能夠處理多個(gè)重復(fù)實(shí)驗(yàn)的數(shù)據(jù),通過合并各重復(fù)的p值并進(jìn)行統(tǒng)計(jì)調(diào)整來提高峰值檢測(cè)的可靠性点弯。
總的來說扇调,Genrich 是一種強(qiáng)大的工具,用于基因組數(shù)據(jù)分析抢肛,特別是在尋找與生物學(xué)調(diào)控相關(guān)的關(guān)鍵基因組區(qū)域方面狼钮。它的多功能性和高效性使其成為生物信息學(xué)領(lǐng)域廣泛使用的工具之一。
安裝
下載:https://github.com/jsh58/Genrich/releases
wget https://github.com/jsh58/Genrich/archive/refs/tags/v0.6.1.tar.gz
tar zxf v0.6.1.tar.gz
cd Genrich-0.6.1/
make
添加到bashrc中或鏈接到/user/local/bin/
sudo ln -s /path/to/Genrich/Genrich-0.6.1/Genrich /usr/local/bin/
用法:
$ ./Genrich -t sample.bam -o sample.narrowPeak -v
ATAC-seq分析模塊
Genrich -t mysample.bam -o mysample.narrowPeak -f mysample.genrich.log -j -r -y -e MT -p 0.01
-j Use ATAC-seq mode (def. false)
-d <int> Expand cut sites to <int> bp (def. 100)
-D Skip Tn5 adjustments of cut sites (def. false)</pre>
這些參數(shù)是 Genrich 命令行工具的一部分捡絮,用于分析高通量測(cè)序數(shù)據(jù)以識(shí)別基因組上的顯著富集區(qū)域(peaks)熬芜。下面是這些參數(shù)的詳細(xì)解釋:
必需的參數(shù):
-t <file>
: 輸入的 SAM/BAM 文件,包含實(shí)驗(yàn)樣本的數(shù)據(jù)福稳。-o <file>
: 輸出文件涎拉,儲(chǔ)存檢測(cè)到的峰值,格式為 ENCODE narrowPeak。
可選的輸入/輸出參數(shù):
-c <file>
: 輸入的 SAM/BAM 文件曼库,包含對(duì)照樣本的數(shù)據(jù)区岗。-f <file>
: 輸出 bedgraph 格式的文件,用于顯示 p/q 值毁枯。-k <file>
: 輸出 bedgraph 格式的文件慈缔,用于顯示堆疊值和 p 值。-b <file>
: 輸出 BED 格式的文件种玛,用于顯示讀取/片段/區(qū)間藐鹤。-R <file>
: 輸出 PCR 重復(fù)的文件(僅在使用-r
參數(shù)時(shí)有效)。
過濾選項(xiàng):
-r
: 移除 PCR 重復(fù)赂韵。-e <arg>
: 排除的染色體列表娱节,用逗號(hào)分隔。-E <file>
: 輸入 BED 文件祭示,定義要排除的基因組區(qū)域肄满。-m <int>
: 保留對(duì)齊的最小 MAPQ 分?jǐn)?shù)(默認(rèn)為 0)。-s <float>
: 保留次優(yōu)對(duì)齊质涛,其對(duì)齊得分 (AS) 至少為最佳對(duì)齊得分減去<float>
(默認(rèn)為 0)稠歉。-y
: 保留未配對(duì)的alignments。-w <int>
: 保留未配對(duì)的alignments汇陆,并將長(zhǎng)度修改為<int>
怒炸。-x
: 保留未配對(duì)的alignments,并將長(zhǎng)度修改為配對(duì)平均值毡代。
ATAC-seq 特定選項(xiàng):
-j
: 使用 ATAC-seq 模式(默認(rèn)為關(guān)閉)阅羹。-d <int>
: 將切割位點(diǎn)擴(kuò)展到<int>
bp(默認(rèn)為 100)。-D
: 跳過 Tn5 切割位點(diǎn)的調(diào)整(默認(rèn)為關(guān)閉)教寂。
峰值調(diào)用選項(xiàng):
-p <float>
: 最大 p 值閾值(默認(rèn)為 0.01)捏鱼。-q <float>
: 最大 q 值閾值(FDR-adjusted p-value; 默認(rèn)為 1)。-a <float>
: 峰值的最小 AUC 閾值(默認(rèn)為 200.0)酪耕。-l <int>
: 峰值的最小長(zhǎng)度(默認(rèn)為 0)穷躁。-g <int>
: 顯著位點(diǎn)之間的最大距離(默認(rèn)為 100)。
其他選項(xiàng):
-X
: 跳過峰值調(diào)用步驟因妇。-P
: 直接從日志文件(由-f
生成)調(diào)用峰值。-z
: 使用 gzip 壓縮輸出文件猿诸。-v
: 打印狀態(tài)更新和計(jì)數(shù)到標(biāo)準(zhǔn)錯(cuò)誤輸出(stderr)婚被。
這些參數(shù)提供了對(duì) Genrich 工具行為的廣泛控制,使用戶可以根據(jù)具體的實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)類型調(diào)整分析過程梳虽。
Genrich用于鑒定基因組中峰值(peaks)主要步驟:
解析實(shí)驗(yàn)樣本的比對(duì):首先址芯,解析與參考基因組比對(duì)的配對(duì)末端讀取,以準(zhǔn)確推斷出跨越兩個(gè)正確配對(duì)的比對(duì)的完整DNA片段。默認(rèn)情況下谷炸,不考慮未配對(duì)的比對(duì)北专,盡管有三個(gè)選項(xiàng)可以保留這些比對(duì)。
創(chuàng)建實(shí)驗(yàn)“堆疊”:通過計(jì)算覆蓋基因組每個(gè)位置的DNA片段的數(shù)量來創(chuàng)建旬陡。
使用對(duì)照樣本創(chuàng)建對(duì)照堆疊:如果可用的話拓颓,使用對(duì)照樣本和背景水平來創(chuàng)建一個(gè)對(duì)照堆疊。
計(jì)算每個(gè)基因組位置的p值:這一計(jì)算假定一個(gè)以對(duì)照/背景堆疊值為參數(shù)μ的對(duì)數(shù)正態(tài)分布為零模型描孟。
(可選) 將p值轉(zhuǎn)換為q值:使用Benjamini-Hochberg程序從p值計(jì)算q值驶睦。
計(jì)算所有達(dá)到統(tǒng)計(jì)顯著區(qū)域的“曲線下面積”(AUC):例如,q < 0.05 ? -log(q) > 1.301匿醒。
合并附近區(qū)域并調(diào)用峰值:將總AUC高于閾值的區(qū)域合并场航,并稱之為峰值。
此外廉羔,Genrich還提供多重映射讀取的處理選項(xiàng)溉痢,允許在否則無法接觸到的基因組區(qū)域檢測(cè)峰值,并且還提供了一種用于ATAC-seq的替代分析模式憋他。此外孩饼,Genrich還具有去除PCR重復(fù)的功能,并計(jì)算基因組長(zhǎng)度以用于計(jì)算背景堆疊值和q值举瑰。
該方法允許使用多個(gè)重復(fù)實(shí)驗(yàn)共同調(diào)用峰值捣辆,首先分別分析重復(fù)實(shí)驗(yàn),然后通過Fisher方法合并各個(gè)位置的p值此迅,轉(zhuǎn)換為q值并調(diào)用峰值汽畴。
reference:https://github.com/jsh58/Genrich