背景
目前,已經(jīng)衍生出多種用于檢測染色質(zhì)開放性的試驗方法校镐。比如亿扁, DNase-seq, FAIRE-seq和ATAC-seq鸟廓,其中ATACA-seq方法試驗技術(shù)簡單从祝、快捷襟己、重復(fù)性好,得到了極大的發(fā)展和使用牍陌。ATAC-seq技術(shù)核心是使用Tn5轉(zhuǎn)座酶切割開放性的染色質(zhì)擎浴,Tn5轉(zhuǎn)座酶優(yōu)先插入核小體free區(qū)域,產(chǎn)生的DNA片段長度小于100 bp毒涧;也可能插入到相鄰的核小體之間贮预,即linker-DNA區(qū)域,產(chǎn)生的DNA片段大約在150 bp契讲。 盡管仿吞,針對 DNase-seq, FAIRE-seq和ChIP-seq的分析工具已經(jīng)存在,也能用于ATAC-seq數(shù)據(jù)分析捡偏,例如:MACS2唤冈、F-seq等,然而這些工具存在不足霹琼,僅能利用部分插入片段信息务傲,通常是核小體free區(qū)域。 NucleoATAC軟件可以將ATAC-seq數(shù)據(jù)區(qū)分為核小體free和核小體兩部分枣申,然后可以進行核小體位置的定位售葡。然而,NucleoATAC不能利用核小體信息進行peak calling忠藤。所以挟伙,目前沒有一款工具可以同時進行核小體free區(qū)域和核小體信號的鑒定。
[圖片上傳失敗...(image-3555f7-1567747354481)]
軟件說明
HMMRATAC( Hidden Markov ModeleR for ATAC-seq ) 是一個半監(jiān)督式機器學習方法模孩。該軟件采用了“分解和整合”的思路尖阔,首先把一套數(shù)據(jù)首先分解為來自于NFR 和核小體區(qū)域的不同覆蓋信號層,然后在隱馬爾可夫模型中學習開放染色質(zhì)區(qū)域信號層之間的關(guān)系榨咐,用于預(yù)測開放染色質(zhì)區(qū)域介却。該軟件檢測染色質(zhì)結(jié)構(gòu)更準確,相比其他軟件優(yōu)勢明顯块茁。
一個典型的ATAC-seq分析思路如下:
使用Bowtie2或BWA軟件進行數(shù)據(jù)比對
使用HMMRATAC鑒定全基因組染色質(zhì)開放區(qū)域
使用MEME進行motif富集分析
使用 CENTIPEDE進行motif足跡分析
使用Diffbind進行差異開放性分析
使用BETA與基因表達進行聯(lián)合分析
……
軟件下載:
[https://github.com/LiuLabUB/HMMRATAC](https://github.com/LiuLabUB/HMMRATAC)
軟件使用
java -jar HMMRATAC_V*_exe.jar -b <SortedBAM> -i <BAMIndex> -g <GenomeStatsFile> <options>
參數(shù)說明
必需參數(shù):
-
-b , --bam <BAM>
排序后的BAM文件
-
-i , --index <BAI>
BAM文件的索引
-
-g , --genome <GenomeFile>
染色體和長度信息文件齿坷,2列
可選參數(shù):
-m , --means <Double>
插入片段初始長度平均值分布祈匙,用于生成信號 tracks芦昔,逗號分隔谓苟,默認50,200,400,600绳姨。如果是非human物種建議調(diào)整黎泣,其他物種的核小體間距存在區(qū)別润绎。如果read長度小于100 bp罪治,推薦第一個數(shù)值使用read長度鹃答。
-s , --stddev <Double>
插入片段分布的初始標準差數(shù)值干厚,用于生成信號 tracks李滴,逗號分隔螃宙,默認20,20,20,20。
-f , --fragem <True || False>
是否進行插入片段EM訓(xùn)練悬嗓,默認true污呼。
-q , --minmapq <int>
比對質(zhì)量值的最小閾值,默認30包竹。
-u , --upper <int>
選擇訓(xùn)練位點時的倍數(shù)變化范圍的最大值燕酷,默認20。
-l , --lower <int>
選擇訓(xùn)練位點時的倍數(shù)變化范圍的最小值周瞎,默認10苗缩。
-z , --zscore <int>
用于過濾的Zscore后的read深度,默認100声诸。
-o , --output <Name>
輸出文件的前綴酱讶,默認為“NA”。
-e , --blacklist <BED>
黑名單BED文件
-p , --peaks <True || False>
是否報告peak的BED文件彼乌,默認true泻肯。
-k , --kmeans <int>
模型中狀態(tài)的個數(shù)。默認3慰照,通常不建議修改灶挟。
-t , --training <BED>
用于訓(xùn)練的BED文件,使用后則不再使用倍數(shù)變化范圍毒租。
-bedgraph <True || False>
是否生成一個全基因組狀態(tài)注釋bedgraph文件稚铣,默認false。
--minlen <int>
檢峰的最小長度墅垮,默認200惕医。
--score <max || ave || med || fc || zscore || all>
使用哪種打分系統(tǒng)對peak進行打分,默認“max”算色。
--bgscore <True || False>
是否對每個狀態(tài)注釋文件(bedgraph)追加HMMR值抬伺,默認false。
--trim <int>
多少信號需要從末端trim掉灾梦,默認0沛简。推薦: fragments <= 500bp set --trim 1; fragments <= 250bp set --trim 2; fragments <= 150 set --trim 3。
--window <int>
用于 維特比譯碼(Viterbi decoding)時切分基因組窗口的大小斥废,默認25000000。
--model <File>
二進制的模型文件(之前的分析運行產(chǎn)生的)给郊。
--modelonly <True || False>
是否產(chǎn)生模型后即停止本程序牡肉,對于多次調(diào)參有用,默認 false淆九。
--maxTrain <int>
用于訓(xùn)練的區(qū)域的最大數(shù)目统锤,默認1000毛俏。
--removeDuplicates <true || false>
是否去除重復(fù)的reads,默認true饲窿。
--printExclude <true || false>
是否輸出排除的區(qū)域到文件煌寇,默認false。
--printTrain <true || false>
是否輸出訓(xùn)練區(qū)域到文件逾雄,默認true阀溶。
--randomSeed <long>
訓(xùn)練區(qū)域隨機取樣的種子長度,默認10151鸦泳。
-h
本軟件使用幫助信息银锻。