HMMRATAC檢測ATAC數(shù)據(jù)的開放性

背景

目前,已經(jīng)衍生出多種用于檢測染色質(zhì)開放性的試驗方法校镐。比如亿扁, DNase-seq, FAIRE-seq和ATAC-seq鸟廓,其中ATACA-seq方法試驗技術(shù)簡單从祝、快捷襟己、重復(fù)性好,得到了極大的發(fā)展和使用牍陌。ATAC-seq技術(shù)核心是使用Tn5轉(zhuǎn)座酶切割開放性的染色質(zhì)擎浴,Tn5轉(zhuǎn)座酶優(yōu)先插入核小體free區(qū)域,產(chǎn)生的DNA片段長度小于100 bp毒涧;也可能插入到相鄰的核小體之間贮预,即linker-DNA區(qū)域,產(chǎn)生的DNA片段大約在150 bp契讲。 盡管仿吞,針對 DNase-seq, FAIRE-seq和ChIP-seq的分析工具已經(jīng)存在,也能用于ATAC-seq數(shù)據(jù)分析捡偏,例如:MACS2唤冈、F-seq等,然而這些工具存在不足霹琼,僅能利用部分插入片段信息务傲,通常是核小體free區(qū)域。 NucleoATAC軟件可以將ATAC-seq數(shù)據(jù)區(qū)分為核小體free和核小體兩部分枣申,然后可以進行核小體位置的定位售葡。然而,NucleoATAC不能利用核小體信息進行peak calling忠藤。所以挟伙,目前沒有一款工具可以同時進行核小體free區(qū)域和核小體信號的鑒定。

[圖片上傳失敗...(image-3555f7-1567747354481)]

image.png

軟件說明

HMMRATAC( Hidden Markov ModeleR for ATAC-seq ) 是一個半監(jiān)督式機器學習方法模孩。該軟件采用了“分解和整合”的思路尖阔,首先把一套數(shù)據(jù)首先分解為來自于NFR 和核小體區(qū)域的不同覆蓋信號層,然后在隱馬爾可夫模型中學習開放染色質(zhì)區(qū)域信號層之間的關(guān)系榨咐,用于預(yù)測開放染色質(zhì)區(qū)域介却。該軟件檢測染色質(zhì)結(jié)構(gòu)更準確,相比其他軟件優(yōu)勢明顯块茁。

一個典型的ATAC-seq分析思路如下:

  1. 使用Bowtie2或BWA軟件進行數(shù)據(jù)比對

  2. 使用HMMRATAC鑒定全基因組染色質(zhì)開放區(qū)域

  3. 使用MEME進行motif富集分析

  4. 使用 CENTIPEDE進行motif足跡分析

  5. 使用Diffbind進行差異開放性分析

  6. 使用BETA與基因表達進行聯(lián)合分析

  7. ……

軟件下載

[https://github.com/LiuLabUB/HMMRATAC](https://github.com/LiuLabUB/HMMRATAC)

軟件使用

 java -jar HMMRATAC_V*_exe.jar -b <SortedBAM> -i <BAMIndex> -g <GenomeStatsFile> <options>

參數(shù)說明

必需參數(shù):

  • -b , --bam <BAM>

    排序后的BAM文件

  • -i , --index <BAI>

    BAM文件的索引

  • -g , --genome <GenomeFile>

    染色體和長度信息文件齿坷,2列

    可選參數(shù):

    -m , --means <Double>

    插入片段初始長度平均值分布祈匙,用于生成信號 tracks芦昔,逗號分隔谓苟,默認50,200,400,600绳姨。如果是非human物種建議調(diào)整黎泣,其他物種的核小體間距存在區(qū)別润绎。如果read長度小于100 bp罪治,推薦第一個數(shù)值使用read長度鹃答。

    -s , --stddev <Double>

    插入片段分布的初始標準差數(shù)值干厚,用于生成信號 tracks李滴,逗號分隔螃宙,默認20,20,20,20。

    -f , --fragem <True || False>

    是否進行插入片段EM訓(xùn)練悬嗓,默認true污呼。

    -q , --minmapq <int>

    比對質(zhì)量值的最小閾值,默認30包竹。

    -u , --upper <int>

    選擇訓(xùn)練位點時的倍數(shù)變化范圍的最大值燕酷,默認20。

    -l , --lower <int>

    選擇訓(xùn)練位點時的倍數(shù)變化范圍的最小值周瞎,默認10苗缩。

    -z , --zscore <int>

    用于過濾的Zscore后的read深度,默認100声诸。

    -o , --output <Name>

    輸出文件的前綴酱讶,默認為“NA”。

    -e , --blacklist <BED>

    黑名單BED文件

    -p , --peaks <True || False>

    是否報告peak的BED文件彼乌,默認true泻肯。

    -k , --kmeans <int>

    模型中狀態(tài)的個數(shù)。默認3慰照,通常不建議修改灶挟。

    -t , --training <BED>

    用于訓(xùn)練的BED文件,使用后則不再使用倍數(shù)變化范圍毒租。

    -bedgraph <True || False>

    是否生成一個全基因組狀態(tài)注釋bedgraph文件稚铣,默認false。

    --minlen <int>

    檢峰的最小長度墅垮,默認200惕医。

    --score <max || ave || med || fc || zscore || all>

    使用哪種打分系統(tǒng)對peak進行打分,默認“max”算色。

    --bgscore <True || False>

    是否對每個狀態(tài)注釋文件(bedgraph)追加HMMR值抬伺,默認false。

    --trim <int>

    多少信號需要從末端trim掉灾梦,默認0沛简。推薦: fragments <= 500bp set --trim 1; fragments <= 250bp set --trim 2; fragments <= 150 set --trim 3。

    --window <int>

    用于 維特比譯碼(Viterbi decoding)時切分基因組窗口的大小斥废,默認25000000。

    --model <File>

    二進制的模型文件(之前的分析運行產(chǎn)生的)给郊。

    --modelonly <True || False>

    是否產(chǎn)生模型后即停止本程序牡肉,對于多次調(diào)參有用,默認 false淆九。

    --maxTrain <int>

    用于訓(xùn)練的區(qū)域的最大數(shù)目统锤,默認1000毛俏。

    --removeDuplicates <true || false>

    是否去除重復(fù)的reads,默認true饲窿。

    --printExclude <true || false>

    是否輸出排除的區(qū)域到文件煌寇,默認false。

    --printTrain <true || false>

    是否輸出訓(xùn)練區(qū)域到文件逾雄,默認true阀溶。

    --randomSeed <long>

    訓(xùn)練區(qū)域隨機取樣的種子長度,默認10151鸦泳。

    -h

    本軟件使用幫助信息银锻。

參考資料

文章: https://doi.org/10.1093/nar/gkz533

軟件: https://github.com/LiuLabUB/HMMRATAC

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市做鹰,隨后出現(xiàn)的幾起案子击纬,更是在濱河造成了極大的恐慌,老刑警劉巖钾麸,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件更振,死亡現(xiàn)場離奇詭異,居然都是意外死亡饭尝,警方通過查閱死者的電腦和手機肯腕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來芋肠,“玉大人乎芳,你說我怎么就攤上這事√兀” “怎么了奈惑?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長睡汹。 經(jīng)常有香客問我肴甸,道長,這世上最難降的妖魔是什么囚巴? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任原在,我火速辦了婚禮,結(jié)果婚禮上彤叉,老公的妹妹穿的比我還像新娘庶柿。我一直安慰自己,他們只是感情好秽浇,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布浮庐。 她就那樣靜靜地躺著,像睡著了一般柬焕。 火紅的嫁衣襯著肌膚如雪审残。 梳的紋絲不亂的頭發(fā)上梭域,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音搅轿,去河邊找鬼病涨。 笑死,一個胖子當著我的面吹牛璧坟,可吹牛的內(nèi)容都是我干的既穆。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼沸柔,長吁一口氣:“原來是場噩夢啊……” “哼循衰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起褐澎,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤会钝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后工三,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迁酸,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年俭正,在試婚紗的時候發(fā)現(xiàn)自己被綠了奸鬓。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡掸读,死狀恐怖串远,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情儿惫,我是刑警寧澤澡罚,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站肾请,受9級特大地震影響留搔,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜铛铁,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一隔显、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧饵逐,春花似錦括眠、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春萌业,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背奸柬。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工生年, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人廓奕。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓抱婉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親桌粉。 傳聞我的和親對象是個殘疾皇子蒸绩,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容