說(shuō)明:因?yàn)槠脚_(tái)限制和平臺(tái)廣告等原因,今后的文章將不在簡(jiǎn)書更新怎静,請(qǐng)移步并訂閱個(gè)人博客
說(shuō)明:因?yàn)槠脚_(tái)限制和平臺(tái)廣告等原因拳球,今后的文章將不在簡(jiǎn)書更新,請(qǐng)移步并訂閱個(gè)人博客
說(shuō)明:因?yàn)槠脚_(tái)限制和平臺(tái)廣告等原因园担,今后的文章將不在簡(jiǎn)書更新,請(qǐng)移步并訂閱個(gè)人博客
10月30日枯夜,Bioconductor 3.10 正式發(fā)布弯汰,該版本的bioc共包括了 1822 個(gè)軟件包,384 個(gè)實(shí)驗(yàn)數(shù)據(jù)包湖雹,952 個(gè)注釋包和 27 個(gè)工作流程咏闪,基于 R 3.6.1。
其中摔吏,新的軟件包有93個(gè)鸽嫂,新的數(shù)據(jù)包15個(gè)纵装,新的注釋包2個(gè),大量的舊包都進(jìn)行了一波更新据某。
接下來(lái)推薦幾個(gè)值得關(guān)注的最新軟件包橡娄,以及一些經(jīng)典包的重要更新。
新加入的 bioc 包
在3.10版本中新加入的 bioc 包癣籽,我個(gè)人比較感興趣的有如下幾個(gè)挽唉。
ALPS
ALPS: AnaLysis routines for ePigenomicS data 一個(gè)最新的表觀數(shù)據(jù)(ChIP-seq, ATAC-seq 等)可視化工具包,幫助你繪制高質(zhì)量的發(fā)表級(jí)數(shù)據(jù)筷狼。下圖是一個(gè)可以展示的內(nèi)容概覽瓶籽。
輸入數(shù)據(jù)是一個(gè)包含有 bigwig 源文件位置信息的 data table。再結(jié)合其它一些相關(guān) R 包的處理結(jié)果可以展示各種類型的信息桑逝,例如計(jì)算基因組的富集區(qū)域供后續(xù)進(jìn)行 PCA 和聚類的分析棘劣;繪制不同樣品之間的富集差異俏让;繪制基因?yàn)g覽器或者IGV類似的 track 等等楞遏。同時(shí)也可以對(duì)基因組區(qū)域進(jìn)行注釋和繪制motif。
作者也強(qiáng)調(diào)首昔,這個(gè)包中的大多數(shù)圖都可以利用 ggplot2 的一套系統(tǒng)進(jìn)行二次定制寡喝。
MethCP & Methrix
在分析甲基化數(shù)據(jù)的時(shí)候比較關(guān)注的一個(gè)信息叫做 differentially methylated region (DMR) 差異甲基化區(qū)域,類似于轉(zhuǎn)錄組分析中的差異表達(dá)基因勒奇。 大多數(shù)已有的一些工具(其實(shí)也沒(méi)有很多)針對(duì)的都是兩組數(shù)據(jù)预鬓,而 MethCP 除了支持常規(guī)的兩組比較外,也可以處理多種條件的同時(shí)比較赊颠,例如時(shí)序數(shù)據(jù)格二。
需要說(shuō)明的是,MethCP 本身使用 bsseq 這個(gè)包加載原始數(shù)據(jù)竣蹦。
目前甲基化的數(shù)據(jù)上游分析產(chǎn)生的基本都會(huì)是一個(gè)超大的 bedgraph 文件顶猜,一般性能的電腦基本是處理不了的。Methrix 這個(gè)工具包主要的設(shè)計(jì)目的就是處理這種大型的甲基化 bedgraph 文件痘括。
在讀入文件的同時(shí)长窄,還可以利用參考基因組填補(bǔ)確實(shí)的CpG信息,并且創(chuàng)建甲基化矩陣纲菌。后續(xù)可以在矩陣的基礎(chǔ)上進(jìn)行一系列過(guò)濾和提取操作挠日,并進(jìn)行可視化展示。當(dāng)然也可以把這個(gè)矩陣結(jié)果轉(zhuǎn)換為bsseq數(shù)據(jù)包支持的格式翰舌,然后再使用 MethCP 這個(gè)包進(jìn)行分析嚣潜。
Knowseq
一個(gè)據(jù)介紹是可以直接完成從原始數(shù)據(jù)下載到完成所有常規(guī)分析的工具包。下圖是主要分析流程椅贱。
在原始數(shù)據(jù)下載比對(duì)這個(gè)步驟中懂算,其可以調(diào)用預(yù)編譯好的 Bowtie2, Kallisto 和 salmon 的工具唉韭。首先可以利用downloadPublicSeries(c("GSE74251"))
下載GEO中的數(shù)據(jù)信息,然后使用read.csv("ReferenceFiles/GSE74251.csv")
讀取文件中的數(shù)據(jù)信息犯犁,接下來(lái)就可以使用 rawAlignment
這個(gè)命令來(lái)進(jìn)行序列比對(duì)了属愤。
在進(jìn)行 Biomarkers identification 的步驟時(shí),可以進(jìn)行質(zhì)控和去除 batch effect 等操作酸役,差異分析之后可以結(jié)合機(jī)器學(xué)習(xí)方法進(jìn)行分類和基因篩選住诸。
最后針對(duì)差異進(jìn)行可已經(jīng)常用的各種富集分析,包括 GO pathway 和 相關(guān)疾病涣澡。
(從個(gè)人經(jīng)驗(yàn)來(lái)說(shuō)贱呐,這種大而全的包質(zhì)量一般不會(huì)特別好,但是可能還是會(huì)有一些人喜歡入桂。)
APAlyzer
在轉(zhuǎn)錄翻譯的過(guò)程中奄薇,mRNA 會(huì)在尾巴處添加一些 ployA,這個(gè)A可是有講究的抗愁,長(zhǎng)短位置的不同都會(huì)都 mRNA 的穩(wěn)定性帶來(lái)各種各樣的影響馁蒂,于是有一個(gè)研究方向就是 APA (alternative polyadenylation)。
這方面研究相對(duì)權(quán)威的新澤西州羅格斯癌癥研究所 Bin Tian 實(shí)驗(yàn)室針對(duì)人類中以后的可信 PolyA 位點(diǎn)信息蜘腌,開(kāi)發(fā)了一個(gè)使用轉(zhuǎn)錄組數(shù)據(jù)分析 APA 的工具包 APAlyzer沫屡。當(dāng)前的版本支持檢測(cè)UTR區(qū)域和內(nèi)含子區(qū)域的APA,并利用編碼區(qū)進(jìn)行表達(dá)分析撮珠。
有重要更新的R包
大量的已有工具包在 3.10 版本中進(jìn)行了更新沮脖,這里挑選幾個(gè)大家比較熟悉的進(jìn)行簡(jiǎn)要介紹。
ChIPseeker
ChIPseeker 是 Y 叔開(kāi)發(fā)的一個(gè)對(duì) genomic region 進(jìn)行各種注釋可視化展示的工具包芯急。其中有一個(gè)圖比較典型勺届,如下所示,就是把 upsetplot 嵌入 vennpie娶耍。這個(gè)圖在實(shí)現(xiàn)效果前前后后經(jīng)歷過(guò)幾次改變免姿,但是在這個(gè)包中的實(shí)現(xiàn)方法一直沒(méi)有升級(jí),近期這個(gè)圖在使用過(guò)程中偶爾會(huì)出現(xiàn)一些問(wèn)題伺绽,例如只顯示餅圖不顯示upsetplot等养泡,然后Y叔就把這個(gè)實(shí)現(xiàn)方法給升級(jí)了。
用Y叔的原話說(shuō)就是
于是我就把 ChIPseeker::upsetplo t重新給實(shí)現(xiàn)了奈应,利用了 ggimage + ggplotify澜掩,代碼長(zhǎng)度變成原來(lái)的1/3,而且不會(huì)出現(xiàn)上面的這些問(wèn)題杖挣。
library(ChIPseeker)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
library(clusterProfiler)
files <- getSampleFiles()
print(files)
peakAnno <- annotatePeak(files[[4]], tssRegion=c(-3000, 3000),
TxDb=txdb)
upsetplot(peakAnno, vennpie=T)
DESeq2
之前寫過(guò)一篇文章介紹 船新版本 DESeq2 處理大量樣本速度顯著提升肩榕,現(xiàn)在這個(gè)版本的 DESeq2 也隨著bioc的升級(jí)而正式升級(jí)。
在之前的文章中,已經(jīng)比較詳細(xì)的寫了為什么在處理大量樣本時(shí)速度會(huì)有急速提升株汉。在升級(jí)說(shuō)明中則寫的比較含蓄
speeds up DESeq2 for large sample sizes (n > 100) by at least an order of magnitude. In fact the speed is now linear with number of samples whereas previously DESeq2 would scale quadratically.
ensemblVEP
調(diào)用 Ensembl Variant Effect Predictor 的 perl API 進(jìn)行突變注釋分析的 R 包 ensemblVEP 現(xiàn)在支持了 Ensembl release 97/98筐乳。似乎沒(méi)啥可說(shuō),但是還是挺重要的乔妈。因?yàn)槊恳淮?Ensembl 的更新蝙云,在一些物種上都會(huì)有比較大的升級(jí)。
IsoformSwitchAnalyzeR
IsoformSwitchAnalyzeR 是一個(gè)可以鑒定路召,注釋和可視化可變剪切和轉(zhuǎn)錄本轉(zhuǎn)換的工具包勃刨。在3.10中進(jìn)行了大量的升級(jí),多數(shù)函數(shù)都有改變股淡。
maftools
maftools 是分析和展示 Mutation Annotation Format (MAF) 文件的工具包身隐,在不少文章中都可以這個(gè)包繪制的圖。在這次更新中唯灵,maftools 增加了 survGroup, mafSurvGroup 兩個(gè)函數(shù)贾铝,用來(lái)預(yù)測(cè)和生存相關(guān)的基因以及基因集。另外埠帕,Signature analysis 分析步驟也有很多調(diào)整垢揩。
其它具體的更新信息,可以參考官方說(shuō)明搞监。
如何升級(jí)
查看當(dāng)前版本:
library(BiocManager)
應(yīng)該會(huì)展示如下信息
Bioconductor version 3.9 (BiocManager 1.30.4), ?BiocManager::install
for help
絕大多數(shù)情況下升級(jí)只需要執(zhí)行如下命令:
BiocManager::install(version = "3.10")
通過(guò)指定版本號(hào)之后水孩,所有可以更新的 R 包都會(huì)更新到 3.10 版本镰矿。如果你安裝的 R 包比較多琐驴,提示需要更新一兩百個(gè) R 包都是很正常的。祝好~