Bioconductor 3.10正式發(fā)布

說(shuō)明:因?yàn)槠脚_(tái)限制和平臺(tái)廣告等原因,今后的文章將不在簡(jiǎn)書更新怎静,請(qǐng)移步并訂閱個(gè)人博客
說(shuō)明:因?yàn)槠脚_(tái)限制和平臺(tái)廣告等原因拳球,今后的文章將不在簡(jiǎn)書更新,請(qǐng)移步并訂閱個(gè)人博客
說(shuō)明:因?yàn)槠脚_(tái)限制和平臺(tái)廣告等原因园担,今后的文章將不在簡(jiǎn)書更新,請(qǐng)移步并訂閱個(gè)人博客


10月30日枯夜,Bioconductor 3.10 正式發(fā)布弯汰,該版本的bioc共包括了 1822 個(gè)軟件包,384 個(gè)實(shí)驗(yàn)數(shù)據(jù)包湖雹,952 個(gè)注釋包和 27 個(gè)工作流程咏闪,基于 R 3.6.1。

其中摔吏,新的軟件包有93個(gè)鸽嫂,新的數(shù)據(jù)包15個(gè)纵装,新的注釋包2個(gè),大量的舊包都進(jìn)行了一波更新据某。

接下來(lái)推薦幾個(gè)值得關(guān)注的最新軟件包橡娄,以及一些經(jīng)典包的重要更新。

新加入的 bioc 包

在3.10版本中新加入的 bioc 包癣籽,我個(gè)人比較感興趣的有如下幾個(gè)挽唉。

ALPS

ALPS: AnaLysis routines for ePigenomicS data 一個(gè)最新的表觀數(shù)據(jù)(ChIP-seq, ATAC-seq 等)可視化工具包,幫助你繪制高質(zhì)量的發(fā)表級(jí)數(shù)據(jù)筷狼。下圖是一個(gè)可以展示的內(nèi)容概覽瓶籽。

輸入數(shù)據(jù)是一個(gè)包含有 bigwig 源文件位置信息的 data table。再結(jié)合其它一些相關(guān) R 包的處理結(jié)果可以展示各種類型的信息桑逝,例如計(jì)算基因組的富集區(qū)域供后續(xù)進(jìn)行 PCA 和聚類的分析棘劣;繪制不同樣品之間的富集差異俏让;繪制基因?yàn)g覽器或者IGV類似的 track 等等楞遏。同時(shí)也可以對(duì)基因組區(qū)域進(jìn)行注釋和繪制motif。

作者也強(qiáng)調(diào)首昔,這個(gè)包中的大多數(shù)圖都可以利用 ggplot2 的一套系統(tǒng)進(jìn)行二次定制寡喝。

image

MethCP & Methrix

在分析甲基化數(shù)據(jù)的時(shí)候比較關(guān)注的一個(gè)信息叫做 differentially methylated region (DMR) 差異甲基化區(qū)域,類似于轉(zhuǎn)錄組分析中的差異表達(dá)基因勒奇。 大多數(shù)已有的一些工具(其實(shí)也沒(méi)有很多)針對(duì)的都是兩組數(shù)據(jù)预鬓,而 MethCP 除了支持常規(guī)的兩組比較外,也可以處理多種條件的同時(shí)比較赊颠,例如時(shí)序數(shù)據(jù)格二。

需要說(shuō)明的是,MethCP 本身使用 bsseq 這個(gè)包加載原始數(shù)據(jù)竣蹦。

目前甲基化的數(shù)據(jù)上游分析產(chǎn)生的基本都會(huì)是一個(gè)超大的 bedgraph 文件顶猜,一般性能的電腦基本是處理不了的。Methrix 這個(gè)工具包主要的設(shè)計(jì)目的就是處理這種大型的甲基化 bedgraph 文件痘括。

在讀入文件的同時(shí)长窄,還可以利用參考基因組填補(bǔ)確實(shí)的CpG信息,并且創(chuàng)建甲基化矩陣纲菌。后續(xù)可以在矩陣的基礎(chǔ)上進(jìn)行一系列過(guò)濾和提取操作挠日,并進(jìn)行可視化展示。當(dāng)然也可以把這個(gè)矩陣結(jié)果轉(zhuǎn)換為bsseq數(shù)據(jù)包支持的格式翰舌,然后再使用 MethCP 這個(gè)包進(jìn)行分析嚣潜。

Knowseq

一個(gè)據(jù)介紹是可以直接完成從原始數(shù)據(jù)下載到完成所有常規(guī)分析的工具包。下圖是主要分析流程椅贱。

在原始數(shù)據(jù)下載比對(duì)這個(gè)步驟中懂算,其可以調(diào)用預(yù)編譯好的 Bowtie2, Kallisto 和 salmon 的工具唉韭。首先可以利用downloadPublicSeries(c("GSE74251")) 下載GEO中的數(shù)據(jù)信息,然后使用read.csv("ReferenceFiles/GSE74251.csv") 讀取文件中的數(shù)據(jù)信息犯犁,接下來(lái)就可以使用 rawAlignment 這個(gè)命令來(lái)進(jìn)行序列比對(duì)了属愤。

在進(jìn)行 Biomarkers identification 的步驟時(shí),可以進(jìn)行質(zhì)控和去除 batch effect 等操作酸役,差異分析之后可以結(jié)合機(jī)器學(xué)習(xí)方法進(jìn)行分類和基因篩選住诸。

最后針對(duì)差異進(jìn)行可已經(jīng)常用的各種富集分析,包括 GO pathway 和 相關(guān)疾病涣澡。

(從個(gè)人經(jīng)驗(yàn)來(lái)說(shuō)贱呐,這種大而全的包質(zhì)量一般不會(huì)特別好,但是可能還是會(huì)有一些人喜歡入桂。)

image

APAlyzer

在轉(zhuǎn)錄翻譯的過(guò)程中奄薇,mRNA 會(huì)在尾巴處添加一些 ployA,這個(gè)A可是有講究的抗愁,長(zhǎng)短位置的不同都會(huì)都 mRNA 的穩(wěn)定性帶來(lái)各種各樣的影響馁蒂,于是有一個(gè)研究方向就是 APA (alternative polyadenylation)。

這方面研究相對(duì)權(quán)威的新澤西州羅格斯癌癥研究所 Bin Tian 實(shí)驗(yàn)室針對(duì)人類中以后的可信 PolyA 位點(diǎn)信息蜘腌,開(kāi)發(fā)了一個(gè)使用轉(zhuǎn)錄組數(shù)據(jù)分析 APA 的工具包 APAlyzer沫屡。當(dāng)前的版本支持檢測(cè)UTR區(qū)域和內(nèi)含子區(qū)域的APA,并利用編碼區(qū)進(jìn)行表達(dá)分析撮珠。

image

有重要更新的R包

大量的已有工具包在 3.10 版本中進(jìn)行了更新沮脖,這里挑選幾個(gè)大家比較熟悉的進(jìn)行簡(jiǎn)要介紹。

ChIPseeker

ChIPseeker 是 Y 叔開(kāi)發(fā)的一個(gè)對(duì) genomic region 進(jìn)行各種注釋可視化展示的工具包芯急。其中有一個(gè)圖比較典型勺届,如下所示,就是把 upsetplot 嵌入 vennpie娶耍。這個(gè)圖在實(shí)現(xiàn)效果前前后后經(jīng)歷過(guò)幾次改變免姿,但是在這個(gè)包中的實(shí)現(xiàn)方法一直沒(méi)有升級(jí),近期這個(gè)圖在使用過(guò)程中偶爾會(huì)出現(xiàn)一些問(wèn)題伺绽,例如只顯示餅圖不顯示upsetplot等养泡,然后Y叔就把這個(gè)實(shí)現(xiàn)方法給升級(jí)了。

用Y叔的原話說(shuō)就是

于是我就把 ChIPseeker::upsetplo t重新給實(shí)現(xiàn)了奈应,利用了 ggimage + ggplotify澜掩,代碼長(zhǎng)度變成原來(lái)的1/3,而且不會(huì)出現(xiàn)上面的這些問(wèn)題杖挣。

library(ChIPseeker)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
library(clusterProfiler)
files <- getSampleFiles()
print(files)

peakAnno <- annotatePeak(files[[4]], tssRegion=c(-3000, 3000),
                         TxDb=txdb)
upsetplot(peakAnno, vennpie=T)
image

DESeq2

之前寫過(guò)一篇文章介紹 船新版本 DESeq2 處理大量樣本速度顯著提升肩榕,現(xiàn)在這個(gè)版本的 DESeq2 也隨著bioc的升級(jí)而正式升級(jí)。

在之前的文章中,已經(jīng)比較詳細(xì)的寫了為什么在處理大量樣本時(shí)速度會(huì)有急速提升株汉。在升級(jí)說(shuō)明中則寫的比較含蓄

speeds up DESeq2 for large sample sizes (n > 100) by at least an order of magnitude. In fact the speed is now linear with number of samples whereas previously DESeq2 would scale quadratically.

ensemblVEP

調(diào)用 Ensembl Variant Effect Predictor 的 perl API 進(jìn)行突變注釋分析的 R 包 ensemblVEP 現(xiàn)在支持了 Ensembl release 97/98筐乳。似乎沒(méi)啥可說(shuō),但是還是挺重要的乔妈。因?yàn)槊恳淮?Ensembl 的更新蝙云,在一些物種上都會(huì)有比較大的升級(jí)。

IsoformSwitchAnalyzeR

IsoformSwitchAnalyzeR 是一個(gè)可以鑒定路召,注釋和可視化可變剪切和轉(zhuǎn)錄本轉(zhuǎn)換的工具包勃刨。在3.10中進(jìn)行了大量的升級(jí),多數(shù)函數(shù)都有改變股淡。

image

maftools

maftools 是分析和展示 Mutation Annotation Format (MAF) 文件的工具包身隐,在不少文章中都可以這個(gè)包繪制的圖。在這次更新中唯灵,maftools 增加了 survGroup, mafSurvGroup 兩個(gè)函數(shù)贾铝,用來(lái)預(yù)測(cè)和生存相關(guān)的基因以及基因集。另外埠帕,Signature analysis 分析步驟也有很多調(diào)整垢揩。

image

其它具體的更新信息,可以參考官方說(shuō)明搞监。

如何升級(jí)

查看當(dāng)前版本:

library(BiocManager)

應(yīng)該會(huì)展示如下信息

Bioconductor version 3.9 (BiocManager 1.30.4), ?BiocManager::install
for help

絕大多數(shù)情況下升級(jí)只需要執(zhí)行如下命令:

BiocManager::install(version = "3.10")

通過(guò)指定版本號(hào)之后水孩,所有可以更新的 R 包都會(huì)更新到 3.10 版本镰矿。如果你安裝的 R 包比較多琐驴,提示需要更新一兩百個(gè) R 包都是很正常的。祝好~


掃碼即刻交流
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末秤标,一起剝皮案震驚了整個(gè)濱河市绝淡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌苍姜,老刑警劉巖牢酵,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異衙猪,居然都是意外死亡馍乙,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門垫释,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)丝格,“玉大人,你說(shuō)我怎么就攤上這事棵譬∠则颍” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵订咸,是天一觀的道長(zhǎng)曼尊。 經(jīng)常有香客問(wèn)我酬诀,道長(zhǎng),這世上最難降的妖魔是什么骆撇? 我笑而不...
    開(kāi)封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任瞒御,我火速辦了婚禮,結(jié)果婚禮上神郊,老公的妹妹穿的比我還像新娘葵腹。我一直安慰自己,他們只是感情好屿岂,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布践宴。 她就那樣靜靜地躺著,像睡著了一般爷怀。 火紅的嫁衣襯著肌膚如雪阻肩。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天运授,我揣著相機(jī)與錄音烤惊,去河邊找鬼。 笑死吁朦,一個(gè)胖子當(dāng)著我的面吹牛柒室,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播逗宜,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼雄右,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了纺讲?” 一聲冷哼從身側(cè)響起擂仍,我...
    開(kāi)封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎熬甚,沒(méi)想到半個(gè)月后逢渔,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡乡括,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年肃廓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片诲泌。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡盲赊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出档礁,到底是詐尸還是另有隱情角钩,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站递礼,受9級(jí)特大地震影響惨险,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜脊髓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一辫愉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧将硝,春花似錦恭朗、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至律罢,卻和暖如春膀值,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背误辑。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工沧踏, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人巾钉。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓翘狱,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親砰苍。 傳聞我的和親對(duì)象是個(gè)殘疾皇子潦匈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容