蛋白質(zhì)組學(xué)分析實(shí)踐(一)
文章標(biāo)題:The Primary Effect on the Proteome of ARID1A-mutated Ovarian Clear Cell Carcinoma is Downregulation of the Mevalonate Pathway at the Post-transcriptional Level
期刊:Molecular & cellular proteomics
年份 : 2016
DOI: 10.1074/mcp.M116.062539.
數(shù)據(jù)來源:http://proteomecentral.proteomexchange.org刚盈, ID: PXD004570.
說明:本文是學(xué)習(xí)了生信技能樹公眾號(hào)蛋白質(zhì)組學(xué)相關(guān)推文學(xué)習(xí)整理的唤崭。
MaxQuant搜庫
MaxQuant搜庫的部分主要是電腦在跑程序柒竞,設(shè)置幾個(gè)參數(shù),注意experiment中的設(shè)置,應(yīng)該為每一個(gè)重復(fù)試驗(yàn)文件為一個(gè)名字戚扳,相互之間各不相同蝌箍,才能得到6個(gè)LFQ值進(jìn)行統(tǒng)計(jì)分析。(第一次搜庫就是沒有設(shè)置這個(gè)牺汤,導(dǎo)致只有一個(gè)LFQ的值)辽旋。
順便說一下,MaxQuant搜庫檐迟,OVCA429細(xì)胞敲除ARID1A和對(duì)照的這六個(gè)樣本數(shù)據(jù)补胚,電腦配置很菜:銳龍2600+8G DDR5 3000,跑了一天的時(shí)間才結(jié)束(設(shè)置的使用核心數(shù)是6個(gè)追迟,電腦卡的幾乎不能做其他事情)溶其。
后面的分析直接使用了搜庫結(jié)果的txt數(shù)據(jù)。
Perseus部分
導(dǎo)入數(shù)據(jù)
導(dǎo)入combined文件夾 --> txt文件夾 --> ProteinGroups.txt敦间,選擇LFQ intensity [分組]的6列數(shù)據(jù)為Main數(shù)據(jù)瓶逃,其他的基本自動(dòng)填充的。
數(shù)據(jù)篩選質(zhì)控
Filter rows --> Filter rows based ong category column廓块,里面有3項(xiàng)厢绝,分3次除去之后,得到5681個(gè)蛋白質(zhì)带猴;然后剔除只匹配到一個(gè)肽段的蛋白(single peptide hits)昔汉,這里使用的是Filter rows --> Filter rows based ong numeric/main column,選擇Razer + unique peptides拴清,Relation 1 寫入x>1靶病, OK会通。
得到4973行,也就是4973個(gè)蛋白質(zhì)娄周,與文章中的描述一致渴语。
聚類分析
文章結(jié)果的第二節(jié)(Label-free Comparisons Between ARID1A Knockout and Control Proteomes),就講到使用的是LFQ來計(jì)算ARID1A敲除蛋白組和對(duì)照蛋白組中蛋白質(zhì)組的相對(duì)豐度昆咽。
歸一化和缺失值的處理
首先驾凶,點(diǎn)擊Annot.Row,將樣本分為兩組掷酗,然后再進(jìn)行數(shù)據(jù)轉(zhuǎn)化操作调违。
然后點(diǎn)擊Basci --> transform,轉(zhuǎn)換為log2的數(shù)據(jù)泻轰。這里會(huì)引入一些空值(NaN)技肩,因?yàn)閿?shù)據(jù)本身有很多0,也就是沒有匹配到蛋白信息浮声。這些可能跟轉(zhuǎn)錄組有些差異虚婿,不能直接log(2+1),因?yàn)檫@樣會(huì)導(dǎo)致數(shù)據(jù)偏差太大泳挥。文中的描述是:缺失值被假定為偏向于低于質(zhì)譜檢測限的低豐度蛋白質(zhì)然痊,稱為:“missing not at random";(這是蛋白質(zhì)組學(xué)研究中經(jīng)常作出的假定); 缺失值被替換為中位數(shù)下移高斯分布中的隨機(jī)值,以模擬低豐度LFQ值屉符;每個(gè)樣本分別從寬度為0.3,downshift為1.8的分布中進(jìn)行估算剧浸。第二步,進(jìn)行缺失值的處理矗钟,在imputation --> Replace missing values from normal distribution唆香,默認(rèn)參數(shù),確定吨艇。
第三步躬它,normalization,選擇normalization --> Z-score东涡,確定冯吓。2.3 聚類分析選擇歸一化后的數(shù)據(jù),點(diǎn)擊clustering圖標(biāo)软啼,稍經(jīng)調(diào)整桑谍,就可以得到文章中類似的圖了
可以看到延柠,趨勢(shì)基本上是一致的祸挪。
差異分析-火山圖
火山圖選擇log2后填充缺失值的數(shù)據(jù),然后點(diǎn)擊火山圖的圖標(biāo)贞间。使用的是雙側(cè)t檢驗(yàn)贿条,F(xiàn)DR在這里為T檢驗(yàn)的p值雹仿,而S0是方差,當(dāng)S0設(shè)置為0時(shí)表示僅p值起作用整以。number of randomization不知道是什么意思胧辽。結(jié)果如圖:
目前只能達(dá)到這個(gè)效果,不知道設(shè)置公黑。t檢驗(yàn)顯著的蛋白有2896個(gè)(奇怪的是每次計(jì)算都有所差異邑商,是隨機(jī)化的問題嗎?)【用R做t.test的差異蛋白是2613凡蚜,這其中的差別在哪里人断?】,然后計(jì)算|log2FC| > 1的有422個(gè)朝蜘。文獻(xiàn)講到的是430和2606個(gè)恶迈,有些差別。在圖的調(diào)整上谱醇,自由度也是非常有限暇仲。所以,如果要畫火山圖副渴,還是將數(shù)據(jù)導(dǎo)出來奈附,在R中繪制比較好。
通過R來繪制火山圖:
原文的圖:
是相差不多的煮剧∥荩火山圖的代碼:
draw_volcano_plot <- function(need_DEG,logFC_cutoff){
if(! logFC_cutoff){
logFC_cutoff <- with(need_DEG,mean(abs(log2FoldChange)) + 2*sd(abs( log2FoldChange)) )
}
#logFC_cutoff=1
need_DEG$change = as.factor(ifelse(need_DEG$Pvalue < 0.05 & abs(need_DEG$log2FoldChange) > logFC_cutoff,
ifelse(need_DEG$log2FoldChange > logFC_cutoff ,'UP','DOWN'),'NOT')
)
library(ggplot2)
g = ggplot(data=need_DEG,
aes(x=log2FoldChange, y=-log10(Pvalue))) +
geom_point(aes(color=change)) +
xlab("log2 fold-change") + ylab("-log(p-value)") +
scale_x_continuous(limits = c(-10, 10))+
scale_y_continuous(limits = c(0, 8))+
scale_colour_manual(values = c("#00AAAA",'darkgray','#00AAAA')) + ## corresponding to the levels(res$change)
geom_hline(yintercept = -log10(0.05), linetype =2,size = 1, color = 'red')+
geom_vline(xintercept = logFC_cutoff, linetype =2,size = 1, color = 'red')+
geom_vline(xintercept = -logFC_cutoff, linetype =2, size =1,color = 'red')+
geom_text(aes(x = -6,y = 7),label = "179 Proteins\n downregulated", color = "black", size = 4)+
geom_text(aes(x = 6,y = 7),label = "91 Proteins\n upregulated",color = "black", size = 4)+
theme_prism(border = TRUE) +
coord_cartesian(clip = "off")
print(g)
}
draw_volcano_plot(dat, 1)
原文的上調(diào)蛋白是95,下調(diào)169轿秧。本次分析上調(diào)91中跌,下調(diào)179」酱郏【可能有存在差異的地方】但是漩符,后面的倍數(shù)變化的表格,也是對(duì)得上的驱还。
如果數(shù)據(jù)分析僅僅是這樣的話嗜暴,完全可以通過R來操作,歸一化议蟆,缺失值的處理闷沥,剔除不符合條件的列,這些都可以通過R來分析咐容。熱圖也沒有問題舆逃。可能Perseus還有一些其他重要的內(nèi)容吧,有時(shí)間把B站的視頻學(xué)一遍路狮。
- Bio Zhong
- 本人博客:www.clockstudy.com