1.前言
目的:
調(diào)整由于技術(shù)冀偶,如處理、上樣渔嚷、預分进鸠、儀器等造成的樣本間誤差。這實際上是一種數(shù)據(jù)縮放的方法形病。一般在一個表達矩陣中客年,會涉及到多個樣本,其表達量差異比較大漠吻,不能直接進行比較量瓜。比如某個樣本表達量很大,在總體中就會占據(jù)絕對領導地位途乃,這樣就會掩蓋掉表達量小的樣本的作用绍傲,但并不代表它不重要,也有可能是這個樣本含有較多的低表達基因耍共,所以需要指定一個統(tǒng)一的標準烫饼,提前對樣本原始表達量進行一定的處理。起源:
處理方法借鑒基因表達數(shù)據(jù)试读,如RNAseq和芯片數(shù)據(jù)杠纵。在RNAseq數(shù)據(jù)中,通常需要消除基因長度钩骇、測序量等因素產(chǎn)生的誤差比藻。轉(zhuǎn)錄組和芯片數(shù)據(jù)處理相對比較成熟,有現(xiàn)成的方法和工具可用倘屹,如RPM/CPM银亲、TPM、RPKM等等唐瀑。當然蛋白質(zhì)組數(shù)據(jù)的標準化也有其獨特的地方,如它主要通過是峰面積來定量的插爹,需要對不同run之間的峰面積進行標準化哄辣,這在大部分搜庫軟件中都有處理请梢。歸一化與標準化的區(qū)別:
歸一化是特殊的標準化,在生信領域不嚴格區(qū)分力穗。歸一化Normalization一般是把數(shù)據(jù)縮放到一定范圍毅弧,如[0,1], 受離群點影響大当窗;標準化Standardization一般把數(shù)據(jù)縮放成均值為0够坐,方差為1的狀態(tài),即重新創(chuàng)建一個新的數(shù)據(jù)分布崖面,受離群點影響小元咙,但變換后的數(shù)據(jù)邊界不確定。特點:
消除了量綱(單位)的影響巫员,真正突出數(shù)據(jù)的差別庶香,有點絕對值變?yōu)橄鄬χ档母杏X。
對指標進行了統(tǒng)一简识,解決數(shù)據(jù)性質(zhì)不同的問題赶掖。
標準化后的數(shù)據(jù)收斂速度更快,計算時間會短很多七扰。
數(shù)據(jù)縮放scaling(標準化奢赂、歸一化)的那些事
表達矩陣的歸一化和標準化,去除極端值颈走,異常值
基因芯片數(shù)據(jù)分析(一)--芯片數(shù)據(jù)預處理
2.主要方法及代碼實現(xiàn)
蛋白質(zhì)組中標準化的工具較少膳灶,一般是自己編寫代碼。一般用apply結(jié)合sweep函數(shù)來實現(xiàn)疫鹊。
一個表達矩陣袖瞻,通常行為蛋白,列為不同樣本拆吆,我們可以標準化行聋迎,也可標準化列,具體問題具體分析枣耀,關(guān)鍵在于要解釋什么問題霉晕。比如我們要盡可能減弱系統(tǒng)偏差對樣本蛋白定量值的影響,使各個樣本和平行實驗的數(shù)據(jù)處于相同的水平捞奕,讓下游分析更為準確可靠牺堰,我們需要對列進行歸一化。類似于我們做WB或QPCR實驗時颅围,會選擇內(nèi)參校正多個樣本的定量值伟葫。添加內(nèi)參或QC的方法在代謝組學的標準化中常用。
前四種方法通過將每個蛋白原始定量值除以對應樣本的某指定值(如平均值院促、中位數(shù)筏养、最大值和總和等)實現(xiàn)校正斧抱,每個樣本的指定值在校正后變?yōu)?;后三種方法通過一定標準對原始數(shù)據(jù)進行縮放實現(xiàn)校正渐溶。
- 中位數(shù)/均值/總和標準化
sweep(data,2,apply(data,2,median,na.rm=T),FUN="/") #中位數(shù)不受數(shù)列的極大值或極小值影響辉浦。
sweep(data,2,apply(data,2,mean,na.rm=T),FUN=“/”)
sweep(data,2,apply(data,2,sum,na.rm=T),FUN="/")
- 中心化變換
將每一個數(shù)據(jù)減去對應列的均值,數(shù)據(jù)變換后茎辐,均值為0宪郊,方差不變。中心化以后拖陆,由于數(shù)據(jù)的均值變成0弛槐,可以消除量綱、數(shù)據(jù)自身差異所帶來的影響(此處是做減法而不是除法慕蔚,所以變量的單位還是保留的)丐黄,而且對線性回歸以及模型預測方面也有好處。
sweep(data,2,apply(data,2,mean,na,rm=T),FUN="-")
或者直接用scale函數(shù):
scale(data,center=T,scale=F) #center中心化孔飒,scale標準化
- 極差標準化
將每一個數(shù)據(jù)減去對應列的均值灌闺,然后除以對應列最大值與最小值之間的差值。
datacenter <- sweep(data_read,2,apply(data_read,2,mean,na.rm=T),FUN="-")
daraR <- apply(data_read,2,max,na.rm=T) - apply(data_read,2,min,na.rm=T)
sweep(datacenter,2,dataR,FUN="/")
- 正態(tài)標準化
將每一個數(shù)據(jù)減去對應列的均值坏瞄,然后除以對應列的標準差桂对,稱之z-score(標準差標準化),其實就是scale函數(shù)中的scale參數(shù)鸠匀。
scale(data,center=T,scale=T)
中位數(shù)蕉斜、均值、中心化之類的標準化方法是將數(shù)據(jù)按照一定的比例進行縮小缀棍,但是縮小的范圍是不確定的宅此;而總和標準化、極差標準化爬范、正態(tài)標準化之類的標準化方法可以將原始數(shù)據(jù)縮小到一個很有限的范圍(比如縮小到[0,1]范圍以內(nèi))父腕,比如有些機器學習方法,是要求對數(shù)據(jù)做正態(tài)標準化的青瀑,這種標準化的數(shù)據(jù)可以保證后續(xù)的運算速度更快璧亮。
如果要對行進行標準化,要求數(shù)據(jù)盡量在同一個尺度(scale)下進行比較斥难,比如做層次聚類熱圖枝嘶,建議將行的數(shù)據(jù)也進行標準化,這樣每一行的數(shù)據(jù)就會控制在同一個尺度之下哑诊,顏色的深淺能更好地表現(xiàn)出數(shù)據(jù)的變化趨勢群扶。
http://www.360doc.com/content/19/0628/17/52645714_845432507.shtml
3.標準化方法評估
有一些類似的文章發(fā)表,簡單看了下。
以下一篇是綜述竞阐,描述了整個蛋白鑒定過程中(包括實驗部分)有可能遇到的標準化處理的過程提茁。
What is Normalization? The Strategies Employed inTop-Down and Bottom-Up Proteome Analysis Workflows
下面一篇文章綜合比較了11種不同歸一化的性能:
variance stabilization normalization(VSN)方法能降低的技術(shù)重復間差異最大。Linear regression normalization and local regression normalization的總體效果也不錯馁菜。
A systematic evaluation of normalization methods in quantitative label-free proteomics
4.MaxQuant中的Intensity,LFQ和iBAQ
大佬的軟件铃岔,三種定量算法都發(fā)了文章汪疮。
- Intensity是將某Protein Groups里面的所有Unique和Razor peptides的信號強度加起來,作為一個原始強度值毁习。用得很少智嚷。
- iBAQ是在Intenstiy的基礎上,將原始強度值除以本蛋白的理論肽段數(shù)目纺且。一般用于樣本內(nèi)不同蛋白的比較盏道,因為它表征的是蛋白的摩爾比值(copy number)。也可用于不同樣本比較载碌,即通過歸一化手工校準樣本間誤差:蛋白IBAQ值除以此樣品所有蛋白的強度的和猜嘱,計算比例(這也是組學中“等質(zhì)量上樣”和“等體積上樣”的核心區(qū)別,等質(zhì)量上樣來看的是比例嫁艇,但是計算比例是有壓縮效應的)朗伶。用得較少。
- LFQ則是將原始強度值在樣本之間進行校正步咪,以消除處理论皆、上樣、預分猾漫、儀器等造成的樣本間誤差点晴。一般用于同一蛋白不同樣本間的比較。不過我們拿到數(shù)據(jù)后悯周,我們還是會過濾粒督、填充、轉(zhuǎn)換队橙、標準化一條龍走一遍坠陈。用得最多。