蛋白質(zhì)組學數(shù)據(jù)的歸一化/標準化處理

1.前言

  • 目的:
    調(diào)整由于技術(shù)冀偶,如處理、上樣渔嚷、預分进鸠、儀器等造成的樣本間誤差。這實際上是一種數(shù)據(jù)縮放的方法形病。一般在一個表達矩陣中客年,會涉及到多個樣本,其表達量差異比較大漠吻,不能直接進行比較量瓜。比如某個樣本表達量很大,在總體中就會占據(jù)絕對領導地位途乃,這樣就會掩蓋掉表達量小的樣本的作用绍傲,但并不代表它不重要,也有可能是這個樣本含有較多的低表達基因耍共,所以需要指定一個統(tǒng)一的標準烫饼,提前對樣本原始表達量進行一定的處理。

  • 起源:
    處理方法借鑒基因表達數(shù)據(jù)试读,如RNAseq和芯片數(shù)據(jù)杠纵。在RNAseq數(shù)據(jù)中,通常需要消除基因長度钩骇、測序量等因素產(chǎn)生的誤差比藻。轉(zhuǎn)錄組和芯片數(shù)據(jù)處理相對比較成熟,有現(xiàn)成的方法和工具可用倘屹,如RPM/CPM银亲、TPM、RPKM等等唐瀑。當然蛋白質(zhì)組數(shù)據(jù)的標準化也有其獨特的地方,如它主要通過是峰面積來定量的插爹,需要對不同run之間的峰面積進行標準化哄辣,這在大部分搜庫軟件中都有處理请梢。

  • 歸一化與標準化的區(qū)別:
    歸一化是特殊的標準化,在生信領域不嚴格區(qū)分力穗。歸一化Normalization一般是把數(shù)據(jù)縮放到一定范圍毅弧,如[0,1], 受離群點影響大当窗;標準化Standardization一般把數(shù)據(jù)縮放成均值為0够坐,方差為1的狀態(tài),即重新創(chuàng)建一個新的數(shù)據(jù)分布崖面,受離群點影響小元咙,但變換后的數(shù)據(jù)邊界不確定。

  • 特點:
    消除了量綱(單位)的影響巫员,真正突出數(shù)據(jù)的差別庶香,有點絕對值變?yōu)橄鄬χ档母杏X。
    對指標進行了統(tǒng)一简识,解決數(shù)據(jù)性質(zhì)不同的問題赶掖。
    標準化后的數(shù)據(jù)收斂速度更快,計算時間會短很多七扰。

數(shù)據(jù)縮放scaling(標準化奢赂、歸一化)的那些事
表達矩陣的歸一化和標準化,去除極端值颈走,異常值
基因芯片數(shù)據(jù)分析(一)--芯片數(shù)據(jù)預處理

2.主要方法及代碼實現(xiàn)

蛋白質(zhì)組中標準化的工具較少膳灶,一般是自己編寫代碼。一般用apply結(jié)合sweep函數(shù)來實現(xiàn)疫鹊。

一個表達矩陣袖瞻,通常行為蛋白,列為不同樣本拆吆,我們可以標準化行聋迎,也可標準化列,具體問題具體分析枣耀,關(guān)鍵在于要解釋什么問題霉晕。比如我們要盡可能減弱系統(tǒng)偏差對樣本蛋白定量值的影響,使各個樣本和平行實驗的數(shù)據(jù)處于相同的水平捞奕,讓下游分析更為準確可靠牺堰,我們需要對列進行歸一化。類似于我們做WB或QPCR實驗時颅围,會選擇內(nèi)參校正多個樣本的定量值伟葫。添加內(nèi)參或QC的方法在代謝組學的標準化中常用。


image.png

前四種方法通過將每個蛋白原始定量值除以對應樣本的某指定值(如平均值院促、中位數(shù)筏养、最大值和總和等)實現(xiàn)校正斧抱,每個樣本的指定值在校正后變?yōu)?;后三種方法通過一定標準對原始數(shù)據(jù)進行縮放實現(xiàn)校正渐溶。

  • 中位數(shù)/均值/總和標準化
sweep(data,2,apply(data,2,median,na.rm=T),FUN="/") #中位數(shù)不受數(shù)列的極大值或極小值影響辉浦。
sweep(data,2,apply(data,2,mean,na.rm=T),FUN=“/”)
sweep(data,2,apply(data,2,sum,na.rm=T),FUN="/")
  • 中心化變換
    將每一個數(shù)據(jù)減去對應列的均值,數(shù)據(jù)變換后茎辐,均值為0宪郊,方差不變。中心化以后拖陆,由于數(shù)據(jù)的均值變成0弛槐,可以消除量綱、數(shù)據(jù)自身差異所帶來的影響(此處是做減法而不是除法慕蔚,所以變量的單位還是保留的)丐黄,而且對線性回歸以及模型預測方面也有好處。
sweep(data,2,apply(data,2,mean,na,rm=T),FUN="-")

或者直接用scale函數(shù):

scale(data,center=T,scale=F) #center中心化孔飒,scale標準化
  • 極差標準化
    將每一個數(shù)據(jù)減去對應列的均值灌闺,然后除以對應列最大值與最小值之間的差值。
datacenter <- sweep(data_read,2,apply(data_read,2,mean,na.rm=T),FUN="-")
daraR <- apply(data_read,2,max,na.rm=T) - apply(data_read,2,min,na.rm=T)
sweep(datacenter,2,dataR,FUN="/")
  • 正態(tài)標準化
    將每一個數(shù)據(jù)減去對應列的均值坏瞄,然后除以對應列的標準差桂对,稱之z-score(標準差標準化),其實就是scale函數(shù)中的scale參數(shù)鸠匀。
scale(data,center=T,scale=T)

中位數(shù)蕉斜、均值、中心化之類的標準化方法是將數(shù)據(jù)按照一定的比例進行縮小缀棍,但是縮小的范圍是不確定的宅此;而總和標準化、極差標準化爬范、正態(tài)標準化之類的標準化方法可以將原始數(shù)據(jù)縮小到一個很有限的范圍(比如縮小到[0,1]范圍以內(nèi))父腕,比如有些機器學習方法,是要求對數(shù)據(jù)做正態(tài)標準化的青瀑,這種標準化的數(shù)據(jù)可以保證后續(xù)的運算速度更快璧亮。

如果要對行進行標準化,要求數(shù)據(jù)盡量在同一個尺度(scale)下進行比較斥难,比如做層次聚類熱圖枝嘶,建議將行的數(shù)據(jù)也進行標準化,這樣每一行的數(shù)據(jù)就會控制在同一個尺度之下哑诊,顏色的深淺能更好地表現(xiàn)出數(shù)據(jù)的變化趨勢群扶。

http://www.360doc.com/content/19/0628/17/52645714_845432507.shtml

3.標準化方法評估

有一些類似的文章發(fā)表,簡單看了下。
以下一篇是綜述竞阐,描述了整個蛋白鑒定過程中(包括實驗部分)有可能遇到的標準化處理的過程提茁。
What is Normalization? The Strategies Employed inTop-Down and Bottom-Up Proteome Analysis Workflows

下面一篇文章綜合比較了11種不同歸一化的性能:

image.png

variance stabilization normalization(VSN)方法能降低的技術(shù)重復間差異最大。Linear regression normalization and local regression normalization的總體效果也不錯馁菜。
A systematic evaluation of normalization methods in quantitative label-free proteomics

4.MaxQuant中的Intensity,LFQ和iBAQ

大佬的軟件铃岔,三種定量算法都發(fā)了文章汪疮。

  • Intensity是將某Protein Groups里面的所有Unique和Razor peptides的信號強度加起來,作為一個原始強度值毁习。用得很少智嚷。
  • iBAQ是在Intenstiy的基礎上,將原始強度值除以本蛋白的理論肽段數(shù)目纺且。一般用于樣本內(nèi)不同蛋白的比較盏道,因為它表征的是蛋白的摩爾比值(copy number)。也可用于不同樣本比較载碌,即通過歸一化手工校準樣本間誤差:蛋白IBAQ值除以此樣品所有蛋白的強度的和猜嘱,計算比例(這也是組學中“等質(zhì)量上樣”和“等體積上樣”的核心區(qū)別,等質(zhì)量上樣來看的是比例嫁艇,但是計算比例是有壓縮效應的)朗伶。用得較少。
  • LFQ則是將原始強度值在樣本之間進行校正步咪,以消除處理论皆、上樣、預分猾漫、儀器等造成的樣本間誤差点晴。一般用于同一蛋白不同樣本間的比較。不過我們拿到數(shù)據(jù)后悯周,我們還是會過濾粒督、填充、轉(zhuǎn)換队橙、標準化一條龍走一遍坠陈。用得最多。

蛋白組學定量值的比較說明

5.資源列表

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末捐康,一起剝皮案震驚了整個濱河市仇矾,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌解总,老刑警劉巖贮匕,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異花枫,居然都是意外死亡刻盐,警方通過查閱死者的電腦和手機掏膏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來敦锌,“玉大人馒疹,你說我怎么就攤上這事∫仪剑” “怎么了颖变?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長听想。 經(jīng)常有香客問我腥刹,道長,這世上最難降的妖魔是什么汉买? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任衔峰,我火速辦了婚禮,結(jié)果婚禮上蛙粘,老公的妹妹穿的比我還像新娘垫卤。我一直安慰自己,他們只是感情好出牧,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布葫男。 她就那樣靜靜地躺著,像睡著了一般崔列。 火紅的嫁衣襯著肌膚如雪梢褐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天赵讯,我揣著相機與錄音盈咳,去河邊找鬼。 笑死边翼,一個胖子當著我的面吹牛鱼响,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播组底,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼丈积,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了债鸡?” 一聲冷哼從身側(cè)響起江滨,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎厌均,沒想到半個月后唬滑,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年晶密,在試婚紗的時候發(fā)現(xiàn)自己被綠了擒悬。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡稻艰,死狀恐怖懂牧,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情尊勿,我是刑警寧澤归苍,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站运怖,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏夏伊。R本人自食惡果不足惜摇展,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望溺忧。 院中可真熱鬧咏连,春花似錦、人聲如沸鲁森。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽歌溉。三九已至垄懂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間痛垛,已是汗流浹背草慧。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留匙头,地道東北人漫谷。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像蹂析,于是被迫代替她去往敵國和親舔示。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345