【代謝組學(xué)】3.數(shù)據(jù)分析

非靶向代謝組實(shí)驗設(shè)計

1.代謝物提取,一般要求每組至少10個樣;
2.在所有提取好的樣本中取等量混合作為QC滥嘴;
3.QC樣本與實(shí)驗樣本穿插上機(jī),開始十個QC至耻,結(jié)尾三個QC若皱,中間每十個樣本穿插一個QC樣本

得到質(zhì)譜譜圖數(shù)據(jù)經(jīng)軟件處理后得到峰表尘颓。
峰表格式一般為:每行為一個m/z走触,每列為一個樣本
數(shù)值表示該樣本中某個m/z的信號響應(yīng)。


image.png

第一列為保留時間_質(zhì)荷比來代表離子疤苹,如0.10_96.9574m/z互广。

數(shù)據(jù)分析流程

一般有如下幾點(diǎn):
1.數(shù)據(jù)預(yù)處理。如缺失值過濾填充卧土、數(shù)據(jù)歸一化等惫皱。
2.數(shù)據(jù)質(zhì)控。包括CV分布尤莺、QC等旅敷。
3.統(tǒng)計分析。包括單變量颤霎、多變量等媳谁。
4.功能分析。包括Pathway友酱、網(wǎng)絡(luò)分析晴音、Biomarker篩選等。

1.數(shù)據(jù)預(yù)處理

缺失值處理
1)缺失原因
a. 信號很低檢測不到缔杉;
b. 檢測錯誤段多,如離子抑制或者儀器性能不穩(wěn)定;
c. 提峰的算法限制壮吩,不能從背景中將低的信號提取出來进苍;
d. 解卷積時不能將重疊的峰全部解析出來加缘。

2)缺失值過濾
比如:
QC樣本中缺失超過50%的去除;
樣本中缺失值超過80%的去除觉啊。


3)缺失值填充
-- 最小值填充
-- 平均值/中值填充
-- KNN( k-nearest neighbour)填充
-- BPCA(Bayesian PCA)填充
-- PPCA(probabilistic PCA)填充
-- Singular Value Decomposition (SVD)
一般推薦KNN拣宏。

噪音信號去除
一般是低質(zhì)量的離子。
1)低質(zhì)量離子的確定:
計算某個離子在QC樣本中的RSD(標(biāo)準(zhǔn)差/均值)杠人;其值越小勋乾,說明偏差越小嗡善;

2)判斷標(biāo)準(zhǔn):
-- 對單個離子峰而言辑莫,RSD<0.3,則該離子峰合格罩引,否則去除各吨;
-- 對于整體數(shù)據(jù)而言,RSD<0.3袁铐,峰所占比例>60%揭蜒,則整體數(shù)據(jù)合格;

樣本歸一化
目的是為了提高樣本間的可比性剔桨。
樣本間有差異性屉更,如不同人的尿液濃度不同,不能直接拿來比較洒缀。

可在采集前歸一化瑰谜,如肌酸酐歸一化;也可在采集后歸一化树绩,如sum萨脑,pqn,quantile等葱峡。對于數(shù)據(jù)分析而言砚哗,通常是后者,如總和歸一化(sum)砰奕。

數(shù)據(jù)轉(zhuǎn)換
下游的分析一般要求數(shù)據(jù)為正態(tài)分布或者高斯分布蛛芥;
所以數(shù)據(jù)通常要進(jìn)行Log轉(zhuǎn)化或power轉(zhuǎn)化,這兩者都能夠?qū)O大值的抑制效應(yīng)消除军援,并且能夠調(diào)整數(shù)據(jù)的分布仅淑,如下圖;

image.png

Log轉(zhuǎn)化對0值比較敏感胸哥,必須首先去除零值涯竟。

數(shù)據(jù)轉(zhuǎn)換——scaling
目的是消除極大值效應(yīng)。
對不同樣本中同一個m/z的強(qiáng)度差異過大進(jìn)行調(diào)整,極大值的存在往往會掩蓋較低值的變化特征庐船。

可將某個m/z在所有樣本中的強(qiáng)度的值银酬,除以一個因子(SD值);
方法如auto (uv)筐钟,pareto(推薦)揩瞪,vast, range等篓冲。

相當(dāng)于上面樣本歸一化是為了樣本可比李破,scaling是為了離子可比。

2.數(shù)據(jù)質(zhì)控

QC樣本的TIC重疊情況

image.png

上圖分別是陰離子和陽離子模式下QC樣本的TIC重疊情況壹将。

一般認(rèn)為:
所有的QC樣本峰重疊良好嗤攻;
峰強(qiáng)度波動差別不大;

QC樣本中CV<30%的峰所占比例

image.png

PCA中QC樣本的聚集程度

image.png

QC樣本的相關(guān)性

image.png

上圖分別為歸一化前和歸一化后的數(shù)據(jù)诽俯。

3.統(tǒng)計分析

單變量分析
一次只分析一個變量妇菱,即一個m/z,考察不同組別不同樣本的這個m/z表達(dá)有無差異惊畏?
常見的方法有倍數(shù)分析恶耽,t檢驗密任,秩和檢驗颜启,方差分析等。

聚類分析
核心思想就是根據(jù)具體的指標(biāo)(變量)對所研究的樣品進(jìn)行分類浪讳;
聚類分析需要設(shè)定一個方法來衡量樣本間的相似性或者不相似性(常用歐式距離缰盏,相關(guān)性系數(shù)等);
常見聚類的方法:系統(tǒng)聚類(層次聚類)淹遵、K-均值聚類等口猜。

K-均值首先要估計出將要分出幾個類,然后將全部的基因按照相似性的距離透揣,歸入這幾類中济炎。
K– means計算量要小得多,效率比層次聚類要高辐真。

無論哪種分類方法须尚,最終要分成多少類灶芝,并不是完全由方法本身來決定生兆,研究者應(yīng)結(jié)合具體問題而定呼盆。
聚類分析是一種探索性的數(shù)據(jù)分析方法恃慧。相同的數(shù)據(jù)采用不同的分類方法涣澡,也會的得到不同的分類結(jié)果污尉。分類的結(jié)果沒有對錯之分坟乾,只是分類標(biāo)準(zhǔn)不同啃沪。
使用聚類方法時,首先要明確分類的目的堪嫂,再考慮選擇哪些變量(或數(shù)據(jù))參與分類偎箫,最后才需要考慮方法的選擇。

多變量分析
1)PCA分析
以下分別是得分圖(樣本在新的坐標(biāo)系中的位置
)和載荷圖(loading圖皆串,原變量與主成分間的夾角)

image.png

PCA怎么看镜廉?

  • 組內(nèi)差異
  • 組間差異
  • 異常樣本
  • PC1與PC2得分

2)偏最小二乘法
PLSDA的圖和PCA類似。只是一種監(jiān)督學(xué)習(xí)的方法愚战,事先給樣本分類娇唯,最后看能否將不同組分開。

用R2和Q2進(jìn)行模型評價寂玲。
R2是相關(guān)性系數(shù)塔插,表示這個模型的擬合效果,是一個定量的測量(范圍0-1)拓哟,意味著所建立的模型能在多大程度上代表真實(shí)的數(shù)據(jù)想许;
一般當(dāng)R2在0.7-0.8表示模型解釋能力較好,較差的模型的R2往往為0.2-0.3

Q2表示PLS-DA模型的預(yù)測能力断序;
一般Q2大于0.5表示預(yù)測能力較好流纹,并且R2與Q2的值應(yīng)該比較接近。

使用permutation test模型進(jìn)行過擬合檢驗违诗。

VIP ( Variable Importance in Projection)變量重要性投影
每一個m/z都有VIP值漱凝,表示這個m/z在某一個主成分上的投影,即重要程度诸迟;
一般我們使用第一茸炒、第二主成分的VIP來表示這個m/z對模型分型的貢獻(xiàn)程度,VIP>=1被認(rèn)為是具有顯著貢獻(xiàn)的阵苇。

代謝組學(xué)數(shù)據(jù)分析最后兩部分內(nèi)容——功能分析和生物標(biāo)志物篩選見下節(jié)內(nèi)容

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末壁公,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子绅项,更是在濱河造成了極大的恐慌紊册,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件快耿,死亡現(xiàn)場離奇詭異囊陡,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)润努,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門关斜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人铺浇,你說我怎么就攤上這事痢畜。” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵丁稀,是天一觀的道長吼拥。 經(jīng)常有香客問我,道長线衫,這世上最難降的妖魔是什么凿可? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮授账,結(jié)果婚禮上枯跑,老公的妹妹穿的比我還像新娘。我一直安慰自己白热,他們只是感情好敛助,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著屋确,像睡著了一般纳击。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上攻臀,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天焕数,我揣著相機(jī)與錄音,去河邊找鬼刨啸。 笑死堡赔,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的呜投。 我是一名探鬼主播加匈,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼存璃,長吁一口氣:“原來是場噩夢啊……” “哼仑荐!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起纵东,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤粘招,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后偎球,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體洒扎,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年衰絮,在試婚紗的時候發(fā)現(xiàn)自己被綠了袍冷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡猫牡,死狀恐怖胡诗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤煌恢,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布骇陈,位于F島的核電站,受9級特大地震影響瑰抵,放射性物質(zhì)發(fā)生泄漏你雌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一二汛、第九天 我趴在偏房一處隱蔽的房頂上張望婿崭。 院中可真熱鬧,春花似錦肴颊、人聲如沸逛球。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽颤绕。三九已至,卻和暖如春祟身,著一層夾襖步出監(jiān)牢的瞬間奥务,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工袜硫, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留氯葬,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓婉陷,卻偏偏與公主長得像帚称,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子秽澳,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容