蛋白質(zhì)組學(xué)數(shù)據(jù)的缺失值填充

缺失值填充在數(shù)據(jù)分析領(lǐng)域的預(yù)處理過程繞不過去的一個(gè)坎氮发,蛋白質(zhì)組學(xué)也不例外,簡單記錄下幽七,可能有些地方有其特殊之處。

  • 分析缺失值來源:完全隨機(jī)缺失(MCAR溅呢,如質(zhì)譜儀抖動(dòng)澡屡,對(duì)數(shù)據(jù)影響無偏好性,均一分布)咐旧,隨機(jī)缺失(MAR驶鹉,依賴于其他觀測變量,如時(shí)間梯度越長采集越可能出現(xiàn)缺失值)铣墨,非隨機(jī)缺失(MNAR室埋,依賴觀測變量自身,如某些蛋白含量在儀器檢測限以下)伊约。一般我們默認(rèn)缺失值屬于MCAR或MAR機(jī)制類姚淆。

  • 缺失值在蛋白質(zhì)組數(shù)據(jù)中的表現(xiàn)形式:0,NA屡律,NaN腌逢,F(xiàn)iltered等。

  • 如果數(shù)據(jù)量多超埋,缺失值比例少搏讶,認(rèn)為刪除所有缺失值對(duì)結(jié)果不會(huì)有影響,則可簡單刪掉霍殴。但數(shù)據(jù)中缺失值比例比較大時(shí)(如大于30%)窍蓝,不建議直接刪除。

  • DDA labelfree一般較多繁成,10%-50% 的缺失值。過濾標(biāo)準(zhǔn)不定淑玫,如一個(gè)蛋白中三個(gè)重復(fù)巾腕,2個(gè)有值面睛,建議保留,1個(gè)有值尊搬,嚴(yán)格一點(diǎn)考慮過濾掉叁鉴。

  • 不建議用均值、中位值或最小值來進(jìn)行填充佛寿。

  • 常用方法:KNN幌墓,Sequential KNN,MI冀泻,RandomForest等常侣,所有方法都是基于現(xiàn)有的數(shù)據(jù)來進(jìn)行填充的。

  • KNN(K近鄰):常用于分類的監(jiān)督學(xué)習(xí)方法弹渔,首先計(jì)算測試數(shù)據(jù)與各個(gè)訓(xùn)練數(shù)據(jù)之間的距離胳施;然后按照距離遞增關(guān)系進(jìn)行排序;選取距離最小的K個(gè)點(diǎn)肢专;確定前K個(gè)點(diǎn)所在類別的出現(xiàn)頻率舞肆;最后返回前K個(gè)點(diǎn)中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類。
    缺失值填充過程:先計(jì)算目標(biāo)對(duì)象(含缺失值的肽段或蛋白)與其他對(duì)象之間的距離(一般默認(rèn)為歐氏距離博杖,其他對(duì)象是無缺失值的)椿胯,再選擇K個(gè)(預(yù)先設(shè)定)距離最近的對(duì)象,然后將對(duì)應(yīng)位置的數(shù)值進(jìn)行平均或加權(quán)剃根,最后得到的數(shù)值用來表征該缺失值的大小哩盲。

impute::impute.knn(data, #矩陣
  k=10,  #預(yù)設(shè)近鄰數(shù),默認(rèn)10
  rowmax=0.5, #當(dāng)某行的缺失值占比超過50%跟继,則用整個(gè)樣本的均值填充
  colmax=0.8) #當(dāng)任何一列中缺失值占比80%种冬,計(jì)算終止并報(bào)錯(cuò)
  • Sequential KNN(有序K近鄰):KNN方法的升級(jí),一般用于處理缺失值比例高的數(shù)據(jù)舔糖。但缺失值如果太多了娱两,不建議保留。
    填充過程:首先根據(jù)數(shù)據(jù)中每個(gè)對(duì)象缺失值的比例進(jìn)行排序(sequential)金吗,從比例最小的那個(gè)對(duì)象開始計(jì)算十兢,對(duì)K個(gè)近鄰的值進(jìn)行平均或加權(quán)計(jì)算填充,這個(gè)填充后的對(duì)象也會(huì)加入后續(xù)其他對(duì)象缺失值填充的計(jì)算當(dāng)中摇庙。
SeqKnn::SeqKNN(data, k=10)
  • MI(多重插補(bǔ)):細(xì)分的方法有很多旱物,主要有三部分:一是mice,將包含缺失值的原始數(shù)據(jù)集生成幾個(gè)完整的數(shù)據(jù)集(3-10個(gè)無缺失值的數(shù)據(jù)集)卫袒,再把所有填充值的平均值作為最終的填充結(jié)果宵呛;第二with,使用標(biāo)準(zhǔn)方法夕凝,如線性回歸模型/廣義線性模型等宝穗,對(duì)這幾個(gè)完整的數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析(不是評(píng)價(jià)好壞)户秤;第三pool,整合模型分析的結(jié)果逮矛,輸出最終結(jié)果鸡号。
data(sleep,package="VIM")
# 1st
imp=mice::mice(sleep,
    m=5, #生成完整數(shù)據(jù)集個(gè)數(shù)
    defaultMethod="pmm", #填充方法
    seed=1234) #保證重復(fù)性
# 2nd
fit=with(imp,lm(dream~span+Gest)) #選擇線性模型對(duì)填充數(shù)據(jù)集分析
# 3rd
pooled=pool(fit) #整合最終結(jié)果
summary(pooled)
  • RF(隨機(jī)森林):將含有缺失值的數(shù)據(jù)按列分開,先用該列的均值進(jìn)行填充须鼎,然后利用完整數(shù)據(jù)(相當(dāng)于訓(xùn)練集)構(gòu)建隨機(jī)森林模型鲸伴,最后利用該模型對(duì)含有缺失值的數(shù)據(jù)(相當(dāng)于測試集)進(jìn)行預(yù)測,并可對(duì)預(yù)測的結(jié)果進(jìn)行評(píng)價(jià)晋控。

  • 沒有哪種方法一定最好汞窗,具體問題具體分析√腔模可以用幾種方法填充后比較杉辙。也可用一些現(xiàn)有的工具評(píng)價(jià),如NAguideR可比較評(píng)估23種缺失值填充方法捶朵,幫助我們從中選擇最好的一種蜘矢。

Ref:https://mp.weixin.qq.com/s?__biz=MzI3MTM3OTExNQ==&mid=2247484057&idx=1&sn=0a3fa0da1dde77f0e977cb3fcb573a66&chksm=eac3fd5dddb4744b440845fb75d994cbd0c773e8280cd907c2f72da77515c39fdeae544ce312&mpshare=1&scene=1&srcid=1209Hxtx8mNCCaedk40oGF3j&pass_ticket=8fOmiD4N2xGG%2Fiu8B8fMK8DktTDRegr9wAx9HJzsHskRUH2qZsWItq9%2FfUMxDKlS#rd#userconsent#

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市综看,隨后出現(xiàn)的幾起案子品腹,更是在濱河造成了極大的恐慌,老刑警劉巖红碑,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件舞吭,死亡現(xiàn)場離奇詭異,居然都是意外死亡析珊,警方通過查閱死者的電腦和手機(jī)羡鸥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來忠寻,“玉大人惧浴,你說我怎么就攤上這事∞忍辏” “怎么了衷旅?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長纵朋。 經(jīng)常有香客問我柿顶,道長,這世上最難降的妖魔是什么操软? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任嘁锯,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘猪钮。我一直安慰自己品山,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布烤低。 她就那樣靜靜地躺著,像睡著了一般笆载。 火紅的嫁衣襯著肌膚如雪扑馁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天凉驻,我揣著相機(jī)與錄音腻要,去河邊找鬼。 笑死涝登,一個(gè)胖子當(dāng)著我的面吹牛雄家,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播胀滚,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼趟济,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了咽笼?” 一聲冷哼從身側(cè)響起顷编,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎剑刑,沒想到半個(gè)月后媳纬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡施掏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年钮惠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片七芭。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡素挽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出抖苦,到底是詐尸還是另有隱情毁菱,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布锌历,位于F島的核電站贮庞,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏究西。R本人自食惡果不足惜窗慎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧遮斥,春花似錦峦失、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至较屿,卻和暖如春隧魄,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背隘蝎。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工购啄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人嘱么。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓狮含,卻偏偏與公主長得像,于是被迫代替她去往敵國和親曼振。 傳聞我的和親對(duì)象是個(gè)殘疾皇子几迄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345