【Kaggle日記】呼吸機(jī)壓力預(yù)測(cè) 2021-11-09

谷歌呼吸機(jī)壓力預(yù)測(cè)比賽
參考:
數(shù)據(jù)探索
特征解釋u_in和pressure
特征解釋R和C
金牌方案總結(jié)
#1方案 LSTM + PID
#2方案 Inverse of a PID
安全嗎?

數(shù)據(jù)集和任務(wù)

訓(xùn)練數(shù)據(jù)集包括600多萬(wàn)次記錄,
一共是七萬(wàn)多次呼吸過(guò)程勾怒,每次呼吸都是80次記錄棒口。
特征中,R(Resistance)智绸,C(Capacitance)兩個(gè)是和肺部相關(guān)的數(shù)值特征,分別只有3個(gè)和2個(gè)取值昵观,代表肺部的狹窄程度和肺部的可伸縮性蜂奸。而u_in 代表了控制的空氣輸入量,u_out(0或1)代表吸氣還是呼氣過(guò)程嚷节,預(yù)測(cè)的目標(biāo)是壓力聂儒。

簡(jiǎn)化示意圖,來(lái)源參考3

每次呼吸的time step從0開始丹喻,間隔上有很小的區(qū)別薄货,持續(xù)兩秒多的時(shí)間。對(duì)于一次呼吸來(lái)說(shuō)(肺部特征一定)碍论,pressure取決于所有過(guò)去的u_in谅猾,而u_in取決于過(guò)去以及當(dāng)下的pressure。

u_in是一個(gè)連續(xù)數(shù)值特征。u_out在呼吸過(guò)程中先是0税娜,然后在25到32的時(shí)間步長(zhǎng)中變?yōu)?坐搔。 也就是從吸氣到呼氣的過(guò)程。

值得注意的是敬矩,壓力值只存在950個(gè)離散值, 所以后續(xù)處理除了取Median or mean以外概行,還可以取最近的這950個(gè)可能的值,稍微提升模型表現(xiàn)弧岳。 另外估計(jì)某個(gè)時(shí)間點(diǎn)的壓力值時(shí)凳忙,可以使用這個(gè)點(diǎn)之后也就是未來(lái)的u_in特征。這看起來(lái)似乎不合理禽炬,原因是這里搭建的模型涧卵,是用來(lái)模擬真實(shí)場(chǎng)景,服務(wù)于研究人員設(shè)計(jì)新的呼吸機(jī)控制器腹尖。所以不一定要能夠在呼吸過(guò)程中預(yù)測(cè)出壓力柳恐。

金牌方案

首先大部分團(tuán)隊(duì)選擇作為回歸任務(wù)來(lái)處理,不過(guò)也有把他當(dāng)成分類任務(wù)(950個(gè)離散值)乐设,而取得很好的成績(jī)的。

神經(jīng)網(wǎng)絡(luò)模型全勝 ~ 高分方案中完全沒有樹模型的身影绎巨。畢竟特征比較少(NN可以自己提取特征)近尚,而數(shù)據(jù)集又足夠大认烁。其中大部分使用的是LSTM模型(4到5層)肿男,框架和平臺(tái)以Tensorflow和TPU為主。使用pytorch訓(xùn)練的時(shí)間則要更長(zhǎng)一些却嗡,而且同樣的模型舶沛,用pytorch訓(xùn)練卻達(dá)不到Tensorflow的效果,這可能是兩個(gè)框架初始化的方法不一樣窗价,于是@junkoda在pytorch中復(fù)現(xiàn)了Tensorflow的初始化方法如庭,成功縮小了差距。另外撼港,訓(xùn)練時(shí)長(zhǎng)似乎在這場(chǎng)比賽中很關(guān)鍵坪它,冠軍團(tuán)隊(duì)訓(xùn)練了整整2500個(gè)epoch。

這里順便插播一篇挺有意思的論文,描述了Grokking現(xiàn)象帝牡,簡(jiǎn)單來(lái)說(shuō)就是復(fù)雜的模型雖然可能會(huì)難以訓(xùn)練成功往毡,但是當(dāng)過(guò)擬合發(fā)生后,如果訓(xùn)練時(shí)間足夠長(zhǎng)的話靶溜,卻能夠在某個(gè)時(shí)間點(diǎn)忽然開竅开瞭,成功泛化懒震。這有點(diǎn)像雙下降現(xiàn)象, 不過(guò)雙下降是對(duì)于參數(shù)量而言的,也許兩者之間有緊密的練習(xí)嗤详。有趣的是个扰,作者說(shuō)這篇論文的起因是同事忘記關(guān)電腦度假去了。無(wú)論如何葱色,以后可以試試不使用earlystop递宅,看看會(huì)不會(huì)有奇跡發(fā)生。

Grokking現(xiàn)象

另外苍狰,UnderPressure團(tuán)隊(duì)使用了Transformer办龄,把時(shí)間步長(zhǎng)當(dāng)作特征,因此也不需要位置編碼舞痰。

還有讓我覺得很驚艷的是土榴,頭幾名中大部分團(tuán)隊(duì)都用到一個(gè)技巧诀姚。
那就是他們找到了主辦方團(tuán)隊(duì)的論文响牛,比賽用的數(shù)據(jù)集其實(shí)是用結(jié)合神經(jīng)網(wǎng)絡(luò)和PID控制的呼吸機(jī)采集的。所以赫段,他們就想辦法把這個(gè)PID控制器的參數(shù)給破解了呀打,冠軍團(tuán)隊(duì)甚至連添加的噪聲都找到了,靠這個(gè)后處理方法他們完美匹配了66%的預(yù)測(cè)糯笙。

特征

特征包括以下三類以及他們的混合:

  1. 原始特征 :
    冠軍團(tuán)隊(duì)僅使用了原始特征和LSTM就取得了很好的效果贬丛。
  2. 手工生成的特征
  3. Conv1D生成的特征。

auxiliary-loss

似乎對(duì)模型提升有很大幫助给涕,大部分高分團(tuán)隊(duì)都使用了壓力(目標(biāo)p_i)或者其差值(比如p_i - p_i-1)作為輔助損失豺憔,也有一支隊(duì)伍使用的過(guò)去壓力之和。


預(yù)處理

  1. Scaling: 大部分團(tuán)隊(duì)使用了Robust Scaling够庙,也有小部分只使用了 np.log1p恭应。
  2. 數(shù)據(jù)增廣:第三名Upstage團(tuán)隊(duì)使用了一些數(shù)據(jù)增廣方法,其中MixUp效果比較顯著耘眨。
  3. Pseudo-labels昼榛。

集成

KFold和StratifiedCV一般情況下沒什么區(qū)別,不過(guò)StratifiedCV總不會(huì)比Kfold差剔难,另外高分團(tuán)隊(duì)取的折數(shù)都較多胆屿,10~15+。

其他

State-of-the-art Deep Learning library for Time Series and Sequences:
https://github.com/timeseriesAI/tsai

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末偶宫,一起剝皮案震驚了整個(gè)濱河市非迹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌纯趋,老刑警劉巖憎兽,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡唇兑,警方通過(guò)查閱死者的電腦和手機(jī)酒朵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)扎附,“玉大人蔫耽,你說(shuō)我怎么就攤上這事×粢梗” “怎么了匙铡?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)碍粥。 經(jīng)常有香客問(wèn)我鳖眼,道長(zhǎng),這世上最難降的妖魔是什么嚼摩? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任钦讳,我火速辦了婚禮,結(jié)果婚禮上枕面,老公的妹妹穿的比我還像新娘愿卒。我一直安慰自己,他們只是感情好潮秘,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布琼开。 她就那樣靜靜地躺著,像睡著了一般枕荞。 火紅的嫁衣襯著肌膚如雪柜候。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天躏精,我揣著相機(jī)與錄音渣刷,去河邊找鬼。 笑死玉控,一個(gè)胖子當(dāng)著我的面吹牛飞主,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播高诺,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼碌识,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了虱而?” 一聲冷哼從身側(cè)響起筏餐,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎牡拇,沒想到半個(gè)月后魁瞪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體穆律,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年导俘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了峦耘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡旅薄,死狀恐怖辅髓,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情少梁,我是刑警寧澤洛口,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站凯沪,受9級(jí)特大地震影響第焰,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜妨马,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一挺举、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧身笤,春花似錦豹悬、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)脱篙。三九已至娇钱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绊困,已是汗流浹背文搂。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留秤朗,地道東北人煤蹭。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像取视,于是被迫代替她去往敵國(guó)和親硝皂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容