【Kaggle日記】呼吸機(jī)壓力預(yù)測(cè) 2021-11-09

谷歌呼吸機(jī)壓力預(yù)測(cè)比賽
參考：
數(shù)據(jù)探索
 特征解釋u_in和pressure
特征解釋R和C
金牌方案總結(jié)
#1方案 LSTM + PID
#2方案 Inverse of a PID
安全嗎？

數(shù)據(jù)集和任務(wù)

訓(xùn)練數(shù)據(jù)集包括600多萬(wàn)次記錄，
一共是七萬(wàn)多次呼吸過(guò)程勾怒，每次呼吸都是80次記錄棒口。
特征中，R（Resistance）智绸，C（Capacitance）兩個(gè)是和肺部相關(guān)的數(shù)值特征，分別只有3個(gè)和2個(gè)取值昵观，代表肺部的狹窄程度和肺部的可伸縮性蜂奸。而u_in 代表了控制的空氣輸入量，u_out（0或1）代表吸氣還是呼氣過(guò)程嚷节，預(yù)測(cè)的目標(biāo)是壓力聂儒。

簡(jiǎn)化示意圖，來(lái)源參考3

每次呼吸的time step從0開始丹喻，間隔上有很小的區(qū)別薄货，持續(xù)兩秒多的時(shí)間。對(duì)于一次呼吸來(lái)說(shuō)（肺部特征一定）碍论，pressure取決于所有過(guò)去的u_in谅猾，而u_in取決于過(guò)去以及當(dāng)下的pressure。

u_in是一個(gè)連續(xù)數(shù)值特征。u_out在呼吸過(guò)程中先是0税娜，然后在25到32的時(shí)間步長(zhǎng)中變?yōu)?坐搔。也就是從吸氣到呼氣的過(guò)程。

值得注意的是敬矩，壓力值只存在950個(gè)離散值, 所以后續(xù)處理除了取Median or mean以外概行，還可以取最近的這950個(gè)可能的值，稍微提升模型表現(xiàn)弧岳。另外估計(jì)某個(gè)時(shí)間點(diǎn)的壓力值時(shí)凳忙，可以使用這個(gè)點(diǎn)之后也就是未來(lái)的u_in特征。這看起來(lái)似乎不合理禽炬，原因是這里搭建的模型涧卵，是用來(lái)模擬真實(shí)場(chǎng)景，服務(wù)于研究人員設(shè)計(jì)新的呼吸機(jī)控制器腹尖。所以不一定要能夠在呼吸過(guò)程中預(yù)測(cè)出壓力柳恐。

金牌方案

首先大部分團(tuán)隊(duì)選擇作為回歸任務(wù)來(lái)處理，不過(guò)也有把他當(dāng)成分類任務(wù)（950個(gè)離散值）乐设，而取得很好的成績(jī)的。

神經(jīng)網(wǎng)絡(luò)模型全勝 ~ 高分方案中完全沒有樹模型的身影绎巨。畢竟特征比較少（NN可以自己提取特征）近尚，而數(shù)據(jù)集又足夠大认烁。其中大部分使用的是LSTM模型（4到5層）肿男，框架和平臺(tái)以Tensorflow和TPU為主。使用pytorch訓(xùn)練的時(shí)間則要更長(zhǎng)一些却嗡，而且同樣的模型舶沛，用pytorch訓(xùn)練卻達(dá)不到Tensorflow的效果，這可能是兩個(gè)框架初始化的方法不一樣窗价，于是@junkoda在pytorch中復(fù)現(xiàn)了Tensorflow的初始化方法如庭，成功縮小了差距。另外撼港，訓(xùn)練時(shí)長(zhǎng)似乎在這場(chǎng)比賽中很關(guān)鍵坪它，冠軍團(tuán)隊(duì)訓(xùn)練了整整2500個(gè)epoch。

這里順便插播一篇挺有意思的論文,描述了Grokking現(xiàn)象帝牡，簡(jiǎn)單來(lái)說(shuō)就是復(fù)雜的模型雖然可能會(huì)難以訓(xùn)練成功往毡，但是當(dāng)過(guò)擬合發(fā)生后，如果訓(xùn)練時(shí)間足夠長(zhǎng)的話靶溜，卻能夠在某個(gè)時(shí)間點(diǎn)忽然開竅开瞭，成功泛化懒震。這有點(diǎn)像雙下降現(xiàn)象, 不過(guò)雙下降是對(duì)于參數(shù)量而言的，也許兩者之間有緊密的練習(xí)嗤详。有趣的是个扰，作者說(shuō)這篇論文的起因是同事忘記關(guān)電腦度假去了。無(wú)論如何葱色，以后可以試試不使用earlystop递宅，看看會(huì)不會(huì)有奇跡發(fā)生。

Grokking現(xiàn)象

另外苍狰，UnderPressure團(tuán)隊(duì)使用了Transformer办龄，把時(shí)間步長(zhǎng)當(dāng)作特征，因此也不需要位置編碼舞痰。

還有讓我覺得很驚艷的是土榴，頭幾名中大部分團(tuán)隊(duì)都用到一個(gè)技巧诀姚。
那就是他們找到了主辦方團(tuán)隊(duì)的論文响牛，比賽用的數(shù)據(jù)集其實(shí)是用結(jié)合神經(jīng)網(wǎng)絡(luò)和PID控制的呼吸機(jī)采集的。所以赫段，他們就想辦法把這個(gè)PID控制器的參數(shù)給破解了呀打，冠軍團(tuán)隊(duì)甚至連添加的噪聲都找到了，靠這個(gè)后處理方法他們完美匹配了66%的預(yù)測(cè)糯笙。

特征

特征包括以下三類以及他們的混合：

原始特征：
冠軍團(tuán)隊(duì)僅使用了原始特征和LSTM就取得了很好的效果贬丛。
手工生成的特征
Conv1D生成的特征。

auxiliary-loss

似乎對(duì)模型提升有很大幫助给涕，大部分高分團(tuán)隊(duì)都使用了壓力(目標(biāo)p_i)或者其差值(比如p_i - p_i-1)作為輔助損失豺憔，也有一支隊(duì)伍使用的過(guò)去壓力之和。

預(yù)處理

Scaling: 大部分團(tuán)隊(duì)使用了Robust Scaling够庙，也有小部分只使用了 np.log1p恭应。
數(shù)據(jù)增廣：第三名Upstage團(tuán)隊(duì)使用了一些數(shù)據(jù)增廣方法，其中MixUp效果比較顯著耘眨。
Pseudo-labels昼榛。

集成

KFold和StratifiedCV一般情況下沒什么區(qū)別，不過(guò)StratifiedCV總不會(huì)比Kfold差剔难，另外高分團(tuán)隊(duì)取的折數(shù)都較多胆屿，10~15+。

其他

State-of-the-art Deep Learning library for Time Series and Sequences：
https://github.com/timeseriesAI/tsai

最后編輯于：2021.11.13 02:53:48

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末偶宫，一起剝皮案震驚了整個(gè)濱河市非迹，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌纯趋，老刑警劉巖憎兽，帶你破解...
沈念sama閱讀 219,539評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡唇兑，警方通過(guò)查閱死者的電腦和手機(jī)酒朵，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評(píng)論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)扎附，“玉大人蔫耽，你說(shuō)我怎么就攤上這事×粢梗” “怎么了匙铡？”我有些...
開封第一講書人閱讀 165,871評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)碍粥。經(jīng)常有香客問(wèn)我鳖眼，道長(zhǎng)，這世上最難降的妖魔是什么嚼摩？我笑而不...
開封第一講書人閱讀 58,963評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任钦讳，我火速辦了婚禮，結(jié)果婚禮上枕面，老公的妹妹穿的比我還像新娘愿卒。我一直安慰自己，他們只是感情好潮秘，可當(dāng)我...
茶點(diǎn)故事閱讀 67,984評(píng)論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布琼开。她就那樣靜靜地躺著，像睡著了一般枕荞。火紅的嫁衣襯著肌膚如雪柜候。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,763評(píng)論 1贊 307
城市分裂傳說(shuō)
那天躏精，我揣著相機(jī)與錄音渣刷，去河邊找鬼。笑死玉控，一個(gè)胖子當(dāng)著我的面吹牛飞主，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播高诺，決...
沈念sama閱讀 40,468評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼碌识，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了虱而？” 一聲冷哼從身側(cè)響起筏餐，我...
開封第一講書人閱讀 39,357評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎牡拇，沒想到半個(gè)月后魁瞪，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體穆律，經(jīng)...
沈念sama閱讀 45,850評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,002評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年导俘，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了峦耘。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,144評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡旅薄，死狀恐怖辅髓，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情少梁，我是刑警寧澤洛口，帶...
沈念sama閱讀 35,823評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站凯沪，受9級(jí)特大地震影響第焰，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜妨马，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,483評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一挺举、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧身笤，春花似錦豹悬、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)脱篙。三九已至娇钱，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間绊困，已是汗流浹背文搂。一陣腳步聲響...
開封第一講書人閱讀 33,150評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留秤朗，地道東北人煤蹭。一個(gè)月前我還...
沈念sama閱讀 48,415評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像取视，于是被迫代替她去往敵國(guó)和親硝皂。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,092評(píng)論 2贊 355

【Kaggle日記】呼吸機(jī)壓力預(yù)測(cè) 2021-11-09

數(shù)據(jù)集和任務(wù)

金牌方案

特征

auxiliary-loss

預(yù)處理

集成

其他

推薦閱讀更多精彩內(nèi)容