Scalable and accurate deep learning with electronic health records
本文譯自Google Blog嚎杨,作者為Google AI產(chǎn)品經(jīng)理Eyal Oren博士和研究科學家Alvin Rajkomar博士檩坚。
患者入院后氧苍,對接下來的事情總是充滿擔憂肌括。他們會在心里不斷問自己点骑,我什么時候可以回家?我會好起來嗎谍夭?我還要再回醫(yī)院嗎黑滴?準確回答這些問題有助于醫(yī)生和護士更加周到、安全和高效地護理患者——一旦患者的健康狀況惡化紧索,醫(yī)生和護士可以搶先主動采取措施袁辈。
如今利用機器學習預測事態(tài)發(fā)展已經(jīng)非常普遍。我們可以用它預測通勤途中的交通狀況珠漂,以及將英文翻譯成西班牙語時需要用到的詞匯晚缩。那么,我們是否可以用相同類型的機器學習進行臨床預測呢媳危?我們認為荞彼,要做到實用,預測模型必須具備以下兩點特征:
可擴展:該預測模型要能進行多項預測待笑,得出所有我們想要的信息鸣皂,并且適用于不同醫(yī)院的系統(tǒng)。鑒于醫(yī)療保健數(shù)據(jù)十分復雜暮蹂,需要進行大量數(shù)據(jù)處理寞缝,這一要求并不容易滿足。
精度高:預測結果需能幫助醫(yī)生關注真正的問題所在仰泻,而不是用誤報警分散醫(yī)生的注意力荆陆。隨著電子病歷逐漸普及,我們正嘗試用其中的數(shù)據(jù)建立更加精準的預測模型我纪。
我們聯(lián)合加州大學舊金山分校慎宾、斯坦福大學醫(yī)學院和芝加哥大學醫(yī)學院的同事丐吓,在《自然》雜志的兄弟期刊——《數(shù)字醫(yī)學》上發(fā)表了題為《可擴展且精準的深度學習與電子健康記錄》的論文。這篇論文對實現(xiàn)前文所述的兩個目標有所幫助趟据。
基于脫敏的電子病歷數(shù)據(jù)券犁,我們用深度學習模型對住院患者進行了廣泛預測。值得一提的是汹碱,該模型可以直接使用原始數(shù)據(jù)粘衬,無需人工對相關變量進行提取、清洗咳促、整理稚新、轉換等一系列費時費力的操作。合作伙伴在將電子病歷數(shù)據(jù)交給我們之前跪腹,先對其進行了脫敏處理褂删。我們也采用了最先進的措施保障數(shù)據(jù)安全,包括邏輯分隔冲茸、嚴格的訪問控制屯阀,以及靜態(tài)和傳輸中的數(shù)據(jù)加密。
可擴展性
電子病歷非常復雜轴术。以體溫為例难衰,因測量位置不同(舌頭下方、耳膜或額頭)逗栽,其往往具有不同含義盖袭。而體溫不過是電子病歷眾多參數(shù)中最簡單的之一。此外彼宠,各個衛(wèi)生系統(tǒng)都有一套自己定制的電子病例系統(tǒng)鳄虱,導致各個醫(yī)院的采集的數(shù)據(jù)大不相同。用機器學習處理這些數(shù)據(jù)之前兵志,需要先將其統(tǒng)一格式醇蝴。基于開放的FHIR標準想罕,我們構建了一套標準格式悠栓。
格式統(tǒng)一后,我們就不需要手動選擇或調(diào)整相關變量了按价。進行各項預測時惭适,深度學習模型會自動掃描過去到現(xiàn)在的所有數(shù)據(jù)點,并分析其中哪些數(shù)據(jù)對預測是有價值的楼镐。由于這一過程涉及數(shù)千個數(shù)據(jù)點癞志,我們不得不開發(fā)了一些基于遞歸神經(jīng)網(wǎng)絡(RNN)和前饋網(wǎng)絡的新型深度學習建模方法。
我們用時間線來展示患者電子病歷中的數(shù)據(jù)框产。為方便說明凄杯,我們按行顯示各種類型的臨床數(shù)據(jù)错洁,其中每個數(shù)據(jù)片段都用灰點表示,它們被存儲在FHIR中戒突。FHIR是一種可供任何醫(yī)療機構使用的開放式數(shù)據(jù)標準屯碴。深度學習模型通過從左往右掃描時間表,分析患者從圖標開頭到現(xiàn)在的住院信息膊存,并據(jù)此進行不同類型的預測导而。
就這樣我們設計了一個計算機系統(tǒng),以可擴展的方式進行預測隔崎,而無需為每項預測任務手動制作新的數(shù)據(jù)集今艺。設置數(shù)據(jù)只是全部工作中的一部分,保證預測的準確性也十分重要爵卒。
準確性
評估準確性的最常見方法是受試者工作曲線下面積虚缎,它可以有效評估模型區(qū)分特定未來結果患者和非特定未來結果患者的效果。 在這個度量標準中技潘,1.00代表完美遥巴,0.50代表不比隨機結果更準確,也就是說得分越高代表模型越準確享幽。通過測試,我們的模型在預測患者是否會在醫(yī)院停留很久時拾弃,得分為0.86(傳統(tǒng)邏輯回歸模型的評分為0.76)值桩;預測住院病死率時的得分為0.95(傳統(tǒng)模型的得分為0.86);預測出院后意外再住院率時得分為0.77(傳統(tǒng)模型得分為0.70)豪椿。從得分上看奔坟,新方法的準確率提升非常顯著。
我們還用這些模型來確定患者接受的治療搭盾,比如醫(yī)生為發(fā)燒咳秉、咳嗽的患者開具頭孢曲松和強力霉素,該模型就會判定患者正在接受肺炎治療鸯隅。必須強調(diào)澜建,該模型并不會給患者做診斷,它只是收集患者的相關信號蝌以,以及臨床醫(yī)生編寫的治療方案和筆記炕舵。因此,它更像是一位優(yōu)秀的聽眾而不是主診醫(yī)生跟畅。
深度學習模型的可解釋性是我們工作重點之一咽筋。每項預測的“注意圖”會展示模型在進行該項預測時認為重要的那些數(shù)據(jù)點。我將展示一個例子作為概念驗證徊件,并將其視為讓預測對臨床醫(yī)生產(chǎn)生價值的重要部分奸攻。
患者入院24小時后蒜危,我們使用深度學習進行預測。上圖頂部的時間表包含了患者幾個月時間的歷史數(shù)據(jù)睹耐,我們將最近的數(shù)據(jù)做了放大顯示舰褪。模型用紅色標識了患者信息圖表中用于“解釋”其預測的信息。在這個研究案例中疏橄,模型標注了臨床上有意義的信息片段占拍。
這對患者和臨床醫(yī)生意味著什么?
這項研究成果還處于早期階段捎迫,而且是基于回顧性數(shù)據(jù)得出的晃酒。事實上,證明機器學習可用于改善醫(yī)療保健這一假設還有做很多工作要做窄绒,本文不過是個開始贝次。醫(yī)生們正窮于應付各種警報和需求,機器學習模型是否能幫助處理繁瑣的管理任務彰导,讓他們更專注于護理有需要的患者蛔翅?我們是否可以幫助患者獲得高質(zhì)量的護理,無論他們在哪里尋求治療位谋?我們期待著與醫(yī)生和患者合作山析,找出這些問題的答案。