疾病診斷泛讀系列(一)—— The Graph-based Mutual Attentive Network for Automatic Diagnosis

一、寫在前面的話

  1. 論文的相關(guān)背景

疾病的自動(dòng)診斷是指根據(jù)電子病歷信息自動(dòng)地診斷患者所患的疾病反粥。EMR通常包含以下信息:

其中婴渡,CC(chief com- plaint)是病人自述自己的癥狀或(和)體征俺抽、性質(zhì)以及持續(xù)時(shí)間等內(nèi)容,HPI(history of present illness)是記述患者病后的全過(guò)程(即發(fā)生沸伏、發(fā)展糕珊、演變和診治經(jīng)過(guò)),PE(physical examination)是各項(xiàng)體格檢查毅糟,SE(supplementary examination)是其他各類檢查報(bào)告放接,F(xiàn)inding是通過(guò)NER獲得癥狀實(shí)體

  1. 論文摘要翻譯

疾病自動(dòng)診斷領(lǐng)域一直存在缺乏高質(zhì)量的語(yǔ)料訓(xùn)練預(yù)測(cè)模型的問(wèn)題。此外留特,先前基于深度學(xué)習(xí)的診斷模型大多采用CNN或RNN對(duì)文本信息進(jìn)行直接建模纠脾,導(dǎo)致關(guān)鍵醫(yī)療實(shí)體之間的復(fù)雜結(jié)構(gòu)信息未被有效利用。在本文中蜕青,我們基于來(lái)自實(shí)際醫(yī)院的高質(zhì)量電子病歷文檔構(gòu)建診斷模型苟蹈,以提高所得模型的準(zhǔn)確性和可信度。同時(shí)右核,我們將圖卷積網(wǎng)絡(luò)引入到模型中慧脱,以減輕稀疏特征問(wèn)題,并促進(jìn)模型融入圖結(jié)構(gòu)信息贺喝。此外菱鸥,我們引入文本與圖結(jié)構(gòu)的相互注意力機(jī)制增強(qiáng)輸入的表示宗兼,從而獲得更好的模型性能。本文最后在真實(shí)EMR上對(duì)模型進(jìn)行評(píng)估氮采,結(jié)果表明與先前僅使用序列學(xué)習(xí)的診斷模型相比殷绍,本文所提出的模型更準(zhǔn)確。該模型已被納入部分中國(guó)的初級(jí)衛(wèi)生保健機(jī)構(gòu)的信息系統(tǒng)鹊漠,以協(xié)助醫(yī)生進(jìn)行診斷過(guò)程主到。

  1. 論文的主要?jiǎng)?chuàng)新和貢獻(xiàn)

    • 針對(duì)疾病自動(dòng)診斷模型未能利用關(guān)鍵醫(yī)療實(shí)體之間的結(jié)構(gòu)信息的問(wèn)題,引入圖卷積

    • 引入文本與圖結(jié)構(gòu)的相互注意力機(jī)制

二躯概、論文模型

  1. 模型簡(jiǎn)要:

    • 論文標(biāo)題:The Graph-based Mutual Attentive Network for Automatic Diagnosis

    • 研究領(lǐng)域:疾病診斷

    • 提出時(shí)間:2020

    • 主干網(wǎng)絡(luò):CNN + BiGRU + GCN

  2. 模型架構(gòu)

  • 輸入

輸入主要可以分成兩部分登钥,一部分是主訴、現(xiàn)病史等純文本(通過(guò)jieba進(jìn)行分詞)另一部分則是NER獲取的醫(yī)療實(shí)體

  • 主干網(wǎng)絡(luò) - MultiChannelCNN

純文本通過(guò)嵌入之后獲得詞向量通過(guò)MultiChannelCNN進(jìn)行特征抽热⒚摇:

MultiChannelCNN
  • 主干網(wǎng)絡(luò) - BiGRU

純文本通過(guò)嵌入之后獲得詞向量通過(guò)BiGRU進(jìn)行特征抽饶晾巍:

BiGRU

使用平均池化獲取整句的向量表示:

  • 主干網(wǎng)絡(luò) - GCN

想要在診斷時(shí)利用疾病-癥狀的圖結(jié)構(gòu)信息,需要一個(gè)GCN網(wǎng)絡(luò)姿锭,該圖結(jié)構(gòu)主要由疾病之間的父子關(guān)系和疾病與癥狀之間的關(guān)系組成

疾病之間的父子關(guān)系是無(wú)權(quán)邊塔鳍,而疾病與癥狀之間則是有權(quán)邊,邊的權(quán)重由以下公式定義:

其中艾凯,n(d_{i})是指包含疾病i的病歷數(shù)献幔,N則是總文檔數(shù)懂傀,n(f_{j}|d_{i})是癥狀j在包含疾病i的病歷中出現(xiàn)的次數(shù)

最后趾诗,A_{i,j}需要?dú)w一化,歸一化公式如下所示:

文章提到由于A矩陣長(zhǎng)尾現(xiàn)象嚴(yán)重蹬蚁,所以在構(gòu)圖時(shí)對(duì)每一個(gè)疾病僅保留Top5的癥狀

GCN建模部分其實(shí)也是分成兩塊恃泪,一塊是對(duì)疾病之間的父子關(guān)系所組成的圖結(jié)構(gòu)進(jìn)行學(xué)習(xí),獲取疾病的圖嵌入信息:

其中N_{p}(i)是疾病i的所有父節(jié)點(diǎn)集合猪半,N_{c}(i)是疾病i的所有子節(jié)點(diǎn)集合

另一塊則是基于疾病與癥狀所組成的圖結(jié)構(gòu)伯襟,學(xué)習(xí)癥狀的嵌入信息:

其中N_{g}(j)是癥狀j的所有鄰居結(jié)點(diǎn)集合(即與癥狀j相連的疾病節(jié)點(diǎn))

論文中沒(méi)有介紹圖網(wǎng)絡(luò)的訓(xùn)練方式关斜,但論文提到這一塊參考GraphRel,所以應(yīng)該是隨著網(wǎng)絡(luò)一起訓(xùn)練

  • 主干網(wǎng)絡(luò) - Mutual Attentive Network

Attention部分也是分成兩塊览效,兩者是串行關(guān)系,先是text-guided attention:使用BiGRU部分生成的句子向量與所有從NER獲取的癥狀的圖嵌入做Attention:

最后通過(guò)attention權(quán)重加和所有的癥狀嵌入

接著則是finding guided attention:使用上文通過(guò)attention權(quán)重加權(quán)求和獲得的癥狀向量與MultiChannelCNN生成的向量做Attention:

最后同樣使用attention加權(quán)求和:

  • 主干網(wǎng)絡(luò) - MLP

這一部分就是加權(quán)求和得到的癥狀向量虫几、文本向量以及一些病人的基本信息拼接锤灿,通過(guò)全連接層進(jìn)行映射

  • 損失函數(shù)

論文沒(méi)有提到損失,估計(jì)應(yīng)該是交叉熵

三辆脸、論文實(shí)驗(yàn)

  1. 實(shí)驗(yàn)數(shù)據(jù)集和指標(biāo)介紹
  • 數(shù)據(jù)集

論文的數(shù)據(jù)集有兩部分但校,一部分是真實(shí)的醫(yī)療場(chǎng)景中的EMR(神經(jīng)科和心內(nèi)科)數(shù)據(jù)形式見(jiàn)上文相關(guān)背景中的圖片,另一部分是MIMIC-III- 50英文病歷數(shù)據(jù)集

  • 評(píng)測(cè)指標(biāo)

中文數(shù)據(jù)采用 R@1和 P@1啡氢,英文數(shù)據(jù)采用 R@5 和P@5

  • 模型診斷展示
  1. 對(duì)比結(jié)果

其中CNNBiGRU就是將這兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)用在疾病診斷領(lǐng)域状囱,ACNN是在CNN的基礎(chǔ)上加入了gram-level attention术裸,CAML是在CNN的基礎(chǔ)上加入了label-wise attention,GCN亭枷、MAN 是僅使用GCN或MAN的情況袭艺,GPAP則是使用Parallel Attentive Pooling(這篇還沒(méi)有去研究)

結(jié)果上當(dāng)然是提升,不過(guò)對(duì)比的論文都不是很新奶栖。論文加入圖結(jié)構(gòu)信息的部分還是蠻好的匹表,整體下來(lái)思路也很清晰,不過(guò)可惜的是沒(méi)有給代碼宣鄙。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末袍镀,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子冻晤,更是在濱河造成了極大的恐慌苇羡,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鼻弧,死亡現(xiàn)場(chǎng)離奇詭異设江,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)攘轩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門叉存,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人度帮,你說(shuō)我怎么就攤上這事歼捏。” “怎么了笨篷?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵瞳秽,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我率翅,道長(zhǎng)练俐,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任冕臭,我火速辦了婚禮腺晾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘辜贵。我一直安慰自己悯蝉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布念颈。 她就那樣靜靜地躺著泉粉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上嗡靡,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天跺撼,我揣著相機(jī)與錄音,去河邊找鬼讨彼。 笑死歉井,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的哈误。 我是一名探鬼主播哩至,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蜜自!你這毒婦竟也來(lái)了菩貌?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤重荠,失蹤者是張志新(化名)和其女友劉穎箭阶,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體戈鲁,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡仇参,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了婆殿。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片诈乒。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖婆芦,靈堂內(nèi)的尸體忽然破棺而出怕磨,到底是詐尸還是另有隱情,我是刑警寧澤寞缝,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布癌压,位于F島的核電站仰泻,受9級(jí)特大地震影響荆陆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜集侯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一被啼、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧棠枉,春花似錦浓体、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春生闲,著一層夾襖步出監(jiān)牢的瞬間媳溺,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工碍讯, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留悬蔽,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓捉兴,卻偏偏與公主長(zhǎng)得像蝎困,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子倍啥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348