醫(yī)學報告生成 On the Automatic Generation of Medical Imaging Reports

Jing B, Xie P, Xing E. On the Automatic Generation of Medical Imaging Reports[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018: 2577-2586.

論文導讀

醫(yī)學圖像在診斷和治療中廣泛應(yīng)用滔灶。但對于一個經(jīng)驗不豐富的醫(yī)生贤旷,寫報告可能會出錯(error-prone)香椎,對于經(jīng)驗豐富的醫(yī)生費時費力。因此需要自動生成醫(yī)學圖像報告矮冬,輔助醫(yī)生診斷。生成報告有如下挑戰(zhàn):

  1. 報告組成成分多,有findings和tags厢汹。
  2. 圖像中的異常區(qū)域難以辨別课舍。
  3. 報告長塌西,包含多句話。

為了解決上述的難題布卡,本文提出了如下方法雨让,并在兩個數(shù)據(jù)集上進行驗證:

  1. 構(gòu)建了多任務(wù)學習框架(multi-task learning framework),同時對tag預(yù)測和finding生成忿等。
  2. co-attention 機制栖忠,定位異常區(qū)域。
  3. 提出了層級的LSTM,生成長段落庵寞。

模型結(jié)構(gòu)

醫(yī)學報告

一份醫(yī)學報告長這樣狸相,findings里面是對醫(yī)學影像的描述,tags是報告中的關(guān)鍵詞捐川。任務(wù)需要輸入圖像脓鹃,輸出tags分類結(jié)果,并輸出報告古沥。(impression里面是對病例的診斷)瘸右。
模型結(jié)構(gòu)如下圖:


模型結(jié)構(gòu)

1. Encoder

輸入圖像后,使用CNN提取patch\{v_n\}_{n=1}^N岩齿,作為visual features太颤,分兩條路徑:

  1. 進入MLC(multi-label classification),對tags進行預(yù)測盹沈。tags再word-embedding得到\{a_m\}_{m=1}^M龄章,作為semantic features。
    2.visual features\{v_n\}_{n=1}^N 和semantic features\{a_m\}_{m=1}^M進入co-attention乞封,至此完成encoding過程做裙。

2. Decoder

報告是多個句子的,論文采用了先生成每個句子的high-level topic vector肃晚,之后再根據(jù)這個vector生成相應(yīng)的句子锚贱。從co-attention中輸出的context vector首先輸入sentence LSTM,生成每一個句子所對應(yīng)的topic vector陷揪,代表了每一個句子的語義信息。之后topic vector再輸入到word LSTM里生成整個句子悍缠。

Tag Prediction

多標簽分類任務(wù),把visual feature\{v_n\}_{n=1}^N提取出來后飞蚓,輸入到MLC中,生成L個tags的分布:

多標簽分類任務(wù)

對于每一個tag趴拧,都生成一個預(yù)測值,之后作用一個指數(shù)函數(shù)著榴??個人感覺是想表達softmax脑又,并通過一個閾值確定類別1和0锐借,代表有這個tag和沒有這個tag。與多類別分類任務(wù)不同往衷,多類別任務(wù)是對最終的輸出向量整體作用softmax钞翔。本文使用了VGG19的卷積層提取visual features,最后兩層FC用作MLC席舍。之后布轿,分類出來的tags被embedding為semantic features\{a_m\}_{m=1}^M用于topic generation。

Co-Attention

Visual Attention 可以定位目標(ObjectRecognition)来颤,也可以幫助生成圖像說明文字(ImageCaption)汰扭,但可能不會提供高階的語義信息。然而tags總是可以提供高階語義信息脚曾,因此使用co-attention 機制同時注意visual和semantic模態(tài)(modalities)东且。
這里co-attention會利用\{v_n\}_{n=1}^N\{a_m\}_{m=1}^M以及sentence LSTM的第s-1步的hidden stateh_{sent}^{(s-1)}計算下一時間步s的 joint contest vector ctx^{(s)}本讥。
首先使用單層feed-forward network計算visual feature 和semantic feature的權(quán)重:

visual and semantic attentions

這里的正比符號,相當于是在feature channel維度上面做了softmax鲁冯,最終的 visual and semantic context vector分別是前面的attention和:


visual and semantic context vectors

最后把兩個向量拼接在一起拷沸,在使用fully connected layer得到最終的輸入到sentence LSTM中的joint context vector ctx^{(s)}

第s步的joint context vector

這個地方最終的ctx是有joint的意思了。還有一種思路薯演,在計算權(quán)重那個地方就都輸入撞芍,相當于提前joint在一起。

Sentence LSTM

這一部分是包含Sentence LSTM跨扮,topic generator和stop control component序无。Sentence LSTM 是一個單層的LSTM,接收ctx并通過topic generator生成topic vectort衡创,由stop control component決定是否繼續(xù)生成帝嗡。

Topic generator

接收Sentence LSTM的hidden stateh_{sent}^{(s)}和joint context vector ctx^{(s)},計算當前第s步的topic vector t^{(s)}璃氢。

topic vector

Stop control

以前一步和當前步的hidden state h_{sent}^{(s-1)}h_{sent}^{(s)}為輸入哟玷,計算是否繼續(xù)生成的概率:

probability of stop

如果大于預(yù)定好的閾值,則停止一也,否則繼續(xù)生成巢寡。

Word LSTM

topic vector t和START token作為第一個和第二個輸入輸入到LSTM中,得到后續(xù)的word sequence椰苟。得到的hidden state h_{word}直接用到了詞的預(yù)測中:

word prediction

損失函數(shù)

  1. 在multi-label classification任務(wù)中抑月,文中先對tag ground truth 一范數(shù)歸一化,然后和預(yù)測向量計算cross-entropy舆蝴。個人感覺菱皆,不對ground truth歸一化仇轻,預(yù)測向量使用sigmoid函數(shù)奶甘,然后再計算binary cross entropy效果會好一點。
  2. 在報告生成階段疲陕,損失函數(shù)由兩部分組成:停止損失和詞損失蹄殃。

最終的損失函數(shù)如下:


loss function

最后害加入了一個正則化項诅岩,是關(guān)于visual and semantic attentions矩陣\alpha \in \mathbb{R}^{N \times S}, \beta\in \mathbb{R}^{M \times S}的:

attention regularization

這個正則化鼓勵模型在不同的圖像區(qū)域以及不同的tags上面吩谦,都有相似的注意力式廷。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末滑废,一起剝皮案震驚了整個濱河市蠕趁,隨后出現(xiàn)的幾起案子妻导,更是在濱河造成了極大的恐慌怀各,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異硕蛹,居然都是意外死亡硕并,警方通過查閱死者的電腦和手機倔毙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進店門陕赃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來么库,“玉大人诉儒,你說我怎么就攤上這事亏掀。” “怎么了缭受?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長宇智。 經(jīng)常有香客問我胰丁,道長锦庸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任萝嘁,我火速辦了婚禮牙言,結(jié)果婚禮上咱枉,老公的妹妹穿的比我還像新娘。我一直安慰自己蚕断,他們只是感情好亿乳,可當我...
    茶點故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布风皿。 她就那樣靜靜地躺著,像睡著了一般咸这。 火紅的嫁衣襯著肌膚如雪媳维。 梳的紋絲不亂的頭發(fā)上遏暴,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天朋凉,我揣著相機與錄音,去河邊找鬼亲怠。 笑死,一個胖子當著我的面吹牛团秽,可吹牛的內(nèi)容都是我干的习勤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼己英,長吁一口氣:“原來是場噩夢啊……” “哼吴旋!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起治拿,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤劫谅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后荞驴,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贯城,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡能犯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年踩晶,在試婚紗的時候發(fā)現(xiàn)自己被綠了渡蜻。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,503評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡顿苇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出凑队,到底是詐尸還是另有隱情,我是刑警寧澤西壮,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布款青,位于F島的核電站霍狰,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏康震。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望橘忱。 院中可真熱鬧,春花似錦钝诚、人聲如沸敲长。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽盔腔。三九已至月褥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間宁赤,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工愕够, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留佛猛,地道東北人继找。 一個月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像凯亮,于是被迫代替她去往敵國和親越败。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內(nèi)容