醫(yī)學報告生成 On the Automatic Generation of Medical Imaging Reports

Jing B, Xie P, Xing E. On the Automatic Generation of Medical Imaging Reports[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018: 2577-2586.

論文導讀

醫(yī)學圖像在診斷和治療中廣泛應(yīng)用滔灶。但對于一個經(jīng)驗不豐富的醫(yī)生贤旷，寫報告可能會出錯（error-prone）香椎，對于經(jīng)驗豐富的醫(yī)生費時費力。因此需要自動生成醫(yī)學圖像報告矮冬，輔助醫(yī)生診斷。生成報告有如下挑戰(zhàn)：

報告組成成分多，有findings和tags厢汹。
圖像中的異常區(qū)域難以辨別课舍。
報告長塌西，包含多句話。

為了解決上述的難題布卡，本文提出了如下方法雨让，并在兩個數(shù)據(jù)集上進行驗證：

構(gòu)建了多任務(wù)學習框架（multi-task learning framework），同時對tag預(yù)測和finding生成忿等。
co-attention 機制栖忠，定位異常區(qū)域。
提出了層級的LSTM，生成長段落庵寞。

模型結(jié)構(gòu)

醫(yī)學報告

一份醫(yī)學報告長這樣狸相，findings里面是對醫(yī)學影像的描述，tags是報告中的關(guān)鍵詞捐川。任務(wù)需要輸入圖像脓鹃，輸出tags分類結(jié)果，并輸出報告古沥。（impression里面是對病例的診斷）瘸右。
模型結(jié)構(gòu)如下圖：

模型結(jié)構(gòu)

1. Encoder

輸入圖像后，使用CNN提取patch $\{v_n\}_{n=1}^N$ 岩齿，作為visual features太颤，分兩條路徑：

進入MLC（multi-label classification），對tags進行預(yù)測盹沈。tags再word-embedding得到 $\{a_m\}_{m=1}^M$ 龄章，作為semantic features。
2.visual features $\{v_n\}_{n=1}^N$ 和semantic features $\{a_m\}_{m=1}^M$ 進入co-attention乞封，至此完成encoding過程做裙。

2. Decoder

報告是多個句子的，論文采用了先生成每個句子的high-level topic vector肃晚，之后再根據(jù)這個vector生成相應(yīng)的句子锚贱。從co-attention中輸出的context vector首先輸入sentence LSTM，生成每一個句子所對應(yīng)的topic vector陷揪，代表了每一個句子的語義信息。之后topic vector再輸入到word LSTM里生成整個句子悍缠。

Tag Prediction

多標簽分類任務(wù)，把visual feature $\{v_n\}_{n=1}^N$ 提取出來后飞蚓，輸入到MLC中，生成L個tags的分布：

多標簽分類任務(wù)

對于每一個tag趴拧，都生成一個預(yù)測值，之后作用一個指數(shù)函數(shù)著榴？？個人感覺是想表達softmax脑又，并通過一個閾值確定類別1和0锐借，代表有這個tag和沒有這個tag。與多類別分類任務(wù)不同往衷，多類別任務(wù)是對最終的輸出向量整體作用softmax钞翔。本文使用了VGG19的卷積層提取visual features，最后兩層FC用作MLC席舍。之后布轿，分類出來的tags被embedding為semantic features $\{a_m\}_{m=1}^M$ 用于topic generation。

Co-Attention

Visual Attention 可以定位目標（ObjectRecognition）来颤，也可以幫助生成圖像說明文字（ImageCaption）汰扭，但可能不會提供高階的語義信息。然而tags總是可以提供高階語義信息脚曾，因此使用co-attention 機制同時注意visual和semantic模態(tài)（modalities）东且。
這里co-attention會利用 $\{v_n\}_{n=1}^N$ ， $\{a_m\}_{m=1}^M$ 以及sentence LSTM的第 $s-1$ 步的hidden state $h_{sent}^{(s-1)}$ 計算下一時間步 $s$ 的 joint contest vector $ctx^{(s)}$ 本讥。
首先使用單層feed-forward network計算visual feature 和semantic feature的權(quán)重：

visual and semantic attentions

這里的正比符號，相當于是在feature channel維度上面做了softmax鲁冯，最終的 visual and semantic context vector分別是前面的attention和：

visual and semantic context vectors

最后把兩個向量拼接在一起拷沸，在使用fully connected layer得到最終的輸入到sentence LSTM中的joint context vector $ctx^{(s)}$ ：

第s步的joint context vector

這個地方最終的 $ctx$ 是有joint的意思了。還有一種思路薯演，在計算權(quán)重那個地方就都輸入撞芍，相當于提前joint在一起。

Sentence LSTM

這一部分是包含Sentence LSTM跨扮，topic generator和stop control component序无。Sentence LSTM 是一個單層的LSTM，接收 $ctx$ 并通過topic generator生成topic vector $t$ 衡创，由stop control component決定是否繼續(xù)生成帝嗡。

Topic generator

接收Sentence LSTM的hidden state $h_{sent}^{(s)}$ 和joint context vector $ctx^{(s)}$ ，計算當前第 $s$ 步的topic vector $t^{(s)}$ 璃氢。

topic vector

Stop control

以前一步和當前步的hidden state $h_{sent}^{(s-1)}$ 和 $h_{sent}^{(s)}$ 為輸入哟玷，計算是否繼續(xù)生成的概率：

probability of stop

如果大于預(yù)定好的閾值，則停止一也，否則繼續(xù)生成巢寡。

Word LSTM

topic vector $t$ 和START token作為第一個和第二個輸入輸入到LSTM中，得到后續(xù)的word sequence椰苟。得到的hidden state $h_{word}$ 直接用到了詞的預(yù)測中：

word prediction

損失函數(shù)

在multi-label classification任務(wù)中抑月，文中先對tag ground truth 一范數(shù)歸一化，然后和預(yù)測向量計算cross-entropy舆蝴。個人感覺菱皆，不對ground truth歸一化仇轻，預(yù)測向量使用sigmoid函數(shù)奶甘，然后再計算binary cross entropy效果會好一點。
在報告生成階段疲陕，損失函數(shù)由兩部分組成：停止損失和詞損失蹄殃。

最終的損失函數(shù)如下：

loss function

最后害加入了一個正則化項诅岩，是關(guān)于visual and semantic attentions矩陣 $\alpha \in \mathbb{R}^{N \times S}, \beta\in \mathbb{R}^{M \times S}$ 的：

attention regularization

這個正則化鼓勵模型在不同的圖像區(qū)域以及不同的tags上面吩谦，都有相似的注意力式廷。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末滑废，一起剝皮案震驚了整個濱河市蠕趁，隨后出現(xiàn)的幾起案子妻导，更是在濱河造成了極大的恐慌怀各，老刑警劉巖，帶你破解...
沈念sama閱讀 221,635評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異硕蛹，居然都是意外死亡硕并，警方通過查閱死者的電腦和手機倔毙，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,543評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門陕赃，熙熙樓的掌柜王于貴愁眉苦臉地迎上來么库，“玉大人诉儒，你說我怎么就攤上這事亏掀。” “怎么了缭受？”我有些...
開封第一講書人閱讀 168,083評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長宇智。經(jīng)常有香客問我胰丁，道長锦庸，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,640評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任萝嘁，我火速辦了婚禮牙言，結(jié)果婚禮上咱枉，老公的妹妹穿的比我還像新娘。我一直安慰自己蚕断，他們只是感情好亿乳，可當我...
茶點故事閱讀 68,640評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布风皿。她就那樣靜靜地躺著，像睡著了一般咸这。火紅的嫁衣襯著肌膚如雪媳维。梳的紋絲不亂的頭發(fā)上遏暴，一...
開封第一講書人閱讀 52,262評論 1贊 308
城市分裂傳說
那天朋凉，我揣著相機與錄音，去河邊找鬼亲怠。笑死，一個胖子當著我的面吹牛团秽，可吹牛的內(nèi)容都是我干的习勤。我是一名探鬼主播，決...
沈念sama閱讀 40,833評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼己英，長吁一口氣：“原來是場噩夢啊……” “哼吴旋！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起治拿，我...
開封第一講書人閱讀 39,736評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤劫谅，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后荞驴，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贯城，經(jīng)...
沈念sama閱讀 46,280評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡能犯，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,369評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年踩晶，在試婚紗的時候發(fā)現(xiàn)自己被綠了渡蜻。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,503評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡顿苇，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出凑队，到底是詐尸還是另有隱情，我是刑警寧澤西壮，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布款青，位于F島的核電站霍狰，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏康震。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,870評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望橘忱。院中可真熱鬧，春花似錦钝诚、人聲如沸敲长。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,340評論 0贊 24
一樁弒父案泽铛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽盔腔。三九已至月褥，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間宁赤，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,460評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工愕够，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留佛猛，地道東北人继找。一個月前我還...
沈念sama閱讀 48,909評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像凯亮，于是被迫代替她去往敵國和親越败。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,512評論 2贊 359

醫(yī)學報告生成 On the Automatic Generation of Medical Imaging Reports

論文導讀

模型結(jié)構(gòu)

1. Encoder

2. Decoder

Tag Prediction

Co-Attention

Sentence LSTM

Topic generator

Stop control

Word LSTM

損失函數(shù)

推薦閱讀更多精彩內(nèi)容