Alfarghaly O, Khaled R, Elkorany A, et al. Automated radiology report generation using conditioned transformers[J]. Informatics in Medicine Unlocked, 2021, 24: 100557.
論文導讀
和On the Automatic Generation of Medical Imaging Reports一樣蚌吸,本文先進行multi-label分類聪姿,分出tags嗅回,再用tags生成semantic features,并且與visual feature結合饭寺,完成報告生成任務。不同之處有,之前使用的是CNN-RNN結構框杜,現(xiàn)在用了Transformer。本文提出的模型叫CDGPT(Conditioned distil generative pre-trained transformers 2)袖肥。主要工作有:
- fine-tune預訓練模型Chexnet咪辱,生成tags
- 從預訓練個tags mebedding中得到帶權重的semantic features
- 結合預訓練的GPT2,生成報告椎组。
- 除了指標的計算油狂,最后找了專業(yè)的醫(yī)生來評估報告的好壞,定性分析寸癌。
模型簡介
- visual model:作為encoder专筷,提取visual feature,并對tags分類蒸苇。
- semantic features' generation:計算帶權重的semantic features
- decoder:visual and semantic features作為預訓練模型的輸入磷蛹,生成報告。
Visual features
使用Chexnet提取特征溪烤,并分類:Densenet212味咳,再ChestX-ray14數(shù)據集上預訓練庇勃。預訓練模型在這里。
Multi-label task使用BCELoss:
其中的N代表batch槽驶,T代表是tags的數(shù)量责嚷,損失函數(shù)的選擇和我想得一樣。
Semantic features
語義特征用了一個在MEDLINE/PubMed上面預訓練的word2vec embeddings捺檬,如果一個tag包含了多個詞再层,則把他們做平均。visual model在做分類任務的時候堡纬,輸出了一個105維度的向量聂受,代表了每一個tag的置信度分數(shù)。而tags embedding是一個105 x 400的矩陣烤镐,把tag的分數(shù)和embedding相乘蛋济,得到了帶權重的semantic features。這一部分炮叶,由于weighted的原因碗旅,雖然一個樣本里面并沒有帶這個tag,但還是會帶有這個tag的信息镜悉。
Decider
distilGPT2作為預訓練模型祟辟,在PenWebTestCorpus上訓練,最后輸出有50257維度侣肄,保持輸出維度不變旧困,可以生成所有的醫(yī)學術語。
Conditioning details
Decoder部分對self-attention的改動稼锅,由于加入了visual and semantic feature吼具,再加上token embedding,就一共有三個輸入了矩距。對比基礎的self-attention拗盒,新加入了U,H權重矩陣锥债,分別對應于visual和semantic feature的keys和values的權重矩陣: