(ECCV 2016) Grounding of Textual Phrases in Images by Reconstruction
這篇文章做的是通過一段描述(Textual Phrase)在圖片中標出
Bounding Box歌溉。做法是通過 Selective Search 或者 Edge Box 在圖片中提出 proposals,然后對每個 proposal region 計算 attention。對所有 proposal region 通過 attention 加權取均值得到一個圖像特征否灾。圖像特征使用 LSTM 生成 caption(作者稱之為 Reconstruction )弊琴,Loss即是 caption 和給的描述做交叉熵損失 。
其中又分為無監(jiān)督在刺、半監(jiān)督和全監(jiān)督的過程跃闹。上一段的描述是無監(jiān)督的,沒有 Bounding Box 的 Ground Truth磷雇。半監(jiān)督的是擁有 attention 的 ground-truth偿警,加強對 attention 的學習過程唯笙。而全監(jiān)督沒有 Reconstruction 的過程落剪,只有 attention 的 Loss。
(ICCV 2017)Recurrent Multimodal Interaction for Referring Image Segmentation
這篇文章是通過 caption 的描述來做 Image Segmentation。傳統(tǒng)的做法中(baseline)鞋拟,是圖像用 FCN 提取特征,文字用 LSTM 提取特征猴誊,二者 concat 之后經過卷積和反卷積懈叹,得到分割圖澄成。Loss是所有像素分割的正確性。這篇文章增加了一個 mLSTM肾砂,每次將 Language LSTM 的 hidden state 和 word embedding 拼接粥谬,Tile 之后再和圖像進行 Concat派哲, 送入 mLSTM 中做融合储矩。把融合的特征進行卷積和反卷積去計算所有像素的 Loss。