Keyphrase Generation

Deep Keyphrase Generation

  • 第一篇做keyphrase generation的文章种蝶,之前的做法都是采用抽取式扩借。抽取式的問題在于襟铭,1)只能從原文中抽取,并且不能有一點(diǎn)順序和同義詞上的變化翁都;2)keyphrase排序碍论,通常采用TF-IDF或者PageRank,然而該算法都是采用統(tǒng)計(jì)信息柄慰,缺少了對(duì)document完整的理解鳍悠。
  • 任務(wù)定義
    • 數(shù)據(jù)標(biāo)注:輸入document税娜,輸出keyphrase集合
    • 為了適配Encoder-Decoder模型,將數(shù)據(jù)重新組織為document-keyphrase的pair對(duì)(同一個(gè)document對(duì)應(yīng)多個(gè)keyphrase)
  • 模型
    • 采用標(biāo)準(zhǔn)的Encoder-Decoder模型藏研,然后通過Copying Mechanism緩解OOV的問題敬矩。

Neural Keyphrase Generation via Reinforcement Learning with Adaptive Rewards

  • 模型輸入document,輸出為keyphrase集合蠢挡,本文將keyphrase通過特殊分隔符組合為一個(gè)輸出轰枝,因此一個(gè)document和一個(gè)組合的keyphrase形成了模型輸入和輸出晓避。
  • 基礎(chǔ)的模型設(shè)計(jì)較為普通弄捕,采用Encoder-Decoder的方式進(jìn)行建模侯谁,其中Encoder為BI-GRU,Decoder為單層的GRU堡称。
  • 為了緩解OOV的問題,作者也采用了Pointer-generator network
  • 模型的損失函數(shù)為最大似然估計(jì)
  • 本文的亮點(diǎn)在于最后作者采用Reinforcement Learning解決生成keyphrase過多或者過少的問題
    • 當(dāng)生成keyphrase不足時(shí)艺演,采用recall作為reward却紧,希望模型生成更多的keyphrase
    • 當(dāng)生成keyphrase充足時(shí),采用F1值作為reward胎撤,希望模型生成精度更高

Semi-Supervised Learning for Neural Keyphrase Generation

先前的keyphrase generation任務(wù)晓殊,大都建立在有大量監(jiān)督數(shù)據(jù)的前提下。然而獲得充足的監(jiān)督數(shù)據(jù)是一項(xiàng)非常奢侈的事情伤提,實(shí)際應(yīng)用中如何更好的利用未標(biāo)注數(shù)據(jù)提升模型的性能是本文主要考慮解決的問題巫俺。

  • 任務(wù)定義
    • 不同于document-keyphrase pair的數(shù)據(jù)構(gòu)造方式,這里將所有的keyphrase通過分隔符拼接到一起肿男。因此document-keyphrase set只會(huì)有一條訓(xùn)練數(shù)據(jù)介汹。
  • 模型
    • 采用標(biāo)準(zhǔn)的Encoder-Decoder模型,然后通過Pointer-generator Network緩解OOV的問題舶沛。

    • 損失函數(shù)為標(biāo)準(zhǔn)的最大似然函數(shù)

    • 在beam search之后嘹承,再對(duì)生成的keyphrase進(jìn)行ranking,得到最終的keyphrase

    • Semi-Supervised Learning
      為了更充分利用無(wú)標(biāo)注數(shù)據(jù)如庭,采用標(biāo)注數(shù)據(jù)與無(wú)標(biāo)注數(shù)據(jù)混合叹卷,使得Encoder見過更多的document,同時(shí)也讓Decoder見過更多的上文信息坪它。

      • Unsupervised Learning Methods
        • 采用TF-IDF和TextRank對(duì)未標(biāo)注document進(jìn)行keyphrase抽取骤竹,然后去重。
        • 對(duì)抽取的keyphrase進(jìn)行排序往毡,然后取top的keyphrase作為訓(xùn)練數(shù)據(jù)
      • Self-learning Algorithm
        • 采用另一個(gè)baseline模型在標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練蒙揣,然后對(duì)未標(biāo)注document進(jìn)行生成,最后取top-1的keyphrase作為訓(xùn)練數(shù)據(jù)
      • 模型訓(xùn)練
        • 現(xiàn)在標(biāo)注數(shù)據(jù)和偽標(biāo)注數(shù)據(jù)混合之后的數(shù)據(jù)上訓(xùn)練卖擅,然后在標(biāo)注數(shù)據(jù)上進(jìn)行finetune
      • Multi-task Learning with Auxiliary Task
        • 為了充分利用未標(biāo)注數(shù)據(jù)鸣奔,作者這里通過document和title構(gòu)造了一個(gè)輔助任務(wù)墨技,兩個(gè)任務(wù)共享Encoder,Decoder分別適配不同的任務(wù)挎狸。

Title-Guided Encoding for Keyphrase Generation

針對(duì)title和document扣汪,先前的建模不加區(qū)分的同等對(duì)待,因此忽略了title的重要地位锨匆。為了解決該問題崭别,本文對(duì)title和document采用不同的encoder進(jìn)行編碼,然后進(jìn)行融合以進(jìn)行decoder恐锣。

  • 問題定義
    • 數(shù)據(jù)格式:title茅主、document、keyphrase set
    • 與傳統(tǒng)pair不同土榴,這里采用三元組的方式進(jìn)行建模<title诀姚、document、keyphrase>玷禽,一個(gè)keyphrase會(huì)拆分成多個(gè)三元組赫段。
  • 模型
    • Title-Guided Encoder Module

      • Sequence Encoding Layer
        這里采用BI-GRU對(duì)title和document進(jìn)行編碼

      • Matching Layer
        在獲得title和document的編碼信息之后,接下來就是融合title和document特征的階段矢赁。本文采用attention機(jī)制進(jìn)行特征融合(1:title-to-title部分糯笙;2:title-to-document部分)

      • Merging Layer
        keyphrase的核心內(nèi)容仍然來自于document,前面的融合特征更多的是為了更好的利用title特征撩银,因此接下來需要將document特征和融合之后的特征進(jìn)行合并

    • Decoder Module
      Decoder采用了較為常見的GRU+Pointer-generator network

    • Training

      • 負(fù)對(duì)數(shù)似然損失函數(shù)

Topic-Aware Neural Keyphrase Generation for Social Media Language

[圖片上傳失敗...(image-513f96-1595847363294)]
為了緩解社交媒體信息中數(shù)據(jù)稀疏给涕、普通的模型難以捕捉文章核心內(nèi)容的問題,本文采用主題模型結(jié)合seq2seq對(duì)keyphrase generation進(jìn)行建模额获。然后作者通過實(shí)驗(yàn)對(duì)構(gòu)思進(jìn)行驗(yàn)證够庙,本文模型取得了state-of-art的結(jié)果。

  • 模型
    • Neural Topic Model

      • BoW Encoder
        利用神經(jīng)網(wǎng)絡(luò)估計(jì)先驗(yàn)變量\mu\delta
      • BoW Decoder
        與LDA類似咪啡,其假設(shè)存在個(gè)主題存在首启,其中每一個(gè)主題都表示有一個(gè)topic-word的分布,而其中的每一個(gè)document都有一個(gè)Topic Mixed Distribution撤摸。在神經(jīng)網(wǎng)絡(luò)模型之中使用Gaussian Softmax的方式產(chǎn)生\theta毅桃。
    • Sequence Encoder
      采用標(biāo)準(zhǔn)的BI-GRU模型對(duì)input進(jìn)行特征編碼

    • Topic-Aware Sequence Decoder

      • decoder的輸入除了上一時(shí)刻的狀態(tài)之外,還包括了主題模型信息\theta和sequence encoder狀態(tài)h
      • 通過attention計(jì)算document的核心詞准夷,然后結(jié)合當(dāng)前時(shí)刻的狀態(tài)進(jìn)行單詞預(yù)測(cè)
      • 為了緩解OOV問題钥飞,本文采用Pointer-generator network
    • 損失函數(shù)

      • 針對(duì)keyphrase generation,損失函數(shù)為交叉熵?fù)p失
      • 針對(duì)神經(jīng)主題模型(NTM)衫嵌,損失函數(shù)為KL散度損失

One Size Does Not Fit All: Generating and Evaluating Variable Number of Keyphrases

本文主要解決keyphrase generation的兩個(gè)問題读宙,1)生成結(jié)果是否具有多樣性;2)生成結(jié)果的評(píng)估方式楔绞。首先结闸,目前的keyphrase generation方法唇兑,大都采用比較大的beam search,然后取top的keyphrase作為最終的生成結(jié)果桦锄,但是不同的source text應(yīng)該有不同數(shù)量的keyphrase扎附;同時(shí),并行的beam search不能建模keyphrase之間的關(guān)系结耀,導(dǎo)致生成結(jié)果的多樣性降低留夜。其次,評(píng)估效果時(shí)大都采用生成結(jié)果的top keyphrase(個(gè)數(shù)固定)與ground truth(個(gè)數(shù)不確定)進(jìn)行比較图甜。

  • 問題定義
    • 輸入:source text
    • 輸出:通過分割符對(duì)keyphrase進(jìn)行分割碍粥,然后拼接為一個(gè)輸出字符串,例如:keyphrase-1 <sep> keyphrase-2
  • 模型
    • Mechanisms for Diverse Generation
      • Semantic Coverage
        本文設(shè)計(jì)了Semantic Coverage讓生成的keyphrase與source text關(guān)系更緊密黑毅。通過另一個(gè)uni-gru將decoder-generated進(jìn)行編碼嚼摩,然后將編碼的特征作為下一次decoder輸入的一部分來影響模型。最后作者設(shè)計(jì)Semantic Coverage loss博肋,將source text的encoder特征與decoder-generated encoder特征計(jì)算classification loss(隨機(jī)采樣N-1個(gè)負(fù)樣本)低斋。
      • Orthogonal Regularization
    • Training Loss
      因此,訓(xùn)練損失包含3部分匪凡,生成損失、coverage loss掘猿、歸一化loss病游。
    • Decoding Strategies
      • Exhaustive Decoding
        將beam search的大小設(shè)置為150或者200,然后再進(jìn)行排序篩選top的keyphrase稠通。時(shí)間復(fù)雜度非常高衬衬。
      • Self-terminating Decoding
        將所有的keyphrase用分割符拼接到一個(gè)字符串
    • Evaluating Keyphrase Generation
      主要是將固定的top-k改為動(dòng)態(tài)的k(隨ground-truth變化)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市改橘,隨后出現(xiàn)的幾起案子滋尉,更是在濱河造成了極大的恐慌,老刑警劉巖飞主,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件狮惜,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡碌识,警方通過查閱死者的電腦和手機(jī)碾篡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來筏餐,“玉大人开泽,你說我怎么就攤上這事】桑” “怎么了穆律?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵惠呼,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我峦耘,道長(zhǎng)剔蹋,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任贡歧,我火速辦了婚禮滩租,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘利朵。我一直安慰自己律想,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布绍弟。 她就那樣靜靜地躺著技即,像睡著了一般。 火紅的嫁衣襯著肌膚如雪樟遣。 梳的紋絲不亂的頭發(fā)上而叼,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音豹悬,去河邊找鬼葵陵。 笑死,一個(gè)胖子當(dāng)著我的面吹牛瞻佛,可吹牛的內(nèi)容都是我干的脱篙。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼伤柄,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼绊困!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起适刀,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤秤朗,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后笔喉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體取视,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年然遏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了贫途。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡待侵,死狀恐怖丢早,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤怨酝,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布傀缩,位于F島的核電站,受9級(jí)特大地震影響农猬,放射性物質(zhì)發(fā)生泄漏赡艰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一斤葱、第九天 我趴在偏房一處隱蔽的房頂上張望慷垮。 院中可真熱鬧,春花似錦揍堕、人聲如沸料身。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)芹血。三九已至,卻和暖如春楞慈,著一層夾襖步出監(jiān)牢的瞬間幔烛,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工囊蓝, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留饿悬,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓聚霜,卻偏偏與公主長(zhǎng)得像乡恕,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子俯萎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354