Unsupervised learning of semantic representation for documents with the law of total probability_...

摘要

提取文檔的語意信息的意義在于它是很多應用的基礎(chǔ)年枕,例如:文檔總結(jié)尝盼、檢索文檔植旧、文本分析等迂猴。

現(xiàn)存的方法(通過分析文檔包含相關(guān)性來擴充用來表示文檔的向量)遠不理想的原因是文檔的物理限制阻礙了之間的相關(guān)性評估——無法捕獲深層的相關(guān)性。

為了解決以上問題背伴,本文通過之間的公相關(guān)詞來進一步推測它們之間的深層關(guān)聯(lián)沸毁,為了避免高估深層關(guān)聯(lián)本文基于全概率公式來約束深層關(guān)系推理——以邊緣概率為指標。

介紹

BOW(bag of words)被廣泛應用的原因是:簡單傻寂、有效息尺、表現(xiàn)優(yōu)秀,然而詞袋模型的缺點是只能作為含有公共詞的文檔的相似性的指標疾掰,不能反映含有不同詞的文檔的相似性搂誉。

解決以上問題提出了latent topic models被提出, 常見的如下方法:

  • latent semantic indexing
  • latent dirichlet allocation
  • doc2vec

基于上面的方法静檬,文檔將被表示為對一定數(shù)量主題的分布炭懊,相似的文檔的分布也相似。但基于主題分布模型的方法中很多參數(shù)(尤其是主題維度)經(jīng)常難以確定

相比于latent topic models拂檩,統(tǒng)計學文檔特征擴充方法基于文檔源詞與文檔語料庫中所有詞的相關(guān)性來構(gòu)建上下文侮腹,而相關(guān)性是根據(jù)統(tǒng)計數(shù)據(jù)得到的,通常為co-occurrence frequencies稻励,這樣一來BOW產(chǎn)生的稀疏文檔特征向量就被擴充為稠密特征向量父阻,并且這種方法沒有像topics models一樣的限制。
常用的文檔特征擴充方法是Context Vector Model(CVM)望抽,該方法把和源文檔中任意詞相關(guān)的詞判別為文檔的相關(guān)詞加矛,把在同一篇文檔中中共現(xiàn)的詞判別為兩個詞相關(guān)。但由于文檔的物理限制煤篙,基于這種方法獲取詞之間的相關(guān)性的效果不理想斟览。
為了檢測詞之間的傳遞相關(guān)性(不能根據(jù)co-occurrence frequencies檢測),條件概率是一個很好的idel舰蟆,在這篇文章中把詞之間的相關(guān)性形式化為條件概率趣惠,這樣就可以從理論上推測傳遞相關(guān)性了狸棍,同時基于詞邊緣概率全概率為條件的條件概率的關(guān)系來避免高估傳遞相關(guān)性。

本文貢獻

  • 通過詞之間的傳遞相關(guān)性來度量文檔之間的語意相似性
  • 通過最小化以全概率公式為基礎(chǔ)獲得的邊緣概率以原始的頻率為基礎(chǔ)獲得的邊緣概率之間的區(qū)別提出了三個度量詞之間傳遞相關(guān)性的策略
  • 實驗表明本文提出的方法比現(xiàn)有最優(yōu)秀方法有更好的表現(xiàn)

相關(guān)工作

對BOW特征向量的擴充味悄,已經(jīng)有很多相關(guān)的工作草戈,根據(jù)詞和文檔之間相關(guān)關(guān)系的度量方法可以分為兩類

  • 統(tǒng)計學方法有下面兩個步驟:
    • 1、couting frequencies
    • 2侍瑟、smoothing functions(PCP唐片、PPMI、Jaccard)
  • 以知識庫為基礎(chǔ)的方法涨颜,常見的有:
    • WordNet involved Document Representation method
    • Disambiguated Core Semantics method

知識庫雖然比共現(xiàn)頻率更可靠费韭,但是往往不匹配或過期

統(tǒng)計學文檔特征擴充方法中包含詞和文檔之間關(guān)系的完整詞向量由各個部分詞向量組合而成。目前這個想法已經(jīng)運用在了神經(jīng)網(wǎng)絡領(lǐng)域庭瑰。即神經(jīng)網(wǎng)絡的輸入為低維空間詞向量用于句子建模的卷積神經(jīng)網(wǎng)絡通過卷積核將這些特征向量組合(DRBM通過RBM組合詞向量星持、WMD通過將計算文檔之間距離的問題映射到一個已經(jīng)被成熟研究的Earth Movers Distance)文章中將上面的方法歸類為主題模型

雖然本文的關(guān)注點在于如何計算詞之間的相關(guān)性,但還是對統(tǒng)計業(yè)務流中的某些其他方面進行了提升:

  • 通過S-VSM來避免詞向量的過度擴充(僅僅考慮top-k語意相關(guān))
  • 提出DDE來組合詞向量(對每個維度賦予不同的權(quán)重)

預備知識

表一中展示了本文中用到的符號:

在BOW中文檔集合D中有m個不同的字符弹灭,它們用來構(gòu)建特征空間督暂,D中的任意文檔,它的特征向量表示如下:
\Phi_{bow}:\mathbfks6agk4=\left ( c_{v_1|d}, c_{v_2|d}, c_{v_3|d}, ..., c_{v_m|d}\right )^T \in \mathbb{R}^m
考慮到BOW不能識別包含不同詞的文檔的相似性穷吮,所以提出了CVM逻翁,用來通過一組加權(quán)的詞向量來發(fā)現(xiàn)文檔的意義。
V中任意的v_i的上下文詞向量被定義為(Billhardt et al.):
v_i = \left ( \frac{c_{v_iv_1|D}}{c_{v_i|D}}, \frac{c_{v_iv_2|D}}{c_{v_i|D}},...,\frac{c_{v_iv_m|D}}{c_{v_i|D}} \right )^T
一般情況下捡鱼,詞的意思應該獨立于語料庫的尺寸八回。因此,這里引入了語料庫中v_i的出現(xiàn)頻率c_{v_i|D}來表達v_i的上下文驾诈。V_i中的值用來度量v_i和語料庫V中詞的關(guān)系缠诅。

組合所有的詞向量,我們可以得到一個m * m的矩陣V = \left ( v_1, v_2, ..., v_m \right )(上下文矩陣)翘鸭,CVM生成的文檔向量為:


基于CVM的文檔特征向量是在BOW的基礎(chǔ)上根據(jù)語料庫中所有詞與源詞之間的平均關(guān)系來擴充的滴铅,而這里的關(guān)系在這里被定義為詞與詞之間的顯式關(guān)系,下圖顯示由于文檔的物理限制就乓,這種關(guān)系是有局限性的汉匙。

類似于本文中的idel,CRM(Coupled term-term Relation Model)已經(jīng)實現(xiàn)了推測傳遞關(guān)系生蚁,該方法中完全關(guān)系被表示為:顯式關(guān)系和隱式關(guān)系的組合噩翠,核心公式如下:
\boldsymbol{V_i}\left ( j \right )=\left\{\begin{matrix} \alpha \frac{c_{v_iv_j|D}}{c_{v_i|D}} + \frac{(1 - \alpha )}{\left | L \right |}\sum _{v_k\in L}min_{a = i,j}\left \{ \frac{c_{v_a,v_k|D}}{c_{v_a|D}} \right \} & j \neq i\\ 1 & else \end{matrix}\right.
其中L = \left \{ v_k|\frac{c_{v_i,v_k|D}}{c_{v_i|D}}> 0 \wedge \frac{c_{v_j,v_k|D}}{c_{v_j|D}}> 0 \right \}\left | L \right |表示語料庫中v_i, v_j公共現(xiàn)詞的個數(shù)邦投。
上面CRM公式用一個簡單的參數(shù)\alpha來控制不同詞對顯式關(guān)系隱式關(guān)系的權(quán)重伤锚,這有降低特征向量的區(qū)分力的危險。

全概率模型

本文通過顯式關(guān)系直接計算完全關(guān)系志衣,這里將v_jv_i顯式關(guān)系形式化為條件概率:
\frac{c_{v_iv_j|D}}{c_{v_i|D}} = \mathbf{P}\left ( v_j|v_i \right )
概率化后可以為推測隱式關(guān)系提供理論基礎(chǔ)屯援,也為發(fā)現(xiàn)完全關(guān)系詞的邊緣概率之間的關(guān)系提供的保證猛们。通過線性回歸可以自動推測顯式關(guān)系和隱式關(guān)系的權(quán)重。

定義完全關(guān)系

假設一個詞在另一個詞出現(xiàn)的條件下的條件概率可以通過它們對于語料庫中所有詞的當前分布(詞的邊緣概率狞洋,對于語料庫中不同的詞賦予不同的權(quán)重\omega_k)來修正弯淘。則有下面的修正后的條件概率公式:

考慮到在大多數(shù)情況下v_i,v_j并不是獨立的吉懊,所以有下面的近似相等公式:
p\left ( v_j,v_i \right ) \simeq \sum_{k = 1}^{m}p\left ( v_i|v_k \right )p\left ( v_j|v_k \right )p\left ( v_k \right )
所以本文的公式中采用\omega_k來控制詞v_i庐橙,v_j出現(xiàn)的獨立性,使等式成立借嗽。

修正后的條件概率公式中當v_k=v_i時(v_k=v_j時同理)态鳖,p\left( v_i|v_i \right) = 1,可知此時:
\frac {p\left ( v_i|v_i \right )p\left ( v_j|v_i \right )p\left ( v_i\right )}{p\left ( v_i \right )} = p\left ( v_j|v_i \right )
p\left ( v_j|v_i \right )即為v_i恶导,v_j之間的顯式關(guān)系浆竭,因此,以上定義的條件概率就是完全關(guān)系惨寿,它通過參數(shù)\omega_k組合了顯式關(guān)系和隱式關(guān)系兆蕉。

下面介紹參數(shù)\omega_k的獲得方法

參數(shù)估計

  • 通過邊緣概率估計參數(shù)
    有如下符號化約定:

    • \mathbf{\omega }=\left ( \omega_1, \omega_2, \omega_3,...,\omega_m \right )^T
    • \mathbf{p}= \left ( p\left ( v_1 \right ), p\left ( v_2 \right ), p\left ( v_3 \right ),..., p\left ( v_m \right ) \right )^T

    假設\mathbf{\omega }已知,由全概率公式可得:

    這里的參數(shù)\omega_k可以抵消聯(lián)合概率中事件依賴帶來的沖突缤沦。
    擴展p為一個m*m的矩陣P,上面等式可以表達如下:


    A=V \cdot P^T易稠,則A中第k列第i行的元素即為聯(lián)合概率p(v_i, v_k)
    在式子13的基礎(chǔ)上缸废,參數(shù)估計就等價于最優(yōu)化下面的公式:

    等式14的可解析方程為:

  • 通過常數(shù)約束進行估計
    p(v_i)也可以通過語料庫中所有詞以源詞出現(xiàn)為條件的條件概率推導出來,有如下等式:


    上式中兩邊同除以p(v_i)可以得到:

    和式12類似驶社,式17可以表達為如下形式:

    上式中的\mathbf{1}是一個m維向量企量,其中所有的值為1,則參數(shù)估計的目標方程可以表示為如下等式:

    可解析表達式如下:

    上面就是基于常數(shù)約束的參數(shù)估計亡电。

  • 通過語意一致性進行估計


    上面的討論中提到:P(v_i|v_i) = \frac{p(v_i, v_i)}{p(v_i)} = 1届巩,這是因為P(v_i, v_i) = p(v_i),通過引用等式8到這個等式中份乒,可以得到下面等式:

    換為向量的形式:

    A = P^T \cdot V \cdot V恕汇,參數(shù)估計等價于最小化下面的等式:

    A中的第k列第i行的元素為聯(lián)合概率P(v_i, v_i, v_k),可解析方程如下:

    和等式15類似或辖,等式21中參數(shù)估計也是基于邊緣概率瘾英,但是和15不同的是,21中的約束條件為語意約束(一個詞和自身的共現(xiàn)關(guān)系為1)而不是基于全概率公式導出的約束颂暇。

方案實現(xiàn)

本文提出了三個參數(shù)估計的方式缺谴,使用這三個方式之前都需要我們首先構(gòu)建上下文矩陣\mathbf{V},在式15和24中我們需要計算邊緣概率來進行參數(shù)估計耳鸯,得到參數(shù)之后湿蛔,我們就可以計算完全關(guān)系接著生成擴充BOW文檔特征向量膀曾,這部分將描述具體的工作流程。

這里一共采用三種方案來估計詞和詞之間的顯式關(guān)系阳啥,如下:
這里的r(v_i, v_j)都表示詞之間的顯式關(guān)系

  • PCP:


  • PPMI:

    這里P(v_i, v_j) = \frac{c_{v_i,v_j|D}}{\sum_{i = 1}^{m}\sum_{j = 1}^{m}c_{v_i,v_j|D}}添谊,P(v_i) = \frac{c_{v_i|D}}{\sum_{j = 1}^{m}c_{v_j|D}},這里實現(xiàn)PPMI采用的窗口大小為2苫纤,這意味著僅僅一個詞挨著另一個詞的情況下碉钠,這兩個詞才被認為是共現(xiàn)。
  • LIN:

    這里的c_iv_i在WordNet中對應的概念卷拘,IC(c_i) = -log_2P(v_i)喊废,LCS(c_i, c_j)表示最低公共包含

正如公式5那樣栗弟,上面方法計算的詞之間的顯式關(guān)系被符號化為條件概率:



此處污筷,當i = j時,記$p(v_j|v_i) = 1

通常乍赫,我們假設一個詞的出現(xiàn)頻率足夠產(chǎn)生可靠的邊緣概率瓣蛀,為了使邊緣概率的計算更加可信,我們引入了一個閾值變量TH雷厂,它用來判斷一個詞的出現(xiàn)評率是否充足惋增。不是一般性,這里假設預料庫V中各個詞出現(xiàn)的評率逆序排列改鲫,則這里的邊緣概率采用下面的公式計算:


上式中為每個小頻率詞賦予相同的邊緣概率诈皿,并且這里賦予小頻率詞評率的權(quán)重為1,(小頻率詞通常表達一些特殊的意義,它有更強的連接兩個詞的能力)像棘,結(jié)果有入下的形式化參數(shù)向量:

上面稽亏,
與上面類似,令:

則的計算入下:

上式中缕题,通過設置 less frequent words的權(quán)重為1截歉,即為所有m個詞的邊緣概率,且不考慮他們與less frequent words的共現(xiàn)烟零。
本文提出的文檔特征向量的擴充方案整理成如下算法:

第四步中的計算詞之間的完全關(guān)系的根據(jù)是公式6瘪松,第五步中產(chǎn)生擴充的文檔特征向量的根據(jù)是公式3。

結(jié)論

  • 文檔聚類
    1锨阿、擴充BOW是必要的凉逛;
    2、考慮詞之間的隱式相關(guān)關(guān)系是必要的群井;
    3状飞、詞的邊緣分布隱藏著一些固有的語義信息;
    4、三種參數(shù)估計方法中诬辈,基于邊緣概率的方法表現(xiàn)最好酵使,基于語意的方法次之,基于常數(shù)的方法最差焙糟;
    5口渔、專家?guī)斓闹R覆蓋面可能會影響以知識庫為基礎(chǔ)的方法;
    6穿撮、本文提出的方法優(yōu)于主題模型缺脉。

  • 語意相似性估計
    1、詞的多義性悦穿、同義性攻礼、語意轉(zhuǎn)化現(xiàn)象都增加了基于統(tǒng)計學的方法檢測人名、技術(shù)術(shù)語相似性的難度栗柒;
    2礁扮、詞之間的相關(guān)性更能表達語法相關(guān)性而非語意相似性。

展望

NNMs在非監(jiān)督學習問題中(NLP)用得很少瞬沦,在本文的實驗中太伊,NNM在兩個任務中都沒有足夠好的表現(xiàn),這里將表現(xiàn)不好的原因歸結(jié)為以下幾個方面:
對于非監(jiān)督任務逛钻,NNMs給的信息量過大:NNM在文檔特征向量中嵌入的不僅僅是語意形式僚焦,還有很多語法信息,這些不必要的信息可以通過監(jiān)督訓練過濾掉曙痘,但是這也許會影響非監(jiān)督方法的計算過程叠赐。此外,非監(jiān)督的關(guān)鍵是采用盡可能少的信息訓練百萬級的參數(shù)屡江,從這方面講,TPMF和TPMS獲取的詞之間的共現(xiàn)頻率赛不、詞的出現(xiàn)頻率就可以成為新的約束惩嘉,把它們加入NNMs中有提高NNMs表現(xiàn)的可能。

本文實驗結(jié)果表明踢故,統(tǒng)計學方法和基于專家知識的方法在文檔聚類和語意相似度估計中各有長短文黎,所以集成以專家知識為基礎(chǔ)的方法和本文提出的方法來強化詞語關(guān)系估計效果,進而緩解知識覆蓋面有限的問題是很有價值的殿较。

在用基于知識的方法來推測隱式關(guān)系之前耸峭,一詞多義問題也需要控制。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末淋纲,一起剝皮案震驚了整個濱河市劳闹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖本涕,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件业汰,死亡現(xiàn)場離奇詭異,居然都是意外死亡菩颖,警方通過查閱死者的電腦和手機样漆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來晦闰,“玉大人放祟,你說我怎么就攤上這事∩胗遥” “怎么了跪妥?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長窿冯。 經(jīng)常有香客問我骗奖,道長,這世上最難降的妖魔是什么醒串? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任执桌,我火速辦了婚禮,結(jié)果婚禮上芜赌,老公的妹妹穿的比我還像新娘仰挣。我一直安慰自己,他們只是感情好缠沈,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布膘壶。 她就那樣靜靜地躺著,像睡著了一般洲愤。 火紅的嫁衣襯著肌膚如雪颓芭。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天柬赐,我揣著相機與錄音亡问,去河邊找鬼。 笑死肛宋,一個胖子當著我的面吹牛州藕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播酝陈,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼床玻,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了沉帮?” 一聲冷哼從身側(cè)響起锈死,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤贫堰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后馅精,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體严嗜,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年洲敢,在試婚紗的時候發(fā)現(xiàn)自己被綠了漫玄。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡压彭,死狀恐怖睦优,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情壮不,我是刑警寧澤汗盘,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站询一,受9級特大地震影響隐孽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜健蕊,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一菱阵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧缩功,春花似錦晴及、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至势木,卻和暖如春蛛倦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背啦桌。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工溯壶, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人震蒋。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像躲庄,于是被迫代替她去往敵國和親查剖。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容