摘要
提取文檔的語意信息的意義在于它是很多應用的基礎(chǔ)年枕,例如:文檔總結(jié)尝盼、檢索文檔植旧、文本分析等迂猴。
現(xiàn)存的方法(通過分析文檔包含詞相關(guān)性來擴充用來表示文檔的向量)遠不理想的原因是文檔的物理限制阻礙了詞之間的相關(guān)性評估——無法捕獲深層的相關(guān)性。
為了解決以上問題背伴,本文通過詞和詞之間的公相關(guān)詞來進一步推測它們之間的深層關(guān)聯(lián)沸毁,為了避免高估深層關(guān)聯(lián)本文基于全概率公式來約束深層關(guān)系推理——以邊緣概率為指標。
介紹
BOW(bag of words)被廣泛應用的原因是:簡單傻寂、有效息尺、表現(xiàn)優(yōu)秀,然而詞袋模型的缺點是只能作為含有公共詞的文檔的相似性的指標疾掰,不能反映含有不同詞的文檔的相似性搂誉。
解決以上問題提出了latent topic models被提出, 常見的如下方法:
- latent semantic indexing
- latent dirichlet allocation
- doc2vec
基于上面的方法静檬,文檔將被表示為對一定數(shù)量主題的分布炭懊,相似的文檔的分布也相似。但基于主題分布模型的方法中很多參數(shù)(尤其是主題維度)經(jīng)常難以確定
相比于latent topic models拂檩,統(tǒng)計學文檔特征擴充方法基于文檔源詞與文檔語料庫中所有詞的相關(guān)性來構(gòu)建上下文侮腹,而相關(guān)性是根據(jù)統(tǒng)計數(shù)據(jù)得到的,通常為co-occurrence frequencies稻励,這樣一來BOW產(chǎn)生的稀疏文檔特征向量就被擴充為稠密特征向量父阻,并且這種方法沒有像topics models一樣的限制。
常用的文檔特征擴充方法是Context Vector Model(CVM)望抽,該方法把和源文檔中任意詞相關(guān)的詞判別為文檔的相關(guān)詞加矛,把在同一篇文檔中中共現(xiàn)的詞判別為兩個詞相關(guān)。但由于文檔的物理限制煤篙,基于這種方法獲取詞之間的相關(guān)性的效果不理想斟览。
為了檢測詞之間的傳遞相關(guān)性(不能根據(jù)co-occurrence frequencies檢測),條件概率是一個很好的idel舰蟆,在這篇文章中把詞之間的相關(guān)性形式化為條件概率趣惠,這樣就可以從理論上推測傳遞相關(guān)性了狸棍,同時基于詞邊緣概率和全概率為條件的條件概率的關(guān)系來避免高估傳遞相關(guān)性。
本文貢獻
- 通過詞之間的傳遞相關(guān)性來度量文檔之間的語意相似性
- 通過最小化以全概率公式為基礎(chǔ)獲得的邊緣概率和以原始的頻率為基礎(chǔ)獲得的邊緣概率之間的區(qū)別提出了三個度量詞之間傳遞相關(guān)性的策略
- 實驗表明本文提出的方法比現(xiàn)有最優(yōu)秀方法有更好的表現(xiàn)
相關(guān)工作
對BOW特征向量的擴充味悄,已經(jīng)有很多相關(guān)的工作草戈,根據(jù)詞和文檔之間相關(guān)關(guān)系的度量方法可以分為兩類
- 統(tǒng)計學方法有下面兩個步驟:
- 1、couting frequencies
- 2侍瑟、smoothing functions(PCP唐片、PPMI、Jaccard)
- 以知識庫為基礎(chǔ)的方法涨颜,常見的有:
- WordNet involved Document Representation method
- Disambiguated Core Semantics method
知識庫雖然比共現(xiàn)頻率更可靠费韭,但是往往不匹配或過期
統(tǒng)計學文檔特征擴充方法中包含詞和文檔之間關(guān)系的完整詞向量由各個部分詞向量組合而成。目前這個想法已經(jīng)運用在了神經(jīng)網(wǎng)絡領(lǐng)域庭瑰。即神經(jīng)網(wǎng)絡的輸入為低維空間詞向量用于句子建模的卷積神經(jīng)網(wǎng)絡通過卷積核將這些特征向量組合(DRBM通過RBM組合詞向量星持、WMD通過將計算文檔之間距離的問題映射到一個已經(jīng)被成熟研究的Earth Movers Distance)文章中將上面的方法歸類為主題模型
雖然本文的關(guān)注點在于如何計算詞之間的相關(guān)性,但還是對統(tǒng)計業(yè)務流中的某些其他方面進行了提升:
- 通過S-VSM來避免詞向量的過度擴充(僅僅考慮top-k語意相關(guān))
- 提出DDE來組合詞向量(對每個維度賦予不同的權(quán)重)
預備知識
表一中展示了本文中用到的符號:
在BOW中文檔集合D中有m個不同的字符弹灭,它們用來構(gòu)建特征空間督暂,D中的任意文檔,它的特征向量表示如下:
考慮到BOW不能識別包含不同詞的文檔的相似性穷吮,所以提出了CVM逻翁,用來通過一組加權(quán)的詞向量來發(fā)現(xiàn)文檔的意義。
V中任意的的上下文詞向量被定義為(Billhardt et al.):
一般情況下捡鱼,詞的意思應該獨立于語料庫的尺寸八回。因此,這里引入了語料庫中的出現(xiàn)頻率
來表達
的上下文驾诈。
中的值用來度量
和語料庫V中詞的關(guān)系缠诅。
組合所有的詞向量,我們可以得到一個m * m的矩陣(上下文矩陣)翘鸭,CVM生成的文檔向量為:
基于CVM的文檔特征向量是在BOW的基礎(chǔ)上根據(jù)語料庫中所有詞與源詞之間的平均關(guān)系來擴充的滴铅,而這里的關(guān)系在這里被定義為詞與詞之間的顯式關(guān)系,下圖顯示由于文檔的物理限制就乓,這種關(guān)系是有局限性的汉匙。
類似于本文中的idel,CRM(Coupled term-term Relation Model)已經(jīng)實現(xiàn)了推測傳遞關(guān)系生蚁,該方法中完全關(guān)系被表示為:顯式關(guān)系和隱式關(guān)系的組合噩翠,核心公式如下:
其中,
表示語料庫中
公共現(xiàn)詞的個數(shù)邦投。
上面CRM公式用一個簡單的參數(shù)來控制不同詞對下顯式關(guān)系和隱式關(guān)系的權(quán)重伤锚,這有降低特征向量的區(qū)分力的危險。
全概率模型
本文通過顯式關(guān)系直接計算完全關(guān)系志衣,這里將對
顯式關(guān)系形式化為條件概率:
概率化后可以為推測隱式關(guān)系提供理論基礎(chǔ)屯援,也為發(fā)現(xiàn)完全關(guān)系和詞的邊緣概率之間的關(guān)系提供的保證猛们。通過線性回歸可以自動推測顯式關(guān)系和隱式關(guān)系的權(quán)重。
定義完全關(guān)系
假設一個詞在另一個詞出現(xiàn)的條件下的條件概率可以通過它們對于語料庫中所有詞的當前分布(詞的邊緣概率狞洋,對于語料庫中不同的詞賦予不同的權(quán)重)來修正弯淘。則有下面的修正后的條件概率公式:
考慮到在大多數(shù)情況下并不是獨立的吉懊,所以有下面的近似相等公式:
所以本文的公式中采用來控制詞
出現(xiàn)的獨立性,使等式成立借嗽。
修正后的條件概率公式中當時(
時同理)态鳖,
,可知此時:
而即為
之間的顯式關(guān)系浆竭,因此,以上定義的條件概率就是完全關(guān)系惨寿,它通過參數(shù)
組合了顯式關(guān)系和隱式關(guān)系兆蕉。
下面介紹參數(shù)的獲得方法
參數(shù)估計
-
通過邊緣概率估計參數(shù)
有如下符號化約定:假設
已知,由全概率公式可得:
這里的參數(shù)
可以抵消聯(lián)合概率中事件依賴帶來的沖突缤沦。
擴展為一個m*m的矩陣
,上面等式可以表達如下:
令易稠,則A中第k列第i行的元素即為聯(lián)合概率
在式子13的基礎(chǔ)上缸废,參數(shù)估計就等價于最優(yōu)化下面的公式:
等式14的可解析方程為:
-
通過常數(shù)約束進行估計
也可以通過語料庫中所有詞以源詞出現(xiàn)為條件的條件概率推導出來,有如下等式:
上式中兩邊同除以可以得到:
和式12類似驶社,式17可以表達為如下形式:
上式中的是一個m維向量企量,其中所有的值為1,則參數(shù)估計的目標方程可以表示為如下等式:
可解析表達式如下:
上面就是基于常數(shù)約束的參數(shù)估計亡电。 -
通過語意一致性進行估計
上面的討論中提到:届巩,這是因為
,通過引用等式8到這個等式中份乒,可以得到下面等式:
換為向量的形式:
令恕汇,參數(shù)估計等價于最小化下面的等式:
A中的第k列第i行的元素為聯(lián)合概率,可解析方程如下:
和等式15類似或辖,等式21中參數(shù)估計也是基于邊緣概率瘾英,但是和15不同的是,21中的約束條件為語意約束(一個詞和自身的共現(xiàn)關(guān)系為1)而不是基于全概率公式導出的約束颂暇。
方案實現(xiàn)
本文提出了三個參數(shù)估計的方式缺谴,使用這三個方式之前都需要我們首先構(gòu)建上下文矩陣,在式15和24中我們需要計算邊緣概率來進行參數(shù)估計耳鸯,得到參數(shù)之后湿蛔,我們就可以計算完全關(guān)系接著生成擴充BOW文檔特征向量膀曾,這部分將描述具體的工作流程。
這里一共采用三種方案來估計詞和詞之間的顯式關(guān)系阳啥,如下:
這里的都表示詞之間的顯式關(guān)系
-
PCP:
- PPMI:
這里添谊,
,這里實現(xiàn)PPMI采用的窗口大小為2苫纤,這意味著僅僅一個詞挨著另一個詞的情況下碉钠,這兩個詞才被認為是共現(xiàn)。
- LIN:
這里的是
在WordNet中對應的概念卷拘,
喊废,
表示最低公共包含。
正如公式5那樣栗弟,上面方法計算的詞之間的顯式關(guān)系被符號化為條件概率:
此處污筷,當i = j時,記$p(v_j|v_i) = 1
通常乍赫,我們假設一個詞的出現(xiàn)頻率足夠產(chǎn)生可靠的邊緣概率瓣蛀,為了使邊緣概率的計算更加可信,我們引入了一個閾值變量TH雷厂,它用來判斷一個詞的出現(xiàn)評率是否充足惋增。不是一般性,這里假設預料庫V中各個詞出現(xiàn)的評率逆序排列改鲫,則這里的邊緣概率采用下面的公式計算:
上式中為每個小頻率詞賦予相同的邊緣概率诈皿,并且這里賦予小頻率詞評率的權(quán)重為1,(小頻率詞通常表達一些特殊的意義,它有更強的連接兩個詞的能力)像棘,結(jié)果有入下的形式化參數(shù)向量:
上面稽亏,
與上面類似,令:
則的計算入下:
上式中缕题,通過設置 less frequent words的權(quán)重為1截歉,即為所有m個詞的邊緣概率,且不考慮他們與less frequent words的共現(xiàn)烟零。
本文提出的文檔特征向量的擴充方案整理成如下算法:
第四步中的計算詞之間的完全關(guān)系的根據(jù)是公式6瘪松,第五步中產(chǎn)生擴充的文檔特征向量的根據(jù)是公式3。
結(jié)論
文檔聚類
1锨阿、擴充BOW是必要的凉逛;
2、考慮詞之間的隱式相關(guān)關(guān)系是必要的群井;
3状飞、詞的邊緣分布隱藏著一些固有的語義信息;
4、三種參數(shù)估計方法中诬辈,基于邊緣概率的方法表現(xiàn)最好酵使,基于語意的方法次之,基于常數(shù)的方法最差焙糟;
5口渔、專家?guī)斓闹R覆蓋面可能會影響以知識庫為基礎(chǔ)的方法;
6穿撮、本文提出的方法優(yōu)于主題模型缺脉。語意相似性估計
1、詞的多義性悦穿、同義性攻礼、語意轉(zhuǎn)化現(xiàn)象都增加了基于統(tǒng)計學的方法檢測人名、技術(shù)術(shù)語相似性的難度栗柒;
2礁扮、詞之間的相關(guān)性更能表達語法相關(guān)性而非語意相似性。
展望
NNMs在非監(jiān)督學習問題中(NLP)用得很少瞬沦,在本文的實驗中太伊,NNM在兩個任務中都沒有足夠好的表現(xiàn),這里將表現(xiàn)不好的原因歸結(jié)為以下幾個方面:
對于非監(jiān)督任務逛钻,NNMs給的信息量過大:NNM在文檔特征向量中嵌入的不僅僅是語意形式僚焦,還有很多語法信息,這些不必要的信息可以通過監(jiān)督訓練過濾掉曙痘,但是這也許會影響非監(jiān)督方法的計算過程叠赐。此外,非監(jiān)督的關(guān)鍵是采用盡可能少的信息訓練百萬級的參數(shù)屡江,從這方面講,TPMF和TPMS獲取的詞之間的共現(xiàn)頻率赛不、詞的出現(xiàn)頻率就可以成為新的約束惩嘉,把它們加入NNMs中有提高NNMs表現(xiàn)的可能。
本文實驗結(jié)果表明踢故,統(tǒng)計學方法和基于專家知識的方法在文檔聚類和語意相似度估計中各有長短文黎,所以集成以專家知識為基礎(chǔ)的方法和本文提出的方法來強化詞語關(guān)系估計效果,進而緩解知識覆蓋面有限的問題是很有價值的殿较。
在用基于知識的方法來推測隱式關(guān)系之前耸峭,一詞多義問題也需要控制。