最近面試中經(jīng)常被問到常用的詞向量的表示方式,這里就整理一下常見的類型
1油昂、詞頻做向量值
Bag-of-words model (BoW model)最早出現(xiàn)在自然語言處理(Natural Language Processing)和信息檢索(Information Retrieval)領(lǐng)域.振惰。該模型忽略掉文本的語法和語序等要素令野,將其僅僅看作是若干個詞匯的集合贮勃,文檔中每個單詞的出現(xiàn)都是獨(dú)立的魔眨。BoW使用一組無序的單詞(words)來表達(dá)一段文字或一個文檔.棉安。近年來底扳,BoW模型被廣泛應(yīng)用于計算機(jī)視覺中。
基于文本的BoW模型的一個簡單例子如下:
假設(shè)有兩個簡單的文本:
John likes to watch movies. Mary likes too.
John also likes to watch football games.
基于上面的兩個句子贡耽,我們可以構(gòu)建如下的字典:
{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}
上面的詞典中包含10個單詞, 每個單詞有唯一的索引, 那么每個文本我們可以使用一個10維的向量來表示衷模。如下:
[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1,1, 1, 0, 1, 1, 1, 0, 0]
該向量與原來文本中單詞出現(xiàn)的順序沒有關(guān)系,而是詞典中每個單詞在文本中出現(xiàn)的頻率蒲赂。
Distributed Representation是一個稠密阱冶、低維的實(shí)數(shù)限量,它的每一維表示詞語的一個潛在特征滥嘴,該特征捕獲了有用的句法和語義特征木蹬。其特點(diǎn)是將詞語的不同句法和語義特征分布到它的每一個維度上去表示。
2若皱、詞權(quán)重做向量值
詞權(quán)重作為向量值镊叁,TFIDF等term weighting來當(dāng)做詞向量尘颓。會搭配著BOW模型使用,比如先定位了每句話出現(xiàn)的詞晦譬,然后填上的不是頻數(shù)疤苹,而是每個詞的權(quán)重。
我們首先來介紹一下TFIDF的計算方法:
TF-IDF(Term Frequency–Inverse Document Frequency)是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)敛腌。TF-IDF是一種統(tǒng)計方法卧土,用以評估一字詞對于一個文件集或一個語料庫中的其中一份 文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加像樊,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降夸溶。TF-IDF加權(quán)的各種形式常被搜索 引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級凶硅。
TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高缝裁,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力足绅,適合用來分類捷绑。TF-IDF實(shí)際上是:TF * IDF。
詞頻(Term Frequency氢妈,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率粹污。這個數(shù)字是對詞數(shù)(term count)的歸一化,以防止它偏向長的文件首量。(同一個詞語在長文件里可能會比短文件有更高的詞數(shù)壮吩,而不管該詞語重要與否。)
逆向文件頻率(Inverse Document Frequency加缘,IDF)是一個詞語普遍重要性的度量鸭叙。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目拣宏,再將得到的商取對數(shù)得到沈贝。
某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率勋乾,可以產(chǎn)生出高權(quán)重的TF-IDF宋下。因此,TF-IDF傾向于過濾掉常見的詞語辑莫,保留重要的詞語学歧。
TF-IDF的計算公式如下:
3、word2vec詞向量
有關(guān)word2vec表示詞向量的方法各吨,可以參考之前簡書
4枝笨、神經(jīng)概率語言模型
有關(guān)神經(jīng)概率語言模型的知識,參考之前的簡書:
http://www.reibang.com/p/44139f1b46c5
5、主題模型中的topic-word向量
主題模型建立之后伺帘,會得到兩個矩陣昭躺,一個是主題-詞語向量矩陣忌锯;一個是文檔-主題向量矩陣伪嫁。其中的主題-詞語矩陣,可以用來代表每個詞偶垮。實(shí)際上张咳,其是代表每個詞在每個主題下的頻率,但是作為潛在語義的判別也十分有效似舵,業(yè)界會開發(fā)使用脚猾,來作為了解文檔詞語相關(guān)性的判別。
這個概率公式可以用矩陣表示:
其中”文檔-詞語”矩陣表示每個文檔中每個單詞的詞頻砚哗,即出現(xiàn)的概率龙助;”主題-詞語”矩陣表示每個主題中每個單詞的出現(xiàn)概率;”文檔-主題”矩陣表示每個文檔中每個主題出現(xiàn)的概率蛛芥。