常見的詞向量類型

最近面試中經(jīng)常被問到常用的詞向量的表示方式,這里就整理一下常見的類型

1油昂、詞頻做向量值

Bag-of-words model (BoW model)最早出現(xiàn)在自然語言處理(Natural Language Processing)和信息檢索(Information Retrieval)領(lǐng)域.振惰。該模型忽略掉文本的語法和語序等要素令野,將其僅僅看作是若干個詞匯的集合贮勃,文檔中每個單詞的出現(xiàn)都是獨(dú)立的魔眨。BoW使用一組無序的單詞(words)來表達(dá)一段文字或一個文檔.棉安。近年來底扳,BoW模型被廣泛應(yīng)用于計算機(jī)視覺中。
基于文本的BoW模型的一個簡單例子如下:
假設(shè)有兩個簡單的文本:
John likes to watch movies. Mary likes too.
John also likes to watch football games.
基于上面的兩個句子贡耽,我們可以構(gòu)建如下的字典:
{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}
上面的詞典中包含10個單詞, 每個單詞有唯一的索引, 那么每個文本我們可以使用一個10維的向量來表示衷模。如下:
[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1,1, 1, 0, 1, 1, 1, 0, 0]
該向量與原來文本中單詞出現(xiàn)的順序沒有關(guān)系,而是詞典中每個單詞在文本中出現(xiàn)的頻率蒲赂。
Distributed Representation是一個稠密阱冶、低維的實(shí)數(shù)限量,它的每一維表示詞語的一個潛在特征滥嘴,該特征捕獲了有用的句法和語義特征木蹬。其特點(diǎn)是將詞語的不同句法和語義特征分布到它的每一個維度上去表示。

2若皱、詞權(quán)重做向量值

詞權(quán)重作為向量值镊叁,TFIDF等term weighting來當(dāng)做詞向量尘颓。會搭配著BOW模型使用,比如先定位了每句話出現(xiàn)的詞晦譬,然后填上的不是頻數(shù)疤苹,而是每個詞的權(quán)重。

我們首先來介紹一下TFIDF的計算方法:
TF-IDF(Term Frequency–Inverse Document Frequency)是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)敛腌。TF-IDF是一種統(tǒng)計方法卧土,用以評估一字詞對于一個文件集或一個語料庫中的其中一份 文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加像樊,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降夸溶。TF-IDF加權(quán)的各種形式常被搜索 引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級凶硅。
TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高缝裁,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力足绅,適合用來分類捷绑。TF-IDF實(shí)際上是:TF * IDF。

詞頻(Term Frequency氢妈,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率粹污。這個數(shù)字是對詞數(shù)(term count)的歸一化,以防止它偏向長的文件首量。(同一個詞語在長文件里可能會比短文件有更高的詞數(shù)壮吩,而不管該詞語重要與否。)
逆向文件頻率(Inverse Document Frequency加缘,IDF)是一個詞語普遍重要性的度量鸭叙。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目拣宏,再將得到的商取對數(shù)得到沈贝。
某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率勋乾,可以產(chǎn)生出高權(quán)重的TF-IDF宋下。因此,TF-IDF傾向于過濾掉常見的詞語辑莫,保留重要的詞語学歧。
TF-IDF的計算公式如下:


3、word2vec詞向量

有關(guān)word2vec表示詞向量的方法各吨,可以參考之前簡書

4枝笨、神經(jīng)概率語言模型

有關(guān)神經(jīng)概率語言模型的知識,參考之前的簡書:
http://www.reibang.com/p/44139f1b46c5

5、主題模型中的topic-word向量

主題模型建立之后伺帘,會得到兩個矩陣昭躺,一個是主題-詞語向量矩陣忌锯;一個是文檔-主題向量矩陣伪嫁。其中的主題-詞語矩陣,可以用來代表每個詞偶垮。實(shí)際上张咳,其是代表每個詞在每個主題下的頻率,但是作為潛在語義的判別也十分有效似舵,業(yè)界會開發(fā)使用脚猾,來作為了解文檔詞語相關(guān)性的判別。

這個概率公式可以用矩陣表示:


其中”文檔-詞語”矩陣表示每個文檔中每個單詞的詞頻砚哗,即出現(xiàn)的概率龙助;”主題-詞語”矩陣表示每個主題中每個單詞的出現(xiàn)概率;”文檔-主題”矩陣表示每個文檔中每個主題出現(xiàn)的概率蛛芥。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末提鸟,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子仅淑,更是在濱河造成了極大的恐慌称勋,老刑警劉巖,帶你破解...
    沈念sama閱讀 223,207評論 6 521
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件涯竟,死亡現(xiàn)場離奇詭異赡鲜,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)庐船,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,455評論 3 400
  • 文/潘曉璐 我一進(jìn)店門银酬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人筐钟,你說我怎么就攤上這事捡硅。” “怎么了盗棵?”我有些...
    開封第一講書人閱讀 170,031評論 0 366
  • 文/不壞的土叔 我叫張陵壮韭,是天一觀的道長。 經(jīng)常有香客問我纹因,道長喷屋,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,334評論 1 300
  • 正文 為了忘掉前任瞭恰,我火速辦了婚禮屯曹,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己恶耽,他們只是感情好密任,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,322評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著偷俭,像睡著了一般浪讳。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上涌萤,一...
    開封第一講書人閱讀 52,895評論 1 314
  • 那天淹遵,我揣著相機(jī)與錄音,去河邊找鬼负溪。 笑死透揣,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的川抡。 我是一名探鬼主播辐真,決...
    沈念sama閱讀 41,300評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼崖堤!你這毒婦竟也來了侍咱?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,264評論 0 277
  • 序言:老撾萬榮一對情侶失蹤倘感,失蹤者是張志新(化名)和其女友劉穎放坏,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體老玛,經(jīng)...
    沈念sama閱讀 46,784評論 1 321
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡淤年,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,870評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蜡豹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片麸粮。...
    茶點(diǎn)故事閱讀 40,989評論 1 354
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖镜廉,靈堂內(nèi)的尸體忽然破棺而出弄诲,到底是詐尸還是另有隱情,我是刑警寧澤娇唯,帶...
    沈念sama閱讀 36,649評論 5 351
  • 正文 年R本政府宣布齐遵,位于F島的核電站,受9級特大地震影響塔插,放射性物質(zhì)發(fā)生泄漏梗摇。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,331評論 3 336
  • 文/蒙蒙 一想许、第九天 我趴在偏房一處隱蔽的房頂上張望伶授。 院中可真熱鬧断序,春花似錦、人聲如沸糜烹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,814評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽疮蹦。三九已至患雇,卻和暖如春佩憾,著一層夾襖步出監(jiān)牢的瞬間蔽介,已是汗流浹背副编。 一陣腳步聲響...
    開封第一講書人閱讀 33,940評論 1 275
  • 我被黑心中介騙來泰國打工扣典, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留妆毕,地道東北人。 一個月前我還...
    沈念sama閱讀 49,452評論 3 379
  • 正文 我出身青樓贮尖,卻偏偏與公主長得像笛粘,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子湿硝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,995評論 2 361

推薦閱讀更多精彩內(nèi)容