Wrod2vec算法_3分鐘熱情學(xué)NLP第4篇

第4篇:3分鐘熱情學(xué)NLP故黑,word2vec

在NLP領(lǐng)域儿咱,文本表示是第1步,也是很重要的1步场晶。所謂文本表示混埠,即如何把自然語(yǔ)言的語(yǔ)言符號(hào),轉(zhuǎn)化成計(jì)算機(jī)能夠處理的數(shù)字诗轻。

文本向量化.png

1钳宪、文本向量化

現(xiàn)階段,文本向量化扳炬,大部分是通過(guò)詞向量化來(lái)實(shí)現(xiàn)的吏颖;也有一部分算法,將整篇文章或整條句子作為最小處理單位來(lái)實(shí)現(xiàn)文本向量化恨樟,如doc2vec半醉;

1.1、獨(dú)熱編碼one-hot

one-hot編碼劝术,是最直觀的1個(gè)詞表示方式缩多。構(gòu)建1個(gè)文本詞典呆奕,每個(gè)分詞是1個(gè)比特值,比特值為0或1衬吆。

動(dòng)物特征可表示為:
猴子:01
老虎:10
熊貓:11

植物的特征可表示為:
桃樹(shù):001
蘋(píng)果樹(shù):010
……

水果類(lèi)特征可表示為
蘋(píng)果:0001
香蕉:0010
葡萄:0011
芒果:0100
木瓜:0101
桃:0110
……
如果表示1句話[“猴子”梁钾,“桃樹(shù)”,“桃”]咆槽,用數(shù)字化表示即為陈轿;
[0,1秦忿,0麦射,0,1灯谣,0潜秋,1,1胎许,0]
以上峻呛,就是one-hot的表示方式。如果1篇文章由1000個(gè)詞辜窑,那么每個(gè)詞匯都要用1000維向量來(lái)表示钩述,而且每個(gè)詞匯只有1個(gè)位置為“1”,其他999個(gè)位置為“0”穆碎,相應(yīng)地有1萬(wàn)個(gè)詞牙勘,就要用1萬(wàn)維向量來(lái)表示,每個(gè)詞都是茫茫0海中的一個(gè)“1”所禀。

the cat sat on the mat 可表示為:

the cat sat on the mat

one-hot的主要缺點(diǎn):
1方面、隨著語(yǔ)料庫(kù)的增加,數(shù)據(jù)特征的維度會(huì)越來(lái)越大色徘,而且得到的是1個(gè)非常稀疏的矩陣恭金。幾萬(wàn)甚至十幾萬(wàn)維的向量,會(huì)造成維數(shù)爆炸褂策,計(jì)算機(jī)會(huì)受不了横腿。
2、每個(gè)詞匯向量之間是無(wú)關(guān)的斤寂;

1.2蔑水、詞袋模型BOW(bag of words)

詞袋模型,將文本抽象成1個(gè)裝滿“詞”的袋子扬蕊,不考慮詞的順序、上下文或語(yǔ)法丹擎,只記錄這個(gè)詞出現(xiàn)的次數(shù)(進(jìn)行累加)尾抑;
the cat sat on the mat 可表示為:
[2,1,1,1,1]#單詞the歇父,出現(xiàn)了2次;

John likes to watch cricket. Chris likes cricket too 可表示為:
[1, 2, 1, 1, 2, 1, 1, 0, 0]再愈,#單詞likes 和 cricket均出現(xiàn)了2次榜苫。

1.3、詞嵌入 Word Embedding(或稱(chēng)詞向量)

摘錄1段知乎的回復(fù)https://www.zhihu.com/question/40309730/answer/86453469

理解 前面提過(guò)翎冲,one-hot表示法具有維度過(guò)大的缺點(diǎn)垂睬,那么現(xiàn)在將vector做一些改進(jìn):1、將vector每一個(gè)元素由整形改為浮點(diǎn)型抗悍,變?yōu)檎麄€(gè)實(shí)數(shù)范圍的表示驹饺;2、將原來(lái)稀疏的巨大維度壓縮嵌入到一個(gè)更小維度的空間缴渊。如圖示:


詞嵌入示意

以上赏壹,就是詞嵌入名字的由來(lái)。

Word Embedding 矩陣給每個(gè)單詞分配1個(gè)固定長(zhǎng)度的向量表示衔沼,并且這個(gè)矩陣長(zhǎng)度可以自行設(shè)置蝌借,可以設(shè)置1個(gè)遠(yuǎn)小于詞典長(zhǎng)度的長(zhǎng)處,比如設(shè)置為500指蚁;
詞與詞之間的夾角值(向量之前的余弦值)菩佑,可以反映詞之間的關(guān)系。

在本文中凝化,“詞嵌入”與“詞向量”這2個(gè)詞等價(jià)稍坯。

2 詞向量算法word2vec

word2vec算法,是2013年起很火的Word Embedding 模型缘圈,后面比較火的還有 glove劣光。

在一定范圍內(nèi),word2vec成了詞向量的1個(gè)代名詞糟把,甚至直接等價(jià)于詞向量绢涡。

word2vec模型,包括2種訓(xùn)練模型:CBOW(Continuous Bag-of-Words Model)模型和Skip-gram(Continuous Skip-Gram Model)模型

備注:
1遣疯、word2vec 和 glove雄可,均不需要標(biāo)注。
2缠犀、word2vec論文https://arxiv.org/abs/1301.3781
3数苫、參考網(wǎng)址:
https://www.cnblogs.com/jiangxinyang/p/9332769.html
https://www.cnblogs.com/jiangxinyang/p/10207273.html

2.1 word2vec之CBOW模型

一句話解釋?zhuān)豪蒙舷挛膩?lái)預(yù)測(cè)當(dāng)前的詞。

CBOW模型

第1層是輸入層辨液,輸入的值是上下文的one-hot編碼虐急;
隱藏層對(duì)輸出值做了權(quán)值加法,沒(méi)有激活函數(shù)進(jìn)行非線性的轉(zhuǎn)換滔迈;
輸出值的維度和輸入值的維度是一致的止吁。

2.2 word2vec之Skip-gram模型

一句話解釋?zhuān)河卯?dāng)前詞來(lái)預(yù)測(cè)上下文


Skip-gram模型

第1層是輸入層被辑,輸入值是中心詞的one-hot編碼;
隱藏層只是做線性轉(zhuǎn)換敬惦;
輸出的是輸出值的softmax轉(zhuǎn)換后的概率盼理。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市俄删,隨后出現(xiàn)的幾起案子宏怔,更是在濱河造成了極大的恐慌,老刑警劉巖畴椰,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件臊诊,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡迅矛,警方通過(guò)查閱死者的電腦和手機(jī)妨猩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)秽褒,“玉大人壶硅,你說(shuō)我怎么就攤上這事∠澹” “怎么了庐椒?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)蚂踊。 經(jīng)常有香客問(wèn)我约谈,道長(zhǎng),這世上最難降的妖魔是什么犁钟? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任棱诱,我火速辦了婚禮,結(jié)果婚禮上涝动,老公的妹妹穿的比我還像新娘迈勋。我一直安慰自己,他們只是感情好醋粟,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布靡菇。 她就那樣靜靜地躺著,像睡著了一般米愿。 火紅的嫁衣襯著肌膚如雪厦凤。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,111評(píng)論 1 285
  • 那天育苟,我揣著相機(jī)與錄音较鼓,去河邊找鬼。 笑死违柏,一個(gè)胖子當(dāng)著我的面吹牛博烂,可吹牛的內(nèi)容都是我干的拓哺。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼脖母,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了闲孤?” 一聲冷哼從身側(cè)響起谆级,我...
    開(kāi)封第一講書(shū)人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎讼积,沒(méi)想到半個(gè)月后肥照,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡勤众,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年舆绎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片们颜。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡吕朵,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出窥突,到底是詐尸還是另有隱情努溃,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布阻问,位于F島的核電站梧税,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏称近。R本人自食惡果不足惜第队,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望刨秆。 院中可真熱鬧凳谦,春花似錦、人聲如沸坛善。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)眠屎。三九已至剔交,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間改衩,已是汗流浹背岖常。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留葫督,地道東北人竭鞍。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓板惑,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親偎快。 傳聞我的和親對(duì)象是個(gè)殘疾皇子冯乘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容