Word Representation

編碼

任何信息在計(jì)算機(jī)內(nèi)的存儲(chǔ)方式都是數(shù)字砚婆,更加具體的說是0-1的二進(jìn)制碼意蛀。為了能夠讓生活中的語言能夠存儲(chǔ)于計(jì)算機(jī)中,我們會(huì)給所有的字符(包括字母字符夺饲,漢子等所有的其他語言文字)一個(gè)編碼方式奸汇,比如小寫字母a在計(jì)算機(jī)中編碼的十進(jìn)制是97,大寫字母A的編碼是65往声。只要每個(gè)字符的編碼能夠區(qū)別于其他的字符就行擂找。當(dāng)然為了處理更加復(fù)雜的問題,比如單詞浩销,詞語贯涎。同樣需要用“數(shù)字”去表示它們。這里的數(shù)字就是指向量撼嗓。

one-hot 表示

one-hot詞表示方式是構(gòu)造與詞字典相同長度的向量柬采,所有的詞按照一定次序,向量的某個(gè)維度不為0且警,表示該位置的詞粉捻。也就是說詞向量的表示其中一位不為0,其余的都是零斑芜。
例如:
字典只有5個(gè)詞
V = {"don't", "hate", "I", "it", "love"}
e.g. : hate=[0,1,0,0,0], it=[0,0,0,1,0]

對(duì)于一句話可以有兩種表示方式:一種是將對(duì)于的詞向量拼接起來肩刃,還有一種是計(jì)算句子中每個(gè)詞出現(xiàn)的頻數(shù)。
D="I love it"
sequential 表示方式:[00100 | 00001 | 00010]
bag of words(BOW)表示方式:[00111]

seq的表示方式具有詞序的信息,長度是隨著句子的長度增長而 增長盈包,而bow表示方式?jīng)]有詞序信息沸呐,但是長度固定。

對(duì)于one-hot的表示方式存在以下的三點(diǎn)缺點(diǎn):

  • 每個(gè)詞的向量長度等于詞匯表的長度呢燥,英語常見單詞50000崭添,中文的更加多,常見的詞匯至少500000叛氨。對(duì)于seq的表示方式將是無法接受的呼渣。
  • 雖然BOW的長度固定,但是BOW的表示方式?jīng)]有詞序寞埠。
  • 這種表示方式喪失了詞的語義信息屁置。

word2vec (Distributed representation)

word2vec就是一種word 的低維表示方式,或者稱為word distributed representation.[1],[2]
這兩篇Paper都是Google 的 Tomas Mikolov 2013年的工作仁连,并公布了代碼蓝角。他提出了兩個(gè)模型CBOW和Skip-gram。其實(shí)更早做word 的distributed representation的是 bengio 2003 年的paper “A Neural Probabilistic Language Model”[3]

word2vec方法有兩個(gè)重要的特點(diǎn),一個(gè)是速度快,另一個(gè)是具有語義信息绝淡,如果兩個(gè)詞的含義比較接近的話,它們?cè)谙蛄靠臻g也比較接近并徘;并且能夠得到如下的類似于"A-B = C-D",比如“中國- 北京 = 法國-巴黎”扰魂,即北京市中國的首都麦乞,巴黎是法國的首都。word2vec得到的向量是低維的劝评,一般維度在50-200維姐直,相比于one-hot的幾萬維甚至幾十萬維大大降低了存儲(chǔ)效率。

參考

[1].Distributed Representations of Words and Phrases and their Compositionality
[2].Efficient Estimation of Word Representations in Vector Space
[3].A Neural Probabilistic Language Model

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蒋畜,一起剝皮案震驚了整個(gè)濱河市声畏,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌姻成,老刑警劉巖插龄,帶你破解...
    沈念sama閱讀 211,817評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異科展,居然都是意外死亡均牢,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門才睹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來徘跪,“玉大人甘邀,你說我怎么就攤上這事】迓” “怎么了松邪?”我有些...
    開封第一講書人閱讀 157,354評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長哨查。 經(jīng)常有香客問我逗抑,道長,這世上最難降的妖魔是什么寒亥? 我笑而不...
    開封第一講書人閱讀 56,498評(píng)論 1 284
  • 正文 為了忘掉前任锋八,我火速辦了婚禮,結(jié)果婚禮上护盈,老公的妹妹穿的比我還像新娘。我一直安慰自己羞酗,他們只是感情好腐宋,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,600評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著檀轨,像睡著了一般胸竞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上参萄,一...
    開封第一講書人閱讀 49,829評(píng)論 1 290
  • 那天卫枝,我揣著相機(jī)與錄音,去河邊找鬼讹挎。 笑死校赤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的筒溃。 我是一名探鬼主播马篮,決...
    沈念sama閱讀 38,979評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼怜奖!你這毒婦竟也來了浑测?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,722評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤歪玲,失蹤者是張志新(化名)和其女友劉穎迁央,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滥崩,經(jīng)...
    沈念sama閱讀 44,189評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡岖圈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,519評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了夭委。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片幅狮。...
    茶點(diǎn)故事閱讀 38,654評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡募强,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出崇摄,到底是詐尸還是另有隱情擎值,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布逐抑,位于F島的核電站鸠儿,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏厕氨。R本人自食惡果不足惜进每,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,940評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望命斧。 院中可真熱鬧田晚,春花似錦、人聲如沸国葬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽汇四。三九已至接奈,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間通孽,已是汗流浹背序宦。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評(píng)論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留背苦,地道東北人互捌。 一個(gè)月前我還...
    沈念sama閱讀 46,382評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像糠惫,于是被迫代替她去往敵國和親疫剃。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,543評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容