word2vec

1. 萬物可嵌入:

embeddings本質(zhì)反映了一種狀態(tài)轉(zhuǎn)移的概率逻杖,所以任何離散奋岁、會(huì)同時(shí)出現(xiàn)的模式都可以用嵌入后預(yù)測(cè)的方法解決。

2. 為什么不使用one-hot?

不能表示詞之間的關(guān)系荸百,空間太大

3. 訓(xùn)練方法

skip-gram cbow,普通使用skip-gram,

p(o|c) = \frac{e^{<v_c,u_o>} }{\sum e^{}} diff使用所有預(yù)測(cè)的one-hot和訓(xùn)練求diff,loss使用softmax函數(shù)

4. 加速訓(xùn)練的方法

negative sampling

1. skip-gram的費(fèi)用函數(shù):

(1)在目標(biāo)函數(shù)方面闻伶,希望給定語料corpus中的每一個(gè)詞,希望預(yù)測(cè)得到它窗口中的詞的可能性是最大的够话,根據(jù)最大似然理論蓝翰,目標(biāo)函數(shù)就是

L = \prod_{i=1}^t \prod_{m=-j}^j p(w_{t+m}|w_{t} )

最大化目標(biāo)函數(shù)的反面是最小化loss函數(shù)光绕,將相乘取log后再取負(fù),就得到了費(fèi)用函數(shù)是:

J = -\sum_{1}^t\sum_{-j}^j(log(p(w_{t+m}|w_{t})))

那么我們的目標(biāo)就是選取和調(diào)整theta畜份,使得J(\theta)取得最小值

(2)p(w_{t+m}|w_t)的計(jì)算

v_c代表c為中心詞(center)時(shí)詞向量--從輸入層到隱藏層的詞向量

u_o代表o為周圍詞(outsider)時(shí)詞的詞向量--從隱藏層到輸出層的詞向量

那么p(o|c)為:


(3) 梯度計(jì)算

這個(gè)梯度很難計(jì)算

反過來看這個(gè)問題诞帐,如果是cbow模型,除了最大可能性的那一個(gè)爆雹,我們其實(shí)根本不關(guān)心其他的可能性是多大停蕉,即對(duì)于

\frac{e^a}{e^a+e^b+e^c+e^d} 中,我們其實(shí)并不關(guān)心b,c,d是什么顶别,把最大可能性的那一個(gè)拿出來谷徙,其他的看做是不可能的,那么問題退化成為一個(gè)二分類問題驯绎,求得二分類的參數(shù)完慧。

文章1論證了這個(gè)退化了的問題和原問題是同解的問題。目標(biāo)函數(shù)轉(zhuǎn)換為單純的二分問題剩失,目標(biāo)函數(shù)變?yōu)椋?/p>

arg max \prod_{(w,c)} p(D = 1 \vert c,w)

這個(gè)目標(biāo)函數(shù)存在一個(gè)問題屈尼,如果我們?cè)O(shè)定θ使得每一對(duì)(w,c)的p(D=1|w,c;θ)=1,那這個(gè)目標(biāo)函數(shù)就無意義了拴孤。而只要設(shè)置θ對(duì)所有vc和vw脾歧,使得vc=vw且vc?vw=K,而K是一個(gè)足夠大的數(shù)字演熟,則這種情況很容易出現(xiàn)(在Goldberg[1]的實(shí)驗(yàn)中當(dāng)K≈40時(shí)鞭执,概率就為1了)。因?yàn)闉榱吮苊馑邢蛄慷际窍嗤闹得⒋猓梢匀サ裟承?w,c)的組合兄纺,即可以隨機(jī)選擇(w,c)對(duì)中的一部分作為負(fù)例。也就是讓正例的可能性大化漆,但是又是適當(dāng)?shù)拇蠊来啵蕴砩狭素?fù)例。目標(biāo)函數(shù)被改成:

這個(gè)函數(shù)在求解的導(dǎo)數(shù)的時(shí)候就變得容易求解了座云。而對(duì)于vc,vw的更新疙赠,也僅限于正例的參數(shù)和負(fù)例的參數(shù),不會(huì)更新海量的所有詞庫的參數(shù)了朦拖。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末圃阳,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子璧帝,更是在濱河造成了極大的恐慌捍岳,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異祟同,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)理疙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門晕城,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人窖贤,你說我怎么就攤上這事砖顷。” “怎么了赃梧?”我有些...
    開封第一講書人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵滤蝠,是天一觀的道長。 經(jīng)常有香客問我授嘀,道長物咳,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任蹄皱,我火速辦了婚禮览闰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘巷折。我一直安慰自己压鉴,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開白布锻拘。 她就那樣靜靜地躺著油吭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪署拟。 梳的紋絲不亂的頭發(fā)上婉宰,一...
    開封第一講書人閱讀 51,462評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音芯丧,去河邊找鬼芍阎。 笑死,一個(gè)胖子當(dāng)著我的面吹牛缨恒,可吹牛的內(nèi)容都是我干的谴咸。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼骗露,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼岭佳!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起萧锉,我...
    開封第一講書人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤珊随,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體叶洞,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鲫凶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了衩辟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片螟炫。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖艺晴,靈堂內(nèi)的尸體忽然破棺而出昼钻,到底是詐尸還是另有隱情,我是刑警寧澤封寞,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布然评,位于F島的核電站,受9級(jí)特大地震影響狈究,放射性物質(zhì)發(fā)生泄漏碗淌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一抖锥、第九天 我趴在偏房一處隱蔽的房頂上張望贯莺。 院中可真熱鬧,春花似錦宁改、人聲如沸缕探。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽爹耗。三九已至,卻和暖如春谜喊,著一層夾襖步出監(jiān)牢的瞬間潭兽,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來泰國打工斗遏, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留山卦,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓诵次,卻偏偏與公主長得像账蓉,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子逾一,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 詞向量也稱為詞嵌入铸本,是指將詞轉(zhuǎn)換成為向量的形式。 為何需要詞向量 對(duì)于非結(jié)構(gòu)化的數(shù)據(jù):音頻遵堵,圖片箱玷,文字怨规。前面兩種的...
    shohokuooo閱讀 9,825評(píng)論 3 51
  • 最近新接觸文本分類問題,對(duì)于我來數(shù)第一個(gè)問題就是Word Embedding這個(gè)詞到底是什么意思锡足,因此也就開始學(xué)習(xí)...
    小松qxs閱讀 24,856評(píng)論 2 27
  • 本文關(guān)鍵詞:NLP波丰、詞向量、word2vec舶得、ELMo呀舔、語言模型該系列更新的第二篇已在個(gè)人微信公眾號(hào)「AI極客 」...
    流川楓AI閱讀 27,541評(píng)論 6 48
  • word2vec是google在2013年推出的一個(gè)NLP工具,它是將所有的詞向量化扩灯,這樣詞與詞之間就可以定量的去...
    高永峰_GYF閱讀 3,763評(píng)論 0 5
  • 預(yù)備知識(shí):LR、貝葉斯公式霜瘪、赫夫曼編碼珠插、統(tǒng)計(jì)語言模型、n-gram模型颖对、神經(jīng)概率語言模型捻撑、詞向量、詞袋模型缤底、sof...
    rssivy閱讀 4,377評(píng)論 0 3