Syntagmatic 關(guān)系發(fā)現(xiàn):互信息

Neil Zhu,簡書ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist奴紧,致力于推進(jìn)世界人工智能化進(jìn)程。制定并實(shí)施 UAI 中長期增長戰(zhàn)略和目標(biāo)晶丘,帶領(lǐng)團(tuán)隊(duì)快速成長為人工智能領(lǐng)域最專業(yè)的力量黍氮。
作為行業(yè)領(lǐng)導(dǎo)者,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識中心全球價值網(wǎng)絡(luò))浅浮,AI growth(行業(yè)智庫培訓(xùn))等滤钱,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分。此外脑题,他還參與或者舉辦過各類國際性的人工智能峰會和活動件缸,產(chǎn)生了巨大的影響力,書寫了60萬字的人工智能精品技術(shù)內(nèi)容叔遂,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》他炊,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載争剿。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程,均受學(xué)生和老師好評痊末。

Syntagmatic 關(guān)系發(fā)現(xiàn):互信息

Paste_Image.png

互信息 I(X;Y):衡量信息降低

在我們知道 Y 的情形下能夠降低 X 多少熵蚕苇?

Paste_Image.png

屬性:

  1. 非負(fù)性:I(X;Y) >= 0
  2. 對稱性:I(X;Y) = I(Y;X)
  3. 獨(dú)立性:I(X;Y) = 0 iff X 和 Y 是獨(dú)立的

當(dāng)我們固定 X 來對不同的 Y 進(jìn)行排名時,I(X;Y) 和 H(X|Y) 給出了相同的順序凿叠。但是 I(X;Y) 允許我們比較不同的 (X,Y) 對涩笤。

用作 syntagmatic 關(guān)系挖掘的互信息 I(X;Y)

Paste_Image.png

當(dāng) “eats” 出現(xiàn)時,其他什么詞也可能會出現(xiàn)盒件?
也就是其他哪些詞有與“eats”更高的互信息蹬碧?
互信息越高,出現(xiàn)的可能性就越大

使用 KL-divergence 來重寫互信息

Paste_Image.png

散度度量了實(shí)際的聯(lián)合分布與在獨(dú)立假設(shè)下的期望分布的散度(divergence)炒刁。散度越大恩沽,互信息就越大。

互信息中用到的概率

Paste_Image.png

上圖中翔始,細(xì)分了各種共現(xiàn)的情形罗心。

不同概率之間的關(guān)系

Paste_Image.png

這些都是相應(yīng)的概率之間的限制條件。

互信息的計算

Paste_Image.png

依賴數(shù)據(jù)的概率預(yù)測

Paste_Image.png

一般來說城瞎,都是通過共現(xiàn)數(shù)據(jù)來估計概率值

平滑:解決計數(shù)為 0 的出現(xiàn)次數(shù)

Paste_Image.png

通過引入偽數(shù)據(jù)讓所有的事件都有非零的計數(shù)

syntagmatic 關(guān)系發(fā)現(xiàn)的總結(jié)

  • syntagmatic 關(guān)系可以通過度量兩個詞的共現(xiàn)的相關(guān)性進(jìn)行發(fā)現(xiàn)
  • 來自信息論的三個概念:
  • 熵 H(X) :衡量了隨機(jī)變量 X 的不確定性
  • 條件熵 H(X|Y):已知 Y 的情況下 X 的熵
  • 互信息 I(X;Y):由于知道Y 導(dǎo)致的 X 的信息下降
  • 互信息提供了一種發(fā)現(xiàn) syntagmatic 關(guān)系的原理性方法

詞關(guān)聯(lián)挖掘的總結(jié)

  • 兩種基本關(guān)聯(lián):paradigmatic 和 syntagmatic
  • 應(yīng)用在任何的語言的任意項(xiàng)上(如渤闷,短語或者實(shí)體作為單元)
  • 純統(tǒng)計觀點(diǎn)可以用來發(fā)現(xiàn)兩種關(guān)聯(lián)(也可以進(jìn)行組合完成聯(lián)合分析)
  • 一般不需要人工,應(yīng)用在任何文本上
  • 對“context” 和 “segment”不同的定義對應(yīng)了不同應(yīng)用場景
  • 發(fā)現(xiàn)的關(guān)聯(lián)可以支持很多其他的應(yīng)用
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末脖镀,一起剝皮案震驚了整個濱河市飒箭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌认然,老刑警劉巖补憾,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異卷员,居然都是意外死亡盈匾,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進(jìn)店門毕骡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來削饵,“玉大人,你說我怎么就攤上這事未巫×耍” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵叙凡,是天一觀的道長劈伴。 經(jīng)常有香客問我,道長握爷,這世上最難降的妖魔是什么跛璧? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任严里,我火速辦了婚禮,結(jié)果婚禮上追城,老公的妹妹穿的比我還像新娘刹碾。我一直安慰自己,他們只是感情好座柱,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布迷帜。 她就那樣靜靜地躺著,像睡著了一般色洞。 火紅的嫁衣襯著肌膚如雪戏锹。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天锋玲,我揣著相機(jī)與錄音景用,去河邊找鬼涵叮。 笑死惭蹂,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的割粮。 我是一名探鬼主播盾碗,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼舀瓢!你這毒婦竟也來了廷雅?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤京髓,失蹤者是張志新(化名)和其女友劉穎航缀,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體堰怨,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡芥玉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了备图。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片灿巧。...
    茶點(diǎn)故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖揽涮,靈堂內(nèi)的尸體忽然破棺而出抠藕,到底是詐尸還是另有隱情,我是刑警寧澤蒋困,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布盾似,位于F島的核電站,受9級特大地震影響雪标,放射性物質(zhì)發(fā)生泄漏零院。R本人自食惡果不足惜购岗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望门粪。 院中可真熱鬧喊积,春花似錦、人聲如沸玄妈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拟蜻。三九已至绎签,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間酝锅,已是汗流浹背诡必。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留搔扁,地道東北人爸舒。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像稿蹲,于是被迫代替她去往敵國和親扭勉。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容