新詞發(fā)現(xiàn)

參考資料

主要參考了以下兩篇文章:
互聯(lián)網(wǎng)時(shí)代的社會(huì)語言學(xué):基于SNS的文本數(shù)據(jù)挖掘
基于信息熵和互信息的新詞識(shí)別

分詞依據(jù)

對(duì)于一個(gè)給定的文本张惹,從中抽取一個(gè)片段叹俏,如果這個(gè)片段的內(nèi)部成分搭配穩(wěn)定,并且左右搭配很豐富,則認(rèn)為是一個(gè)詞。將這樣的片段抽取出來顾翼,按照出現(xiàn)的頻率排序,選擇排在前面的那些作為我們發(fā)現(xiàn)的詞語蒜撮。再進(jìn)一步通過固有詞典過濾掉已經(jīng)存在的“舊詞”,剩下的就是“新詞”了。
如何理解“內(nèi)部成分搭配穩(wěn)定”和“左右搭配豐富”呢段磨?
假設(shè)有2個(gè)字符組成的片段“AB”出現(xiàn)在文本中若干次取逾,如果A出現(xiàn)了,B總會(huì)緊接著出現(xiàn)苹支,B出現(xiàn)了砾隅,A也出現(xiàn),即A债蜜、B總是成對(duì)出現(xiàn)晴埂,而不會(huì)出現(xiàn)AC、AD或者EB寻定、BF這種儒洛,我們就認(rèn)為“AB”這個(gè)片段的內(nèi)部成分搭配是最穩(wěn)定的,A或B單獨(dú)出現(xiàn)的次數(shù)越多狼速,則“AB”的穩(wěn)定性越低琅锻。
即使A、B總是一起出現(xiàn)向胡,但是假設(shè)“AB”后面跟的字符總是C恼蓬,即“AB”的右搭配只有一個(gè),我們也認(rèn)為“AB”不能成詞(可能“ABC”是一個(gè)詞也說不定)僵芹,如果“AB”后面可以接CDEFG……各種字处硬,我們就說“AB”的右搭配很豐富,左搭配同理拇派。
內(nèi)部搭配的穩(wěn)定性和左右搭配的豐富程度涉及到兩個(gè)概念荷辕,“互信息”和“信息熵

互信息的概念

以下摘自維基百科

在概率論和信息論中,兩個(gè)隨機(jī)變量的互信息(Mutual Information攀痊,簡稱MI)或轉(zhuǎn)移信息(transinformation)是變量間相互依賴性的量度桐腌。

一般地,兩個(gè)離散隨機(jī)變量 X 和 Y 的互信息可以定義為:

I(X;Y) = \sum_{y \in Y}\sum_{x \in X}p(x,y)\log(\cfrac{p(x,y)}{p(x)p(y)})

由于我們?cè)诜衷~的時(shí)候是不考慮同義詞的情況的苟径,即不同的字符串代表不同的詞案站。對(duì)于一個(gè)已知的文本片段和它的分割點(diǎn),這兩個(gè)“隨機(jī)變量”只有一個(gè)值棘街,上面的公式可以簡化為:

I(x;y) = \log(\cfrac{p(x,y)}{p(x)p(y)})

對(duì)于一個(gè)長度大于2的文本片段蟆盐,它的分割點(diǎn)不止一個(gè),例如“ABC”可以分為“AB”和“C”或者“A”和“BC”,這時(shí)候一個(gè)文本片段就會(huì)有多個(gè)互信息值遭殉,我們?nèi)∽钚〉囊粋€(gè)作為詞的聚合度石挂。
為什么要取最小的呢?考慮這樣一種實(shí)際情況险污,“的蝙蝠”這個(gè)文本片段痹愚, 如果把它分割成“的蝙”和“蝠”這兩個(gè)子片段富岳,它的聚合度是很高的,“的蝙”幾乎不會(huì)單獨(dú)出現(xiàn)拯腮,“蝠”也很少和其他字搭配,但是"的蝙蝠"卻不是一個(gè)詞窖式。因?yàn)榘阉鸪伞暗摹焙汀膀稹焙螅酆隙仁呛艿偷亩溃驗(yàn)椤暗摹庇袩o數(shù)種搭配萝喘,“蝙蝠”也可以組合成“只蝙蝠”、“蝙蝠俠”等琼懊。
實(shí)際上阁簸,通過這種方法發(fā)現(xiàn)的新詞以兩字詞居多,三字詞較少哼丈,而且多是由兩字詞再加一個(gè)字組成的启妹。這可能和中國人的用詞習(xí)慣有關(guān)。聚合度很高的三字詞(“加拿大”削祈、“紅領(lǐng)巾”)不多見翅溺,但是,四字詞反而多了一些(成語)髓抑。
而且咙崎,由兩字詞加一個(gè)字組成的詞可能和那個(gè)兩字詞都作為新詞被抽出來。例如前面提到的“蝙蝠俠”這個(gè)詞吨拍,如果訓(xùn)練文本是關(guān)于影視的褪猛,“蝙蝠俠”很可能作為新詞出現(xiàn),而“蝙蝠”可能因?yàn)閱为?dú)出現(xiàn)次數(shù)過少羹饰,就沒有被篩選出來伊滋。這個(gè)時(shí)候如果再給訓(xùn)練集加入等量的關(guān)于動(dòng)物的文本,“蝙蝠”就很有可能作為新詞出現(xiàn)了队秩,這個(gè)時(shí)候“蝙蝠俠”的詞頻和聚合度會(huì)降低笑旺,但是依然超過其他的詞,所以它也是一個(gè)新詞馍资。

信息熵的概念

以下摘自維基百科:

在信息論中筒主,熵(英語:entropy)是接收的每條消息中包含的信息的平均量,又被稱為信息熵鸟蟹、信源熵乌妙、平均自信息量。

matrix67的文章對(duì)這個(gè)概念有一個(gè)直觀的解釋建钥,這里直接抄過來:

20180928182345.png

依據(jù)Boltzmann's H-theorem藤韵,香農(nóng)把隨機(jī)變量X的熵值 Η(希臘字母Eta)定義如下,其值域?yàn)閧x1, ..., xn}:

H(X)=E[(I(X)]=E[-\ln(P(X))]

其中熊经,P為X的概率質(zhì)量函數(shù)(probability mass function)泽艘,E為期望函數(shù)欲险,而I(X)是X的資訊量(又稱為資訊本體)。I(X)本身是個(gè)隨機(jī)變數(shù)匹涮。
當(dāng)取自有限的樣本時(shí)盯荤,熵的公式可以表示為:

H(X)=\sum_iP(x_i)I(x_i)=-\sum_iP(x_i)\log_bP(x_i)

對(duì)于一個(gè)詞w,我們統(tǒng)計(jì)出它所有的左鄰字集合left={l_1,l_2,l_3……l_n}焕盟,每個(gè)字在文本中出現(xiàn)的概率為p(l_i),可以計(jì)算出w的左信息熵leftEntropy=-p(l_1)\log p(l_1)-p(l_2)\log p(l_2)-p(l_3)\log p(l_3)-……-p(l_n)\log p(l_n),同理可求出右信息熵rightEntropy宏粤,取leftEntropyrightEntropy的較小值作為最終信息熵脚翘。

測試效果

準(zhǔn)備數(shù)據(jù)

測試數(shù)據(jù)用的是快看漫畫APP社區(qū)的動(dòng)態(tài),因?yàn)閿?shù)據(jù)量太大绍哎,第一次只取了前100w行来农。隨便找了一段截圖在下面??,可以看到有很多的表情符號(hào)(這個(gè)后面會(huì)過濾掉)崇堰,而且有很多空行沃于,從右邊??的縮略圖可以看出來。


20181023120725.png

第一次測試

第一次測試的時(shí)候海诲,按照逐行導(dǎo)入數(shù)據(jù)的方式繁莹,可以看到每次導(dǎo)入1000行的時(shí)間越來越長。因?yàn)殡S著導(dǎo)入的數(shù)據(jù)越來越多特幔,整個(gè)詞典在變大咨演,計(jì)算信息熵的時(shí)間變長。


20181023140030.png

并且蚯斯,從下圖可以發(fā)現(xiàn)薄风,排在前面的詞居然是一些表情。z這是因?yàn)槲乙婚_始只考慮了過濾一些符號(hào):

[\s\d,.<>/?:;'"\[\]{}()\|~!@#$%^&*\-_=+a-zA-Z拍嵌,遭赂。《》横辆、撇他?:;“”‘’{}【】()…¥龄糊!—┄-]

雖然知道會(huì)有,但是沒想到出現(xiàn)的頻率這么高??(嗯逆粹,我忽略了這是一個(gè)二次元社區(qū),而且活躍用戶多是一些95后的青少年)炫惩。


20181023135944.png

第二次測試

然后我就加了一些過濾:

[\ud83c\udc00-\ud83c\udfff]|[\ud83d\udc00-\ud83d\udfff]|[\u2600-\u27ff]|[\s\d,.<>/?:;'"\[\]{}()\|~!@#$%^&*\-_=+a-zA-Z\uFF0C\u3002\u300A\u300B\u3001\uFF1F\uFF1A\uFF1B\u201C\u201D\u2018\u2019\uFF5B\uFF5D\u3010\u3011\uFF08\uFF09\u2026\uFFE5\uFF01\u2014\u2504\uFF0D\u2022\u03C9\u0334\u0300\uD83E\uDD14\u203C\u0300\u03C9\u1D52\uFF5E\u200B\u3000\uD83E\uDD23\u0325\u2501\u2299\u25BD]

并且每次處理100萬行數(shù)據(jù)(大概30M)僻弹,第二次的測試結(jié)果如下


20181023155413

并且處理的時(shí)間也縮短了(100萬行不到2分鐘,第一個(gè)數(shù)字是數(shù)據(jù)的總長度他嚷,第二個(gè)是處理完成后詞典中詞的數(shù)量)


20181023164614

統(tǒng)計(jì)結(jié)果

統(tǒng)計(jì)了出現(xiàn)頻率最高的前100個(gè)新詞如下:
["朝花","作者大大","咬痕","銳思","啦啦","伊凱","馬蓉","要要要","林早上","呵呵呵","啦啦啦","嗯嗯","點(diǎn)贊","污污","千璽","芙蕾","呵呵呵呵","蛤蛤","狗糧","夏天島","嗚嗚嗚","考神","搞事","粗長","蛤蛤蛤","污污污","什么鬼","小莘","爆照","福利圖","啪啪啪","羅真","女主","斯里","蓮蓮","傲嬌","林路","耽美","藍(lán)斯","啦啦啦啦","蛤蛤蛤蛤","男主","宋喆","謹(jǐn)斯里","水默","微博","寫作業(yè)","寶強(qiáng)","南煙","嗚嗚嗚嗚","壁咚","懵逼","易烊千璽","搞事情","萌萌","應(yīng)憐","考神保佑","單身狗","朝花惜時(shí)","簽售","高冉","洛逸","老司機(jī)","微信","炫童","高仿","加油加油","鏡玄","小黃文","咳咳","江哥","學(xué)生黨","同款","嗷嗷嗷","晴藍(lán)","暖男","哇哇哇","腐女","龍之谷","開車開車","閨蜜","瑪麗蘇","南煙齋","清英","老宮","番外","保佑保佑","狂魔","沒毛病","嘿嘿嘿嘿","小仙女","鹿晗","停更","必過","秀恩愛","注意身體","部漫畫","威風(fēng)堂堂","小貝","柯小"]
可以看到排名靠前的是一些快看漫畫特有的詞匯:朝花蹋绽、咬痕芭毙、銳思等;還有一些關(guān)于學(xué)生的:寫作業(yè)卸耘、考神退敦、學(xué)生黨等;關(guān)于戀愛的:壁咚蚣抗、單身狗侈百、啪啪啪等;另外翰铡,這份數(shù)據(jù)是按照時(shí)間排序的钝域,所以這前100萬行數(shù)據(jù)應(yīng)該是快看剛開發(fā)出社區(qū)功能時(shí)候的,所以也體現(xiàn)了當(dāng)時(shí)的熱點(diǎn)锭魔,例如寶強(qiáng)例证、馬蓉、宋喆都出現(xiàn)在了詞表里面迷捧。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末织咧,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子漠秋,更是在濱河造成了極大的恐慌笙蒙,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,464評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件庆锦,死亡現(xiàn)場離奇詭異手趣,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)肥荔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門绿渣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人燕耿,你說我怎么就攤上這事中符。” “怎么了誉帅?”我有些...
    開封第一講書人閱讀 169,078評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵淀散,是天一觀的道長。 經(jīng)常有香客問我蚜锨,道長档插,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,979評(píng)論 1 299
  • 正文 為了忘掉前任亚再,我火速辦了婚禮郭膛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘氛悬。我一直安慰自己则剃,他們只是感情好耘柱,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,001評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著棍现,像睡著了一般调煎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上己肮,一...
    開封第一講書人閱讀 52,584評(píng)論 1 312
  • 那天士袄,我揣著相機(jī)與錄音,去河邊找鬼谎僻。 笑死窖剑,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的戈稿。 我是一名探鬼主播,決...
    沈念sama閱讀 41,085評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼讶舰,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼鞍盗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起跳昼,我...
    開封第一講書人閱讀 40,023評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤般甲,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后鹅颊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體敷存,經(jīng)...
    沈念sama閱讀 46,555評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,626評(píng)論 3 342
  • 正文 我和宋清朗相戀三年堪伍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了锚烦。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,769評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡帝雇,死狀恐怖涮俄,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情尸闸,我是刑警寧澤彻亲,帶...
    沈念sama閱讀 36,439評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站吮廉,受9級(jí)特大地震影響苞尝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宦芦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,115評(píng)論 3 335
  • 文/蒙蒙 一宙址、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧调卑,春花似錦曼氛、人聲如沸豁辉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽徽级。三九已至,卻和暖如春聊浅,著一層夾襖步出監(jiān)牢的瞬間餐抢,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評(píng)論 1 274
  • 我被黑心中介騙來泰國打工低匙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留旷痕,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,191評(píng)論 3 378
  • 正文 我出身青樓顽冶,卻偏偏與公主長得像欺抗,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子强重,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,781評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 介紹 網(wǎng)絡(luò)領(lǐng)域的新詞發(fā)現(xiàn)是一個(gè)非常重要的nlp課題绞呈。在處理文本對(duì)象時(shí),非常關(guān)鍵的問題在于“切詞”這個(gè)環(huán)節(jié)间景,幾乎所有...
    濤笙依舊_閱讀 5,533評(píng)論 0 4
  • 本文主要參考文獻(xiàn)1佃声, 主要目的是記錄和簡化核心規(guī)則,并根據(jù)實(shí)踐提出了一些實(shí)踐中的方案倘要。 新詞發(fā)現(xiàn)規(guī)則 新詞發(fā)現(xiàn)主要...
    galois_xiong閱讀 1,160評(píng)論 0 0
  • 1.基于互信息和左右信息熵的短語提取識(shí)別 2.反作弊基于左右信息熵和互信息的新詞挖掘 3.基于spark的新詞發(fā)現(xiàn)...
    御風(fēng)之星閱讀 1,326評(píng)論 0 1
  • 新詞自動(dòng)發(fā)現(xiàn)已經(jīng)成為文本挖掘方面非郴鳎基本常用的技術(shù)了。比如封拧,我為了實(shí)現(xiàn)某個(gè)idea志鹃,需要對(duì)NBA新聞評(píng)論語料進(jìn)行分...
    紫松閱讀 1,127評(píng)論 6 12
  • 曾在書中看到這樣一句話:生活中90%的壓力來源于攀比尝苇,而非生存铛只。 在“佛系”一詞爆紅網(wǎng)絡(luò)的這個(gè)時(shí)間節(jié)點(diǎn)里,貌似這句...
    濁酒一壺慰風(fēng)塵閱讀 571評(píng)論 0 2