word2vec在學(xué)歷造假中的探索

前言

如果你想了解word2vec的原理父泳，這篇文章并不適合你般哼，出門右轉(zhuǎn)用google。
這篇文章的東西含金量不高惠窄，希望搞NLP蒸眠，ML，DL的專業(yè)人士輕拍杆融。
因為含金量不高楞卡，所以有一些諸如數(shù)據(jù)預(yù)處理的一些瑣碎的東西，因此比較適合新手村的新手任務(wù)脾歇。

背景

在我們的系統(tǒng)中蒋腮，有一處是需要校驗一個人提供的學(xué)歷信息是否真實。系統(tǒng)現(xiàn)有的算法準確率比較高藕各，但是召回率比較低池摧。
舉一個例子來說明一下學(xué)歷造假相關(guān)背景。以計算機相關(guān)專業(yè)為例：
計算機科學(xué)與技術(shù)是一級學(xué)科激况，計算機應(yīng)用技術(shù),信息安全,計算機系統(tǒng)結(jié)構(gòu)是二級學(xué)科作彤。軟件工程現(xiàn)在貌似已經(jīng)是一級學(xué)科?
在碩士研究生和博士研究生的授位中，是按照二級學(xué)科來區(qū)分的誉碴。但學(xué)計算機的人都懂的宦棺，其實都一樣。以至于很多人都不知道自己是哪個二級學(xué)科的黔帕，然后問題就來了，讓你填你的畢業(yè)專業(yè)蹈丸，你填哪個呢成黄？填錯了會不會被認為是學(xué)歷造假？

問題

顯然逻杖，這是一個短文本匹配問題奋岁，文本短到僅由兩三個詞構(gòu)成。而且荸百，由于專業(yè)的局限性闻伶，非專業(yè)人士基本分不清某個一級學(xué)科下面有哪些二級學(xué)科。

解決辦法

編輯距離够话，這個算法的缺點明顯：計算機科學(xué)與技術(shù)和信息安全的編輯距離蓝翰，想想都覺得大，字面上看來一點關(guān)系都沒有女嘲。
word2vec：借助NLP的東西來計算兩個專業(yè)之間的相似度畜份，挖掘隱藏信息。

基于word2vec的短文本相似度

語料

語料我選擇的是中文維基百科欣尼，下載地址是：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
獲得語料之后爆雹，還需要對語料進行一些預(yù)處理：
（此處參考了：http://licstar.net/archives/262）

抽取正文文本
繁簡轉(zhuǎn)換

分詞

中文相關(guān)的處理，分詞是繞不開的一個步驟，我采用了ICT分詞的java版钙态。

word2vec

我試圖用一些線程的word2vec的jar包來直接訓(xùn)練分詞后的語料慧起，但找了好幾個，內(nèi)存都爆了册倒。無奈蚓挤，我只能在spark mllib上手動做了一個。代碼就不貼了剩失，很簡單屈尼，mllib有現(xiàn)成的word2vec算法庫。

得到詞向量之后拴孤，怎么表達成短文的向量呢脾歧？
我采用了一個簡單粗暴的辦法：向量疊加。直接將短文本分詞后的詞向量疊加起來演熟，再用余弦相似度來計算相似度鞭执。
看一下結(jié)果吧：

實驗結(jié)果對比

其中，相似度A是現(xiàn)在系統(tǒng)跑的算法芒粹，相似度B是基于word2vec向量疊加的相似度兄纺。
可見，word2vec有效地挖掘出來了專業(yè)之間的潛在聯(lián)系化漆。

結(jié)論

從上面的圖中可以看出估脆，在word2vec中，一級學(xué)科和二級學(xué)科的相似度顯著提升座云。
軟件工程作為一個一級學(xué)科疙赠，跟計算機科學(xué)與技術(shù)也有極高的相似度，帶來了更大的誤導(dǎo)朦拖，但其實軟件工程作為計算機的相關(guān)專業(yè)確實相關(guān)性極高圃阳。

未來工作

有比向量疊加更好的點子么？應(yīng)該有吧璧帝，卷積應(yīng)該是一個不錯的選擇捍岳，但是我還沒有想好怎么卷積，畢竟我的場景比較特殊睬隶，沒有標注好的樣本進行訓(xùn)練（因為專業(yè)是有限可枚舉的锣夹，如果有功夫標注的話，我想不需要模型來算相似度了理疙，因此我的場景只是需要一個辦法來計算相似度）晕城。如果各位有啥好的點子，還請不吝賜教窖贤。

參考文獻

http://licstar.net/archives/262

最后編輯于：2017.12.10 07:22:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末砖顷，一起剝皮案震驚了整個濱河市贰锁，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌滤蝠，老刑警劉巖豌熄，帶你破解...
沈念sama閱讀 221,548評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異物咳，居然都是意外死亡锣险，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門览闰，熙熙樓的掌柜王于貴愁眉苦臉地迎上來芯肤，“玉大人，你說我怎么就攤上這事压鉴⊙伦桑” “怎么了？”我有些...
開封第一講書人閱讀 167,990評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵油吭，是天一觀的道長击蹲。經(jīng)常有香客問我，道長婉宰，這世上最難降的妖魔是什么歌豺？我笑而不...
開封第一講書人閱讀 59,618評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮心包，結(jié)果婚禮上类咧，老公的妹妹穿的比我還像新娘。我一直安慰自己蟹腾，他們只是感情好轮听，可當(dāng)我...
茶點故事閱讀 68,618評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著岭佳，像睡著了一般。火紅的嫁衣襯著肌膚如雪萧锉。梳的紋絲不亂的頭發(fā)上珊随，一...
開封第一講書人閱讀 52,246評論 1贊 308
城市分裂傳說
那天，我揣著相機與錄音柿隙，去河邊找鬼叶洞。笑死，一個胖子當(dāng)著我的面吹牛禀崖，可吹牛的內(nèi)容都是我干的衩辟。我是一名探鬼主播，決...
沈念sama閱讀 40,819評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼波附，長吁一口氣：“原來是場噩夢啊……” “哼艺晴！你這毒婦竟也來了昼钻？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,725評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤封寞，失蹤者是張志新（化名）和其女友劉穎然评，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體狈究，經(jīng)...
沈念sama閱讀 46,268評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡碗淌，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,356評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了抖锥。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亿眠。...
茶點故事閱讀 40,488評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖磅废，靈堂內(nèi)的尸體忽然破棺而出纳像，到底是詐尸還是另有隱情，我是刑警寧澤还蹲，帶...
沈念sama閱讀 36,181評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布爹耗，位于F島的核電站，受9級特大地震影響谜喊，放射性物質(zhì)發(fā)生泄漏潭兽。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,862評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一斗遏、第九天我趴在偏房一處隱蔽的房頂上張望山卦。院中可真熱鬧，春花似錦诵次、人聲如沸账蓉。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評論 0贊 24
一樁弒父案逾一，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽铸本。三九已至，卻和暖如春遵堵，著一層夾襖步出監(jiān)牢的瞬間箱玷，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,445評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工陌宿，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留锡足，地道東北人。一個月前我還...
沈念sama閱讀 48,897評論 3贊 376
代替公主和親
正文我出身青樓壳坪，卻偏偏與公主長得像舶得，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子爽蝴，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,500評論 2贊 359