word2vec在學(xué)歷造假中的探索

前言

  1. 如果你想了解word2vec的原理父泳,這篇文章并不適合你般哼,出門右轉(zhuǎn)用google。
  2. 這篇文章的東西含金量不高惠窄,希望搞NLP蒸眠,ML,DL的專業(yè)人士輕拍杆融。
  3. 因為含金量不高楞卡,所以有一些諸如數(shù)據(jù)預(yù)處理的一些瑣碎的東西,因此比較適合新手村的新手任務(wù)脾歇。

背景

在我們的系統(tǒng)中蒋腮,有一處是需要校驗一個人提供的學(xué)歷信息是否真實。系統(tǒng)現(xiàn)有的算法準確率比較高藕各,但是召回率比較低池摧。
舉一個例子來說明一下學(xué)歷造假相關(guān)背景。以計算機相關(guān)專業(yè)為例:
計算機科學(xué)與技術(shù)是一級學(xué)科激况,計算機應(yīng)用技術(shù),信息安全,計算機系統(tǒng)結(jié)構(gòu)是二級學(xué)科作彤。軟件工程現(xiàn)在貌似已經(jīng)是一級學(xué)科?
在碩士研究生和博士研究生的授位中,是按照二級學(xué)科來區(qū)分的誉碴。但學(xué)計算機的人都懂的宦棺,其實都一樣。以至于很多人都不知道自己是哪個二級學(xué)科的黔帕,然后問題就來了,讓你填你的畢業(yè)專業(yè)蹈丸,你填哪個呢成黄?填錯了會不會被認為是學(xué)歷造假?

問題

顯然逻杖,這是一個短文本匹配問題奋岁,文本短到僅由兩三個詞構(gòu)成。而且荸百,由于專業(yè)的局限性闻伶,非專業(yè)人士基本分不清某個一級學(xué)科下面有哪些二級學(xué)科。

解決辦法

  1. 編輯距離够话,這個算法的缺點明顯:計算機科學(xué)與技術(shù)信息安全的編輯距離蓝翰,想想都覺得大,字面上看來一點關(guān)系都沒有女嘲。
  2. word2vec: 借助NLP的東西來計算兩個專業(yè)之間的相似度畜份,挖掘隱藏信息。

基于word2vec的短文本相似度

語料

語料我選擇的是中文維基百科欣尼,下載地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
獲得語料之后爆雹,還需要對語料進行一些預(yù)處理:
(此處參考了:http://licstar.net/archives/262

  1. 抽取正文文本
  2. 繁簡轉(zhuǎn)換

分詞

中文相關(guān)的處理,分詞是繞不開的一個步驟,我采用了ICT分詞的java版钙态。

word2vec

我試圖用一些線程的word2vec的jar包來直接訓(xùn)練分詞后的語料慧起,但找了好幾個,內(nèi)存都爆了册倒。無奈蚓挤,我只能在spark mllib上手動做了一個。代碼就不貼了剩失,很簡單屈尼,mllib有現(xiàn)成的word2vec算法庫。

得到詞向量之后拴孤,怎么表達成短文的向量呢脾歧?
我采用了一個簡單粗暴的辦法:向量疊加。直接將短文本分詞后的詞向量疊加起來演熟,再用余弦相似度來計算相似度鞭执。
看一下結(jié)果吧:


實驗結(jié)果對比

其中,相似度A是現(xiàn)在系統(tǒng)跑的算法芒粹,相似度B是基于word2vec向量疊加的相似度兄纺。
可見,word2vec有效地挖掘出來了專業(yè)之間的潛在聯(lián)系化漆。

結(jié)論

  1. 從上面的圖中可以看出估脆,在word2vec中,一級學(xué)科和二級學(xué)科的相似度顯著提升座云。
  2. 軟件工程作為一個一級學(xué)科疙赠,跟計算機科學(xué)與技術(shù)也有極高的相似度,帶來了更大的誤導(dǎo)朦拖,但其實軟件工程作為計算機的相關(guān)專業(yè)確實相關(guān)性極高圃阳。

未來工作

  1. 有比向量疊加更好的點子么?應(yīng)該有吧璧帝,卷積應(yīng)該是一個不錯的選擇捍岳,但是我還沒有想好怎么卷積,畢竟我的場景比較特殊睬隶,沒有標注好的樣本進行訓(xùn)練(因為專業(yè)是有限可枚舉的锣夹,如果有功夫標注的話,我想不需要模型來算相似度了理疙,因此我的場景只是需要一個辦法來計算相似度)晕城。如果各位有啥好的點子,還請不吝賜教窖贤。

參考文獻

  1. http://licstar.net/archives/262
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末砖顷,一起剝皮案震驚了整個濱河市贰锁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌滤蝠,老刑警劉巖豌熄,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異物咳,居然都是意外死亡锣险,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進店門览闰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來芯肤,“玉大人,你說我怎么就攤上這事压鉴⊙伦桑” “怎么了?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵油吭,是天一觀的道長击蹲。 經(jīng)常有香客問我,道長婉宰,這世上最難降的妖魔是什么歌豺? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮心包,結(jié)果婚禮上类咧,老公的妹妹穿的比我還像新娘。我一直安慰自己蟹腾,他們只是感情好轮听,可當(dāng)我...
    茶點故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著岭佳,像睡著了一般。 火紅的嫁衣襯著肌膚如雪萧锉。 梳的紋絲不亂的頭發(fā)上珊随,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天,我揣著相機與錄音柿隙,去河邊找鬼叶洞。 笑死,一個胖子當(dāng)著我的面吹牛禀崖,可吹牛的內(nèi)容都是我干的衩辟。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼波附,長吁一口氣:“原來是場噩夢啊……” “哼艺晴!你這毒婦竟也來了昼钻?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤封寞,失蹤者是張志新(化名)和其女友劉穎然评,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體狈究,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡碗淌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了抖锥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亿眠。...
    茶點故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖磅废,靈堂內(nèi)的尸體忽然破棺而出纳像,到底是詐尸還是另有隱情,我是刑警寧澤还蹲,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布爹耗,位于F島的核電站,受9級特大地震影響谜喊,放射性物質(zhì)發(fā)生泄漏潭兽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一斗遏、第九天 我趴在偏房一處隱蔽的房頂上張望山卦。 院中可真熱鬧,春花似錦诵次、人聲如沸账蓉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽铸本。三九已至,卻和暖如春遵堵,著一層夾襖步出監(jiān)牢的瞬間箱玷,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工陌宿, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留锡足,地道東北人。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓壳坪,卻偏偏與公主長得像舶得,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子爽蝴,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容