一、需求
對登記納稅人的注冊地址進(jìn)行相似度計算,發(fā)現(xiàn)單個納稅人可能存在的一址多注冊喇勋。
二、數(shù)據(jù)
數(shù)據(jù)來源:登記納稅人數(shù)據(jù)
數(shù)據(jù)量:百萬級
部分?jǐn)?shù)據(jù)展示:
三偎行、數(shù)據(jù)預(yù)處理
1川背,取數(shù),從hive中提取數(shù)據(jù)
2蛤袒,去重熄云、構(gòu)造專業(yè)詞庫、分詞妙真、去停用詞
四缴允、算法
采用gensim庫,gensim是一個基于Python語言的開源工具集珍德,用于處理向量空間模型(vector space modeling)和話題模型(topic modeling)的相關(guān)問題练般。
1,生成了包含所有詞語的詞典锈候。
2踢俄,有了前一步生成的詞典,我們就可以將每個詞語轉(zhuǎn)化成一個索引晴及,表示該詞語在所有文檔中出現(xiàn)的次序都办,然后每個文檔就可以轉(zhuǎn)化成一個索引的列表。
3虑稼,調(diào)用gensim中的tf-idf模塊來進(jìn)一步對每個單詞計算權(quán)重琳钉。
4,采用了余弦相似度作為衡量指標(biāo)蛛倦,進(jìn)行注冊地址相似度計算歌懒。
五、算法應(yīng)用
通過flask起算法服務(wù)溯壶,通過接口地址訪問及皂。
六、調(diào)用結(jié)果展示
七且改、備注
1验烧,由于是專業(yè)數(shù)據(jù),停用詞庫最好簡化又跛,基本上每個詞都有用碍拆,想要提高準(zhǔn)確率,專業(yè)詞庫是必須的。
2感混,當(dāng)數(shù)據(jù)量超百萬時端幼,gesim在計算相似度時可能存在內(nèi)存錯誤,可以用similarities.Similarity類替換弧满,該類存在三個參數(shù)婆跑。
3,本項(xiàng)目有兩個腳本庭呜,一個是批量跑數(shù)腳本滑进,另一個是服務(wù)腳本。
八疟赊、項(xiàng)目代碼
想要項(xiàng)目的兩個詳細(xì)腳本私聊我郊供,加微信。