NLP之gensim庫(kù)python實(shí)現(xiàn)文本相似度/匹配/查重

目的

給定一個(gè)或多個(gè)搜索詞或详,如“高血壓 患者”狭园,從已有的若干篇文本中找出最相關(guān)的(n篇)文本沙咏。

理論知識(shí)

文本檢索(text retrieve)的常用策略是:用一個(gè)ranking function根據(jù)搜索詞對(duì)所有文本進(jìn)行排序宴胧,選取前n個(gè)晶姊,就像百度搜索一樣柬讨。

算法:模型選擇

  • 1崩瓤、基于word2vec的詞語(yǔ)相似度計(jì)算模型
  • 2、python的實(shí)現(xiàn)用到了gensim庫(kù)
  • 3踩官、“jieba”中文分詞

分步實(shí)現(xiàn):

  • jieba.cut
方法接受三個(gè)輸入?yún)?shù): 需要分詞的字符串却桶;cut_all 參數(shù)用來(lái)控制是否采用全模式;HMM 參數(shù)用來(lái)控制是否使用
   HMM 模型
構(gòu)建停用詞表
"""分詞蔗牡、去停用詞"""
# stopwords =["項(xiàng)目",'招標(biāo)','中標(biāo)', '公告', '標(biāo)題']  # 停用詞
stopwords = []
stopwords = [ w.strip() for w in stopwords ]

結(jié)巴分詞后的停用詞性 [標(biāo)點(diǎn)符號(hào)颖系、連詞、助詞辩越、副詞嘁扼、介詞、時(shí)語(yǔ)素黔攒、‘的’偷拔、數(shù)詞、方位詞亏钩、代詞]

# stop_flag = ['x', 'c', 'u', 'd', 'p', 't', 'uj', 'm', 'f', 'r']  # 停用詞性
stop_flag = []

對(duì)一篇文章分詞莲绰、去停用詞

def tokenization(filename):
    result = []
    with open(filename, 'r') as f:
        text = f.read()
        words = pseg.cut(text)
    for word, flag in words:
        if flag not in stop_flag and word not in stopwords:
            result.append(word)
    return result

對(duì)目錄下的所有文本進(jìn)行預(yù)處理,構(gòu)建字典

corpus = [];
dirname = 'demo/articles'
filenames = []
for f in files:
    corpus.append(tokenization(text))
    filenames.append(text)
dictionary = corpora.Dictionary(corpus)
print len(dictionary)

建立詞袋模型
 # 生成詞向量
    doc_vectors = [dictionary.doc2bow(text) for text in corpus]  # 語(yǔ)料庫(kù)
    
建立TF-IDF模型
# 生成TF-IDF模型
tfidf = models.TfidfModel(doc_vectors)  # TF-IDF模型對(duì)語(yǔ)料庫(kù)建模
tfidf_vectors = tfidf[doc_test_vec]  # 每個(gè)詞的TF-IDF值
相似矩陣計(jì)算相似度
index = similarities.MatrixSimilarity(tfidf[doc_vectors])
sim = index[tfidf[doc_test_vec]]   # 獲取分值索引
print(sim)
相似度排序
scores=sorted(enumerate(sim), key=lambda item: -item[1])  # 排序
print(scores[0][1])  # 輸出分值

結(jié)果示例:

測(cè)試數(shù)據(jù)為: 富寧縣里達(dá)中學(xué)宿舍樓建設(shè)項(xiàng)目
匹配結(jié)果集(匹配度從大到泄贸蟆)  [(2, 1.0), (31, 0.07981655), (43, 0.077732354), (33, 0.06620947), (30, 0.065360494), (14, 0.061563488), (6, 0.05077639), (22, 0.05062699), (7, 0.044322222), (42, 0.044024862), (21, 0.043359876), (26, 0.035853535), (27, 0.03457492), (29, 0.033902794), (45, 0.03236963), (25, 0.031936638), (40, 0.030814772), (48, 0.030788476), (20, 0.027607089), (8, 0.02558621), (11, 0.024541285), (5, 0.024447413), (28, 0.020779021), (4, 0.020459857), (13, 0.015429099), (34, 0.014453442), (50, 0.011855431), (36, 0.006562164), (0, 0.006476198), (32, 0.0051991176), (46, 0.00477116), (35, 0.0047449875), (38, 0.004728446), (18, 0.004499278), (41, 0.004158474), (44, 0.0037516006), (47, 0.0036311403), (15, 0.003384664), (37, 0.00318741), (23, 0.0030692797), (17, 0.0022487652), (39, 0.0020392523), (24, 0.0016430109), (12, 0.0014699087), (1, 0.0), (3, 0.0), (9, 0.0), (10, 0.0), (16, 0.0), (19, 0.0), (49, 0.0)]
分析結(jié)果為:中標(biāo)項(xiàng)目:富寧縣里達(dá)中學(xué)宿舍樓建設(shè)項(xiàng)目   最大匹配度為 1.0

測(cè)試數(shù)據(jù)為: 濕地保護(hù)與恢復(fù)建設(shè)工程
匹配結(jié)果集(匹配度從大到懈蚯)  [(13, 0.57420367), (40, 0.10633894), (48, 0.106248185), (43, 0.10532686), (49, 0.0816016), (12, 0.077999234), (31, 0.07725123), (25, 0.07712983), (11, 0.058984473), (50, 0.05736675), (7, 0.047928438), (34, 0.04754001), (33, 0.04504219), (30, 0.038571842), (22, 0.037484765), (27, 0.03233484), (45, 0.031974725), (14, 0.0313408), (26, 0.030683806), (5, 0.030661184), (2, 0.026870431), (4, 0.02638424), (8, 0.026375605), (20, 0.02581845), (35, 0.024404963), (32, 0.019936334), (28, 0.019432766), (44, 0.018292043), (42, 0.018038727), (38, 0.01745583), (6, 0.017230202), (17, 0.015729848), (46, 0.013131632), (29, 0.012461022), (19, 0.0117950225), (47, 0.0064870343), (0, 0.0), (1, 0.0), (3, 0.0), (9, 0.0), (10, 0.0), (15, 0.0), (16, 0.0), (18, 0.0), (21, 0.0), (23, 0.0), (24, 0.0), (36, 0.0), (37, 0.0), (39, 0.0), (41, 0.0)]
分析結(jié)果為:中標(biāo)項(xiàng)目:四川省若爾蓋國(guó)際重要濕地保護(hù)與恢復(fù)建設(shè)工程第1標(biāo)段   最大匹配度為 0.57420367
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市栅哀,隨后出現(xiàn)的幾起案子震肮,更是在濱河造成了極大的恐慌,老刑警劉巖留拾,帶你破解...
    沈念sama閱讀 218,204評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件戳晌,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡痴柔,警方通過(guò)查閱死者的電腦和手機(jī)沦偎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人豪嚎,你說(shuō)我怎么就攤上這事搔驼。” “怎么了侈询?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,548評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵舌涨,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我扔字,道長(zhǎng)囊嘉,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,657評(píng)論 1 293
  • 正文 為了忘掉前任革为,我火速辦了婚禮扭粱,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘篷角。我一直安慰自己焊刹,他們只是感情好系任,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布恳蹲。 她就那樣靜靜地躺著,像睡著了一般俩滥。 火紅的嫁衣襯著肌膚如雪嘉蕾。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,554評(píng)論 1 305
  • 那天霜旧,我揣著相機(jī)與錄音错忱,去河邊找鬼。 笑死挂据,一個(gè)胖子當(dāng)著我的面吹牛以清,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播崎逃,決...
    沈念sama閱讀 40,302評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼掷倔,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了个绍?” 一聲冷哼從身側(cè)響起勒葱,我...
    開(kāi)封第一講書(shū)人閱讀 39,216評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎巴柿,沒(méi)想到半個(gè)月后凛虽,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,661評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡广恢,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評(píng)論 3 336
  • 正文 我和宋清朗相戀三年凯旋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,977評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡瓦阐,死狀恐怖蜗侈,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情睡蟋,我是刑警寧澤踏幻,帶...
    沈念sama閱讀 35,697評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站戳杀,受9級(jí)特大地震影響该面,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜信卡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評(píng)論 3 330
  • 文/蒙蒙 一隔缀、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧傍菇,春花似錦猾瘸、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,898評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至咐低,卻和暖如春揽思,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背见擦。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,019評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工钉汗, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人鲤屡。 一個(gè)月前我還...
    沈念sama閱讀 48,138評(píng)論 3 370
  • 正文 我出身青樓损痰,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親酒来。 傳聞我的和親對(duì)象是個(gè)殘疾皇子卢未,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容