https://blog.csdn.net/qq_16633405/article/details/80578804
本文系轉(zhuǎn)載浩蓉,侵權(quán)刪除
Doc2Bow是Gensim中封裝的一個(gè)方法茬底,主要用于實(shí)現(xiàn)Bow模型瞭吃,下面主要介紹下Bow模型舔哪。
1、BoW模型原理
Bag-of-words model (BoW model) 最早出現(xiàn)在自然語言處理(Natural Language Processing)和信息檢索(Information Retrieval)領(lǐng)域.绳锅。該模型忽略掉文本的語法和語序等要素飒焦,將其僅僅看作是若干個(gè)詞匯的集合,文檔中每個(gè)單詞的出現(xiàn)都是獨(dú)立的悼沿。BoW使用一組無序的單詞(words)來表達(dá)一段文字或一個(gè)文檔.等舔。近年來,BoW模型被廣泛應(yīng)用于計(jì)算機(jī)視覺中糟趾。
基于文本的BoW模型的一個(gè)簡單例子如下:
首先給出兩個(gè)簡單的文本文檔如下:
John likes to watch movies. Mary likes too.
John also likes to watch football games.
基于上述兩個(gè)文檔中出現(xiàn)的單詞慌植,構(gòu)建如下一個(gè)詞典 (dictionary):
{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}
1
上面的詞典中包含10個(gè)單詞, 每個(gè)單詞有唯一的索引, 那么每個(gè)文本我們可以使用一個(gè)10維的向量來表示。如下:
[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1,1, 1, 0, 1, 1, 1, 0, 0]
該向量與原來文本中單詞出現(xiàn)的順序沒有關(guān)系义郑,而是詞典中每個(gè)單詞在文本中出現(xiàn)的頻率蝶柿。
也是通過余弦定理計(jì)算兩個(gè)句子的相似度。
2非驮、實(shí)踐Demo
import gensim
import jieba
# 訓(xùn)練樣本
from gensim import corpora
from gensim.similarities import Similarity
# fin = open("questions.txt",encoding='utf8').read().strip(' ') #strip()取出首位空格
jieba.load_userdict("userdict.txt")
stopwords = set(open('stopwords.txt',encoding='utf8').read().strip('\n').split('\n')) #讀入停用詞
raw_documents = [
'0無償居間介紹買賣毒品的行為應(yīng)如何定性',
'1吸毒男動態(tài)持有大量毒品的行為該如何認(rèn)定',
'2如何區(qū)分是非法種植毒品原植物罪還是非法制造毒品罪',
'3為毒販販賣毒品提供幫助構(gòu)成販賣毒品罪',
'4將自己吸食的毒品原價(jià)轉(zhuǎn)讓給朋友吸食的行為該如何認(rèn)定',
'5為獲報(bào)酬幫人購買毒品的行為該如何認(rèn)定',
'6毒販出獄后再次夠買毒品途中被抓的行為認(rèn)定',
'7虛夸毒品功效勸人吸食毒品的行為該如何認(rèn)定',
'8妻子下落不明丈夫又與他人登記結(jié)婚是否為無效婚姻',
'9一方未簽字辦理的結(jié)婚登記是否有效',
'10夫妻雙方1990年按農(nóng)村習(xí)俗舉辦婚禮沒有結(jié)婚證 一方可否起訴離婚',
'11結(jié)婚前對方父母出資購買的住房寫我們二人的名字有效嗎',
'12身份證被別人冒用無法登記結(jié)婚怎么辦交汤?',
'13同居后又與他人登記結(jié)婚是否構(gòu)成重婚罪',
'14未辦登記只舉辦結(jié)婚儀式可起訴離婚嗎',
'15同居多年未辦理結(jié)婚登記,是否可以向法院起訴要求離婚'
]
corpora_documents = []
for item_text in raw_documents:
item_str = jieba.lcut(item_text)
print(item_str)
corpora_documents.append(item_str)
print(corpora_documents)
# 生成字典和向量語料
dictionary = corpora.Dictionary(corpora_documents)
corpus = [dictionary.doc2bow(text) for text in corpora_documents]
#num_features代表生成的向量的維數(shù)(根據(jù)詞袋的大小來定)
similarity = Similarity('-Similarity-index', corpus, num_features=400)
test_data_1 = '你好,我想問一下我想離婚他不想離芙扎,孩子他說不要星岗,是六個(gè)月就自動生效離婚'
test_cut_raw_1 = jieba.lcut(test_data_1)
print(test_cut_raw_1)
test_corpus_1 = dictionary.doc2bow(test_cut_raw_1)
similarity.num_best = 5
print(similarity[test_corpus_1]) # 返回最相似的樣本材料,(index_of_document, similarity) tuples
print('################################')
test_data_2 = '家人因涉嫌運(yùn)輸毒品被抓,她只是去朋友家探望朋友的戒洼,結(jié)果就被抓了俏橘,還在朋友家收出毒品,可家人的身上和行李中都沒有∪剑現(xiàn)在已經(jīng)拘留10多天了寥掐,請問會被判刑嗎'
test_cut_raw_2 = jieba.lcut(test_data_2)
print(test_cut_raw_2)
test_corpus_2 = dictionary.doc2bow(test_cut_raw_2)
similarity.num_best = 5
print(similarity[test_corpus_2]) # 返回最相似的樣本材料,(index_of_document, similarity) tuples
運(yùn)行結(jié)果:
針對以上程序,你可以自定義詞庫和停用詞來使最終的結(jié)果更好磷蜀。
————————————————
版權(quán)聲明:本文為CSDN博主「Magician~」的原創(chuàng)文章召耘,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明褐隆。
原文鏈接:https://blog.csdn.net/qq_16633405/article/details/80578804