doc2bow案例 易懂[轉(zhuǎn)載]

https://blog.csdn.net/qq_16633405/article/details/80578804
本文系轉(zhuǎn)載浩蓉,侵權(quán)刪除
Doc2Bow是Gensim中封裝的一個(gè)方法茬底,主要用于實(shí)現(xiàn)Bow模型瞭吃,下面主要介紹下Bow模型舔哪。

1、BoW模型原理

Bag-of-words model (BoW model) 最早出現(xiàn)在自然語言處理(Natural Language Processing)和信息檢索(Information Retrieval)領(lǐng)域.绳锅。該模型忽略掉文本的語法和語序等要素飒焦,將其僅僅看作是若干個(gè)詞匯的集合,文檔中每個(gè)單詞的出現(xiàn)都是獨(dú)立的悼沿。BoW使用一組無序的單詞(words)來表達(dá)一段文字或一個(gè)文檔.等舔。近年來,BoW模型被廣泛應(yīng)用于計(jì)算機(jī)視覺中糟趾。
基于文本的BoW模型的一個(gè)簡單例子如下:
首先給出兩個(gè)簡單的文本文檔如下:

John likes to watch movies. Mary likes too.
John also likes to watch football games.

基于上述兩個(gè)文檔中出現(xiàn)的單詞慌植,構(gòu)建如下一個(gè)詞典 (dictionary):

{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}
1
上面的詞典中包含10個(gè)單詞, 每個(gè)單詞有唯一的索引, 那么每個(gè)文本我們可以使用一個(gè)10維的向量來表示。如下:

 [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
 [1, 1,1, 1, 0, 1, 1, 1, 0, 0]

該向量與原來文本中單詞出現(xiàn)的順序沒有關(guān)系义郑,而是詞典中每個(gè)單詞在文本中出現(xiàn)的頻率蝶柿。
也是通過余弦定理計(jì)算兩個(gè)句子的相似度。

2非驮、實(shí)踐Demo

import gensim
import jieba
# 訓(xùn)練樣本
from gensim import corpora
from gensim.similarities import Similarity


# fin = open("questions.txt",encoding='utf8').read().strip(' ')   #strip()取出首位空格
jieba.load_userdict("userdict.txt")
stopwords = set(open('stopwords.txt',encoding='utf8').read().strip('\n').split('\n'))   #讀入停用詞
raw_documents = [
    '0無償居間介紹買賣毒品的行為應(yīng)如何定性',
    '1吸毒男動態(tài)持有大量毒品的行為該如何認(rèn)定',
    '2如何區(qū)分是非法種植毒品原植物罪還是非法制造毒品罪',
    '3為毒販販賣毒品提供幫助構(gòu)成販賣毒品罪',
    '4將自己吸食的毒品原價(jià)轉(zhuǎn)讓給朋友吸食的行為該如何認(rèn)定',
    '5為獲報(bào)酬幫人購買毒品的行為該如何認(rèn)定',
    '6毒販出獄后再次夠買毒品途中被抓的行為認(rèn)定',
    '7虛夸毒品功效勸人吸食毒品的行為該如何認(rèn)定',
    '8妻子下落不明丈夫又與他人登記結(jié)婚是否為無效婚姻',
    '9一方未簽字辦理的結(jié)婚登記是否有效',
    '10夫妻雙方1990年按農(nóng)村習(xí)俗舉辦婚禮沒有結(jié)婚證 一方可否起訴離婚',
    '11結(jié)婚前對方父母出資購買的住房寫我們二人的名字有效嗎',
    '12身份證被別人冒用無法登記結(jié)婚怎么辦交汤?',
    '13同居后又與他人登記結(jié)婚是否構(gòu)成重婚罪',
    '14未辦登記只舉辦結(jié)婚儀式可起訴離婚嗎',
    '15同居多年未辦理結(jié)婚登記,是否可以向法院起訴要求離婚'
]
corpora_documents = []
for item_text in raw_documents:
    item_str = jieba.lcut(item_text)
    print(item_str)
    corpora_documents.append(item_str)
print(corpora_documents)
# 生成字典和向量語料
dictionary = corpora.Dictionary(corpora_documents)
corpus = [dictionary.doc2bow(text) for text in corpora_documents]
#num_features代表生成的向量的維數(shù)(根據(jù)詞袋的大小來定)
similarity = Similarity('-Similarity-index', corpus, num_features=400)

test_data_1 = '你好,我想問一下我想離婚他不想離芙扎,孩子他說不要星岗,是六個(gè)月就自動生效離婚'
test_cut_raw_1 = jieba.lcut(test_data_1)

print(test_cut_raw_1)
test_corpus_1 = dictionary.doc2bow(test_cut_raw_1)
similarity.num_best = 5
print(similarity[test_corpus_1])  # 返回最相似的樣本材料,(index_of_document, similarity) tuples

print('################################')

test_data_2 = '家人因涉嫌運(yùn)輸毒品被抓,她只是去朋友家探望朋友的戒洼,結(jié)果就被抓了俏橘,還在朋友家收出毒品,可家人的身上和行李中都沒有∪剑現(xiàn)在已經(jīng)拘留10多天了寥掐,請問會被判刑嗎'
test_cut_raw_2 = jieba.lcut(test_data_2)
print(test_cut_raw_2)
test_corpus_2 = dictionary.doc2bow(test_cut_raw_2)
similarity.num_best = 5
print(similarity[test_corpus_2])  # 返回最相似的樣本材料,(index_of_document, similarity) tuples

運(yùn)行結(jié)果:

針對以上程序,你可以自定義詞庫和停用詞來使最終的結(jié)果更好磷蜀。
————————————————
版權(quán)聲明:本文為CSDN博主「Magician~」的原創(chuàng)文章召耘,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明褐隆。
原文鏈接:https://blog.csdn.net/qq_16633405/article/details/80578804

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末怎茫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子妓灌,更是在濱河造成了極大的恐慌轨蛤,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,589評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件虫埂,死亡現(xiàn)場離奇詭異祥山,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)掉伏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評論 3 396
  • 文/潘曉璐 我一進(jìn)店門缝呕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人斧散,你說我怎么就攤上這事供常。” “怎么了鸡捐?”我有些...
    開封第一講書人閱讀 165,933評論 0 356
  • 文/不壞的土叔 我叫張陵栈暇,是天一觀的道長。 經(jīng)常有香客問我箍镜,道長源祈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,976評論 1 295
  • 正文 為了忘掉前任色迂,我火速辦了婚禮香缺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘歇僧。我一直安慰自己图张,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著祸轮,像睡著了一般姑隅。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上倔撞,一...
    開封第一講書人閱讀 51,775評論 1 307
  • 那天,我揣著相機(jī)與錄音慕趴,去河邊找鬼痪蝇。 笑死,一個(gè)胖子當(dāng)著我的面吹牛冕房,可吹牛的內(nèi)容都是我干的躏啰。 我是一名探鬼主播,決...
    沈念sama閱讀 40,474評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼耙册,長吁一口氣:“原來是場噩夢啊……” “哼给僵!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起详拙,我...
    開封第一講書人閱讀 39,359評論 0 276
  • 序言:老撾萬榮一對情侶失蹤帝际,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后饶辙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蹲诀,經(jīng)...
    沈念sama閱讀 45,854評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評論 3 338
  • 正文 我和宋清朗相戀三年弃揽,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了脯爪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,146評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡矿微,死狀恐怖痕慢,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情涌矢,我是刑警寧澤掖举,帶...
    沈念sama閱讀 35,826評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站娜庇,受9級特大地震影響拇泛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜思灌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評論 3 331
  • 文/蒙蒙 一俺叭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧泰偿,春花似錦熄守、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽攒发。三九已至,卻和暖如春晋南,著一層夾襖步出監(jiān)牢的瞬間惠猿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評論 1 272
  • 我被黑心中介騙來泰國打工负间, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留偶妖,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,420評論 3 373
  • 正文 我出身青樓政溃,卻偏偏與公主長得像趾访,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子董虱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評論 2 356