gensim惕味,dictionary

操作詞匯的庫很多nltk,jieba等等晴音,gensim處理語言步驟一般是先用gensim.utils工具包預處理,例如tokenize唯沮,gensim詞典官網(wǎng),功能是將規(guī)范化的詞與其id建立對應關系

from gensim.corpora.dictionary import Dictionary
def print_dict(dic):
    for key in dic:
        print key,dic[key]
a = [[u'巴西',u'巴西',u'英格蘭'],[u'巴西',u'西班牙',u'法國']]
b = [u'巴西',u'巴西',u'比利時',u'法國',u'法國']
# a用來構造詞典
dic = Dictionary(a)

輸出字典

print dic
print print_dict(dic)

可以發(fā)現(xiàn),建立id與token一一映射

########dictionary信息##########
Dictionary(4 unique tokens: [u'\u6cd5\u56fd', u'\u5df4\u897f', u'\u897f\u73ed\u7259', u'\u82f1\u683c\u5170'])
2 法國
0 巴西
3 西班牙
1 英格蘭

字典朴皆,{單詞id,在多少文檔中出現(xiàn)}

print dictionary.dfs #字典泛粹,{單詞id遂铡,在多少文檔中出現(xiàn)}

巴西出現(xiàn)2個文檔中,法國晶姊、西班牙扒接、英格蘭只出現(xiàn)在一個文檔中

{0: 2, 1: 1, 2: 1, 3: 1}

文檔數(shù)目

print dic.num_docs #文檔數(shù)目
print_dict(dict(dic.items()))
 2
0 巴西
1 英格蘭
2 法國
3 西班牙

字典,{單詞id,對應的詞}

print_dict(dic.id2token) #字典钾怔,{單詞id碱呼,對應的詞}
字典,{單詞id宗侦,對應的詞}
0 巴西
1 英格蘭
2 法國
3 西班牙

字典愚臀,{詞,對應的單詞id}

print_dict(dic.token2id) #字典矾利,{詞姑裂,對應的單詞id}
法國 2
巴西 0
西班牙 3
英格蘭 1

所有詞的個數(shù)

print dic.num_pos #所有詞的個數(shù)
6

每個文件中不重復詞個數(shù)的和(2+3)

print dic.num_nnz #每個文件中不重復詞個數(shù)的和
5

result為b文章轉換得到的詞袋,列表[(單詞id梦皮,詞頻)]

# allow_update:T or F,是否將b數(shù)據(jù)到字典中
# result返回b的詞袋結果炭分,list
# missing 丟失數(shù)據(jù),字典類型
result, missing = dic.doc2bow(b, allow_update=False, return_missing=True)
print "詞袋b剑肯,列表[(單詞id捧毛,詞頻)]"
print result
print_dict(dic)
print_dict(missing)
詞袋b,列表[(單詞id让网,詞頻)]
[(0, 2), (2, 2)]
2 法國
0 巴西
3 西班牙
1 英格蘭
比利時 1

輸出詞袋信息

print "########bow信息##########"
for _, freq in result:
    print _, dic.id2token[_], freq
0 巴西 2
2 法國 2

過濾文檔頻率大于no_below呀忧,小于no_above*num_docs的詞

print "########dictionary信息##########"
# 過濾文檔頻率大于no_below,小于no_above*num_docs的詞
dic.filter_extremes(no_below=1, no_above=0.5, keep_n=10)
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末溃睹,一起剝皮案震驚了整個濱河市而账,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌因篇,老刑警劉巖泞辐,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異竞滓,居然都是意外死亡咐吼,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進店門商佑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來锯茄,“玉大人,你說我怎么就攤上這事茶没〖∮模” “怎么了?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵抓半,是天一觀的道長喂急。 經(jīng)常有香客問我,道長笛求,這世上最難降的妖魔是什么煮岁? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任讥蔽,我火速辦了婚禮,結果婚禮上画机,老公的妹妹穿的比我還像新娘。我一直安慰自己新症,他們只是感情好步氏,可當我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著徒爹,像睡著了一般荚醒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上隆嗅,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天界阁,我揣著相機與錄音,去河邊找鬼胖喳。 笑死泡躯,一個胖子當著我的面吹牛,可吹牛的內容都是我干的丽焊。 我是一名探鬼主播较剃,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼技健!你這毒婦竟也來了写穴?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤雌贱,失蹤者是張志新(化名)和其女友劉穎啊送,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體欣孤,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡馋没,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了导街。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片披泪。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖搬瑰,靈堂內的尸體忽然破棺而出款票,到底是詐尸還是另有隱情,我是刑警寧澤泽论,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布艾少,位于F島的核電站,受9級特大地震影響翼悴,放射性物質發(fā)生泄漏缚够。R本人自食惡果不足惜幔妨,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望谍椅。 院中可真熱鬧误堡,春花似錦、人聲如沸雏吭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽杖们。三九已至悉抵,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間摘完,已是汗流浹背姥饰。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留孝治,地道東北人列粪。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像荆秦,于是被迫代替她去往敵國和親篱竭。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內容