NLTK學(xué)習(xí)記錄1:?jiǎn)⒊?/h1>

使用NLTK

import nltk  #導(dǎo)入nltk
nltk.download()  #下載語料庫(kù)

使用官方教程中的文本

from nltk.book import *

尋找特定詞在文本中的上下文

text1.concordance("monstrous") #在text1中monstrous的上下文

依據(jù)上下文笆凌,尋找相似的詞語

text1.similar("monstrous")
text2.similar("monstrous")

尋找多個(gè)詞語在文本中的共同上下文

text2.common_contexts(["monstrous", "very"])

畫出詞語在文本中的位置信息圖

text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

對(duì)text文本進(jìn)行計(jì)數(shù)

len(text3)   #文本text3的長(zhǎng)度
sorted(set(text3))  #按順序返回文本text3的全部詞語
len(set(text3))  #text3的無重復(fù)詞語數(shù)量圣猎、
len(set(text3)) / len(text3)  #text3的“詞匯量豐富程度”
text3.count("smote")  #“smote”在text3中出現(xiàn)的次數(shù)

“text”本質(zhì)上是一個(gè)詞語的列表(list)

sent1 = ['Call', 'me', 'Ishmael', '.']   #定義一個(gè)sent1
['Monty', 'Python'] + ['and', 'the', 'Holy', 'Grail']  #連接兩個(gè)list
sent4 + sent1  #連接兩個(gè)list
sent1.append("Some")   #為sent1添加詞語元素
text4[173]  #返回'awaken'
text4.index('awaken')  #返回索引值173
text5[16715:16735]

詞語本身就是python中的字符串(string)

name = 'Monty'
name[:4]  #'Mont'
name * 2  #'MontyMonty'
name + '!'  #'Monty!'
' '.join(['Monty', 'Python'])  #'Monty Python'
'Monty Python'.split()  #['Monty', 'Python']

對(duì)于文本信息的簡(jiǎn)單統(tǒng)計(jì)

使用頻率分布 frequency distribution

fdist1 = FreqDist(text1)   #生成text1的頻率分布
fdist1.most_common(50)  #輸出最常見的50個(gè)詞語及其出現(xiàn)次數(shù)
fdist1['whale']  #輸出特定詞語‘whale’的出現(xiàn)次數(shù)

簡(jiǎn)單的詞語篩選

V = set(text1)
long_words = [w for w in V if len(w) > 15]  #篩選出長(zhǎng)詞
sorted(long_words)

fdist5 = FreqDist(text5)
sorted(w for w in set(text5) if len(w) > 7 and fdist5[w] > 7) #篩選出高頻長(zhǎng)詞

二元詞語搭配

list(bigrams(['more', 'is', 'said', 'than', 'done']))  #返回[('more', 'is'), ('is', 'said'), ('said', 'than'), ('than', 'done')]乞而,全部的二元搭配

text4.collocations()  #找到比我們根據(jù)單個(gè)詞的頻率預(yù)期更頻繁出現(xiàn)的二元詞
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市爪模,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌屋灌,老刑警劉巖洁段,帶你破解...
    沈念sama閱讀 218,858評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件共郭,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡除嘹,警方通過查閱死者的電腦和手機(jī)写半,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門尉咕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來污朽,“玉大人龙考,你說我怎么就攤上這事蟆肆』蘅睿” “怎么了炎功?”我有些...
    開封第一講書人閱讀 165,282評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵缓溅,是天一觀的道長(zhǎng)蛇损。 經(jīng)常有香客問我,道長(zhǎng)淤齐,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,842評(píng)論 1 295
  • 正文 為了忘掉前任更啄,我火速辦了婚禮稚疹,結(jié)果婚禮上祭务,老公的妹妹穿的比我還像新娘内狗。我一直安慰自己义锥,他們只是感情好柳沙,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評(píng)論 6 392
  • 文/花漫 我一把揭開白布拌倍。 她就那樣靜靜地躺著赂鲤,像睡著了一般柱恤。 火紅的嫁衣襯著肌膚如雪蛤袒。 梳的紋絲不亂的頭發(fā)上膨更,一...
    開封第一講書人閱讀 51,679評(píng)論 1 305
  • 那天妙真,我揣著相機(jī)與錄音荚守,去河邊找鬼珍德。 笑死矗漾,一個(gè)胖子當(dāng)著我的面吹牛锈候,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播泵琳,決...
    沈念sama閱讀 40,406評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼获列!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蛔垢,我...
    開封第一講書人閱讀 39,311評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎鹏漆,沒想到半個(gè)月后创泄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,767評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡括蝠,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了忌警。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,090評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡慨蓝,死狀恐怖端幼,靈堂內(nèi)的尸體忽然破棺而出礼烈,到底是詐尸還是另有隱情,我是刑警寧澤此熬,帶...
    沈念sama閱讀 35,785評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站滑进,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏扶关。R本人自食惡果不足惜阴汇,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評(píng)論 3 331
  • 文/蒙蒙 一节槐、第九天 我趴在偏房一處隱蔽的房頂上張望搀庶。 院中可真熱鬧铜异,春花似錦哥倔、人聲如沸揍庄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽沃测。三九已至,卻和暖如春芽突,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背董瞻。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評(píng)論 1 271
  • 我被黑心中介騙來泰國(guó)打工田巴, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人挟秤。 一個(gè)月前我還...
    沈念sama閱讀 48,298評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像艘刚,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子攀甚,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容