NLTK | 學(xué)習(xí)筆記1

原文鏈接：在這里

最近在對照著nltk.book學(xué)習(xí)NLTK庫捺萌，雖然網(wǎng)絡(luò)上有中文翻譯版丧裁，但是似乎并沒有搭配Python3的譯本，所以還是想按照自己的理解敲一遍浑厚，并且將文檔中介紹Python基礎(chǔ)操作的內(nèi)容刪去试读，只保留介紹NLTK庫的內(nèi)容杠纵，以方便后期使用時查閱和復(fù)習(xí)。
如果我有理解錯誤了的地方钩骇，非常歡迎大家留言指出!

Language Processing and Pyhton

import

impot nltk庫是常規(guī)用法比藻，我們使用from nltk.book import text1來載入特定的文本。但是一個好玩的事情是倘屹，即使我們指定了特定的文本银亲，系統(tǒng)也會先輸出book中的文本目錄，看著就會很累纽匙。所以可以直接在lib里將book.py中的例行print都注釋掉务蝠。

Searching Text

concotdance

concotance可以讓我們在特定的文本中搜索特定的詞匯。 concotance函數(shù)可以插入三個值烛缔，word,width,lines馏段，word是待檢索詞匯，width是以待搜索詞為中心向兩邊擴(kuò)展開的長度践瓷，lines可以輸出指定的結(jié)果行數(shù)院喜。

from nltk.book import text1
text1.concotdance('man',width = 10,lines = 3)

similar

similar用來搜索文本中語義相近的詞匯。

common_contexts

common_contexts用來搜索相似的詞的共現(xiàn)文本（一般在使用了similar函數(shù)之后進(jìn)行個例對比）晕翠。

dispersion_plot

dispersion_plot可以直觀地顯示特定詞在文章整體中大體的分布位置喷舀。前提是要裝好NumPy和Matplotlib庫（更推薦是下Python的時候就直接下好Anocanda，里面包含很多數(shù)據(jù)處理所需的庫）淋肾。

from nltk.book import text4
print(text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"]))

輸出結(jié)果

Counting Vocabulary

len()

直接使用len()函數(shù)來測量文本總單詞數(shù)硫麻，但是如果想要去除掉重復(fù)的單詞和標(biāo)點(diǎn)符號就要改變一下。

from nltk.book import text6
from string import puncuation
a = sorted(set(text6))
b = [for i in a if i not in puncuation]
print(len(b))

lexical richness

len(set(text6))/len(text6)

count a specific word

text6.count('smoke')

lexical_diversity()

python其實(shí)也內(nèi)置了一個計(jì)算文本richness的函數(shù)lexical_diversity()樊卓，只需要傳入需要分析的文本就可以拿愧。
而如果要計(jì)算某個特定的單詞在文本中的占比也可以直接用函數(shù)percentage()函數(shù)，輸入兩個值count(出現(xiàn)次數(shù))和total(樣本總數(shù))碌尔。

lexical_diversity(text3)
percentage(4,5)
percentage(text.count('a'),len(text4))

Frequency Distributions

FreqDist()

FreqDist()函數(shù)會創(chuàng)建若干個字符-字符在文本中出現(xiàn)次數(shù)的一個元組浇辜，但是它自身是內(nèi)部函數(shù)自己定義的一個類，如果要使用七扰，需要再調(diào)用內(nèi)部的函數(shù)。

# 求最高頻的50個詞
from nltk.book import *
fdist = FreqDist(text1)
fdist.most_common(50)
# 還可以制圖(遞增順序)
print(fdist.plot(50,cumulative = true))

Collocations and Bigrams

collcations 是一個出現(xiàn)頻率較高的詞組陪白。
bigrams() 是用來將列表中的元素按照順序進(jìn)行二元組合颈走。bigrams 是NLTK庫自定義的一個類，所以想要輸出需要轉(zhuǎn)化類型輸出咱士。collecations本質(zhì)上就是bigrams()在文本范圍內(nèi)的應(yīng)用立由，除非我們要關(guān)注那些少數(shù)搭配轧钓。

print(list(bigrams(['more', 'is', 'said', 'than', 'done'])))
# 運(yùn)行結(jié)果：[('more', 'is'), ('is', 'said'), ('said', 'than'), ('than', 'done')]

text4.collocations()
# 運(yùn)行結(jié)果：United States; fellow citizens; four years; years ago; FederalGovernment; General Government; American people; Vice President; OldWorld; Almighty God; Fellow citizens; Chief Magistrate; Chief Justice;God bless; every citizen; Indian tribes; public debt; one another;foreign nations; political parties

補(bǔ)充函數(shù)

參考資料

最后編輯于：2017.12.09 22:18:01

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市锐膜，隨后出現(xiàn)的幾起案子毕箍，更是在濱河造成了極大的恐慌，老刑警劉巖道盏，帶你破解...
沈念sama閱讀 219,039評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件而柑，死亡現(xiàn)場離奇詭異，居然都是意外死亡荷逞，警方通過查閱死者的電腦和手機(jī)媒咳，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,426評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來种远，“玉大人涩澡，你說我怎么就攤上這事∽狗螅” “怎么了妙同？”我有些...
開封第一講書人閱讀 165,417評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長膝迎。經(jīng)常有香客問我粥帚，道長，這世上最難降的妖魔是什么弄抬？我笑而不...
開封第一講書人閱讀 58,868評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任茎辐，我火速辦了婚禮，結(jié)果婚禮上掂恕，老公的妹妹穿的比我還像新娘拖陆。我一直安慰自己，他們只是感情好懊亡，可當(dāng)我...
茶點(diǎn)故事閱讀 67,892評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布依啰。她就那樣靜靜地躺著，像睡著了一般店枣。火紅的嫁衣襯著肌膚如雪速警。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,692評論 1贊 305
城市分裂傳說
那天鸯两，我揣著相機(jī)與錄音闷旧，去河邊找鬼。笑死钧唐，一個胖子當(dāng)著我的面吹牛忙灼，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 40,416評論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼该园，長吁一口氣：“原來是場噩夢啊……” “哼酸舍！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起里初，我...
開封第一講書人閱讀 39,326評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤啃勉，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后双妨，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體淮阐，經(jīng)...
沈念sama閱讀 45,782評論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,957評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年斥难，在試婚紗的時候發(fā)現(xiàn)自己被綠了枝嘶。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,102評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡哑诊，死狀恐怖群扶，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情镀裤，我是刑警寧澤竞阐，帶...
沈念sama閱讀 35,790評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站暑劝，受9級特大地震影響骆莹，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜担猛，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,442評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一幕垦、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧傅联，春花似錦先改、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,996評論 0贊 22
一樁弒父案仇奶，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至比驻，卻和暖如春该溯，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背别惦。一陣腳步聲響...
開封第一講書人閱讀 33,113評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工狈茉，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人掸掸。一個月前我還...
沈念sama閱讀 48,332評論 3贊 373
代替公主和親
正文我出身青樓氯庆，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子点晴，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,044評論 2贊 355