NLTK | 學(xué)習(xí)筆記1

原文鏈接:在這里


最近在對照著nltk.book學(xué)習(xí)NLTK庫捺萌,雖然網(wǎng)絡(luò)上有中文翻譯版丧裁,但是似乎并沒有搭配Python3的譯本,所以還是想按照自己的理解敲一遍浑厚,并且將文檔中介紹Python基礎(chǔ)操作的內(nèi)容刪去试读,只保留介紹NLTK庫的內(nèi)容杠纵,以方便后期使用時查閱和復(fù)習(xí)。
如果我有理解錯誤了的地方钩骇,非常歡迎大家留言指出!


Language Processing and Pyhton

import

impot nltk庫是常規(guī)用法比藻,我們使用from nltk.book import text1來載入特定的文本。但是一個好玩的事情是倘屹,即使我們指定了特定的文本银亲,系統(tǒng)也會先輸出book中的文本目錄,看著就會很累纽匙。所以可以直接在lib里將book.py中的例行print都注釋掉务蝠。

Searching Text

concotdance

concotance可以讓我們在特定的文本中搜索特定的詞匯。 concotance函數(shù)可以插入三個值烛缔,word,width,lines馏段,word是待檢索詞匯,width是以待搜索詞為中心向兩邊擴(kuò)展開的長度践瓷,lines可以輸出指定的結(jié)果行數(shù)院喜。

from nltk.book import text1
text1.concotdance('man',width = 10,lines = 3)

similar

similar用來搜索文本中語義相近的詞匯。

common_contexts

common_contexts用來搜索相似的詞的共現(xiàn)文本(一般在使用了similar函數(shù)之后進(jìn)行個例對比)晕翠。

dispersion_plot

dispersion_plot可以直觀地顯示特定詞在文章整體中大體的分布位置喷舀。前提是要裝好NumPyMatplotlib庫(更推薦是下Python的時候就直接下好Anocanda,里面包含很多數(shù)據(jù)處理所需的庫)淋肾。

from nltk.book import text4
print(text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"]))
輸出結(jié)果

Counting Vocabulary

len()

直接使用len()函數(shù)來測量文本總單詞數(shù)硫麻,但是如果想要去除掉重復(fù)的單詞和標(biāo)點(diǎn)符號就要改變一下。

from nltk.book import text6
from string import puncuation
a = sorted(set(text6))
b = [for i in a if i not in puncuation]
print(len(b))

lexical richness

len(set(text6))/len(text6)

count a specific word

text6.count('smoke')

lexical_diversity()

python其實(shí)也內(nèi)置了一個計(jì)算文本richness的函數(shù)lexical_diversity()樊卓,只需要傳入需要分析的文本就可以拿愧。
而如果要計(jì)算某個特定的單詞在文本中的占比也可以直接用函數(shù)percentage()函數(shù),輸入兩個值count(出現(xiàn)次數(shù))和total(樣本總數(shù))碌尔。

lexical_diversity(text3)
percentage(4,5)
percentage(text.count('a'),len(text4))

Frequency Distributions

FreqDist()

FreqDist()函數(shù)會創(chuàng)建若干個字符-字符在文本中出現(xiàn)次數(shù)的一個元組浇辜,但是它自身是內(nèi)部函數(shù)自己定義的一個類,如果要使用七扰,需要再調(diào)用內(nèi)部的函數(shù)。

# 求最高頻的50個詞
from nltk.book import *
fdist = FreqDist(text1)
fdist.most_common(50)
# 還可以制圖(遞增順序)
print(fdist.plot(50,cumulative = true))

Collocations and Bigrams

collcations 是一個出現(xiàn)頻率較高的詞組陪白。
bigrams() 是用來將列表中的元素按照順序進(jìn)行二元組合颈走。bigramsNLTK庫自定義的一個類,所以想要輸出需要轉(zhuǎn)化類型輸出咱士。collecations本質(zhì)上就是bigrams()在文本范圍內(nèi)的應(yīng)用立由,除非我們要關(guān)注那些少數(shù)搭配轧钓。

print(list(bigrams(['more', 'is', 'said', 'than', 'done'])))
# 運(yùn)行結(jié)果:[('more', 'is'), ('is', 'said'), ('said', 'than'), ('than', 'done')]

text4.collocations()
# 運(yùn)行結(jié)果:United States; fellow citizens; four years; years ago; FederalGovernment; General Government; American people; Vice President; OldWorld; Almighty God; Fellow citizens; Chief Magistrate; Chief Justice;God bless; every citizen; Indian tribes; public debt; one another;foreign nations; political parties

補(bǔ)充函數(shù)



參考資料

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市锐膜,隨后出現(xiàn)的幾起案子毕箍,更是在濱河造成了極大的恐慌,老刑警劉巖道盏,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件而柑,死亡現(xiàn)場離奇詭異,居然都是意外死亡荷逞,警方通過查閱死者的電腦和手機(jī)媒咳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來种远,“玉大人涩澡,你說我怎么就攤上這事∽狗螅” “怎么了妙同?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長膝迎。 經(jīng)常有香客問我粥帚,道長,這世上最難降的妖魔是什么弄抬? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任茎辐,我火速辦了婚禮,結(jié)果婚禮上掂恕,老公的妹妹穿的比我還像新娘拖陆。我一直安慰自己,他們只是感情好懊亡,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布依啰。 她就那樣靜靜地躺著,像睡著了一般店枣。 火紅的嫁衣襯著肌膚如雪速警。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天鸯两,我揣著相機(jī)與錄音闷旧,去河邊找鬼。 笑死钧唐,一個胖子當(dāng)著我的面吹牛忙灼,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼该园,長吁一口氣:“原來是場噩夢啊……” “哼酸舍!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起里初,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤啃勉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后双妨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體淮阐,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年斥难,在試婚紗的時候發(fā)現(xiàn)自己被綠了枝嘶。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡哑诊,死狀恐怖群扶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情镀裤,我是刑警寧澤竞阐,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站暑劝,受9級特大地震影響骆莹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜担猛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一幕垦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧傅联,春花似錦先改、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至比驻,卻和暖如春该溯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背别惦。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工狈茉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人掸掸。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓氯庆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子点晴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容