NLTK(一):英文分詞分句

簡書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處藤为。

一、NLTK 的安裝
? ? ? ?如果是python 2.x 的環(huán)境,安裝命令如下:

sudo pip install nltk

? ? ? ?如果是python 3.x 的環(huán)境逊躁,安裝命令如下:

sudo pip3 install nltk

? ? ? ?成功地執(zhí)行了上述命令后,NLTK 的安裝還沒有徹底地完成隅熙,還需要在 python 中執(zhí)行如下的代碼:

import nltk
nltk.download()

? ? ? ?代碼執(zhí)行后稽煤,會彈出如下的界面:


NLTKInstall.png

? ? ? ?點擊 “all” 這一行,然后點擊 “Download” 按鈕進行下載囚戚〗臀酰“Download Directory” 一開始可以先隨便設(shè)置,但文件夾的名字必須是 nltk_data驰坊,下載完成后可以先執(zhí)行一段分詞的代碼(隨后將會提到這段代碼)匾二,代碼會報錯,錯誤提示說找不到相應(yīng)的資源文件拳芙,并在這段錯誤提示中告訴我們應(yīng)該把剛才下載下來的資源放到哪里察藐。你可能會疑惑:為什么不在下載之前將 “Download Directory” 設(shè)置正確呢?這是因為我們一開始也不知道正確的 “Download Directory” 是什么舟扎,所以先隨便設(shè)置了一個分飞,然后通過錯誤提示再將下載好的資源放到正確的路徑下面。
? ? ? ?資源下載過程中可能會多次出現(xiàn)下載異常的情況浆竭,每次遇到這種情況后浸须,關(guān)掉正在執(zhí)行的代碼,然后重新執(zhí)行代碼進行下載即可邦泄。

二删窒、分詞
? ? ? ?1、分詞方式
? ? ? ?分詞使用的方法是 word_tokenize()顺囊,分詞的代碼如下:

from nltk.tokenize import word_tokenize
 
data = "All work and no play makes jack a dull boy, all work and no play"
print(word_tokenize(data))

? ? ? ?代碼執(zhí)行結(jié)果如下:

['All', 'work', 'and', 'no', 'play', 'makes', 'jack', 'a', 'dull', 'boy', ',', 'all', 'work', 'and', 'no', 'play']

? ? ? ?注意:上述結(jié)果集中有一個 “逗號”肌索,也被當做了一個詞。
? ? ? ?2特碳、停用詞
? ? ? ?英文中的停用詞如 “the”诚亚,“is”晕换,“are” 等等。在自然語言處理(NLP)中沒有通用的停用詞列表站宗,然而這里闸准,在 NLTK 模塊有其自帶的停用詞列表。
? ? ? ?去停用詞的代碼如下:

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
 
data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy."
stopWords = set(stopwords.words('english'))
words = word_tokenize(data)
wordsFiltered = []
 
for w in words:
    if w not in stopWords:
        wordsFiltered.append(w)
 
print(wordsFiltered)

? ? ? ?提示:
? ? ? ?1梢灭、如果我們想要修改 NLTK 的停用詞列表夷家,可以去我們一開始提到的下載的資源中去修改。具體位置是在 nltk_data --> corpora --> stopwords 文件夾中敏释,進入這個文件夾后库快,我們會發(fā)現(xiàn)很多種語言的停用詞列表,然后按照自己的需要進行修改即可钥顽。
? ? ? ?2义屏、NLTK 不支持對中文的分詞,如果想要對中文進行分詞蜂大,可以考慮使用結(jié)巴(jieba)分詞闽铐,這里不再做過多闡述。

三县爬、分句
? ? ? ?分句使用的方法是 sent_tokenize()阳啥,分句的代碼如下:

from nltk.tokenize import sent_tokenize
 
data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy."
print(sent_tokenize(data))

? ? ? ?代碼執(zhí)行結(jié)果如下:

['All work and no play makes jack dull boy.', 'All work and no play makes jack a dull boy.']

? ? ? ?提示:和分詞一樣,NLTK 同樣不支持對中文的分句财喳。具體支持哪些語言的分句察迟,可以參考 nltk_data --> tokenizers --> punkt,進入這個文件夾后就一目了然了耳高。

? ? ? ?多說一點:
? ? ? ?NLTK 支持的分句方式不止這一種類型扎瓶,但無論哪種類型,都是相對簡單的泌枪。如果直接應(yīng)用到工業(yè)中一般都會多少出現(xiàn)一些這樣或那樣的問題概荷。因為在現(xiàn)實當中存在很多習(xí)慣性的非正式的縮寫,同時一個詞里面可能包含某些特殊符號等碌燕,這些因素都會導(dǎo)致分詞的錯誤误证。目前的解決方案主要是通過自定義詞典來彌補上述的不足。

相關(guān)文檔

Category: NLTK

上一篇:使用 Gson 實現(xiàn) Json 字符串和 Java 對象之間的相互轉(zhuǎn)換
下一篇:NLTK(二):英文詞性標注

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末修壕,一起剝皮案震驚了整個濱河市愈捅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌慈鸠,老刑警劉巖蓝谨,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡譬巫,警方通過查閱死者的電腦和手機咖楣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來芦昔,“玉大人诱贿,你說我怎么就攤上這事⊙塘悖” “怎么了瘪松?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長锨阿。 經(jīng)常有香客問我,道長记罚,這世上最難降的妖魔是什么墅诡? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮桐智,結(jié)果婚禮上末早,老公的妹妹穿的比我還像新娘。我一直安慰自己说庭,他們只是感情好然磷,可當我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著刊驴,像睡著了一般姿搜。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上捆憎,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天舅柜,我揣著相機與錄音,去河邊找鬼躲惰。 笑死致份,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的础拨。 我是一名探鬼主播氮块,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼诡宗!你這毒婦竟也來了滔蝉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤僚焦,失蹤者是張志新(化名)和其女友劉穎锰提,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡立肘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年边坤,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谅年。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡茧痒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出融蹂,到底是詐尸還是另有隱情旺订,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布超燃,位于F島的核電站区拳,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏意乓。R本人自食惡果不足惜樱调,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望届良。 院中可真熱鬧笆凌,春花似錦、人聲如沸士葫。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽慢显。三九已至爪模,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鳍怨,已是汗流浹背呻右。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鞋喇,地道東北人声滥。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像侦香,于是被迫代替她去往敵國和親落塑。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容