跨象乘云 - 簡書

跨象乘云

2022-04-03

自然語言處理實驗演示 - 22. 移除文本停用詞停用詞 (Stop Words)笔刹，經(jīng)常出現(xiàn)在文本數(shù)據(jù)中掷倔。雖然它們幫助我們正確地構(gòu)造句子公浪，但即使我們?nèi)サ羲鼈儯覀円差I(lǐng)會語句的...

221 0 0

跨象乘云

2022-04-03

自然語言處理實驗演示 - 21. 文本翻譯從一種語言到另一種語言的文本翻譯在各種網(wǎng)站中越來越普遍栅迄。我們可以通過各種工具庫執(zhí)行此操作。當(dāng)然，大部分在線翻譯引擎都會有次數(shù)或者收...

164 0 0

跨象乘云

2022-04-02

自然語言處理實驗演示 - 20. 單復(fù)數(shù)變換 TextBlob 是一個用 Python 編寫的開源的文本處理庫邪乍，屬于 NLTK 的擴(kuò)展庫。它可以用來執(zhí)行很多自然語言處理的任務(wù)...

212 0 0

跨象乘云

2022-04-01

自然語言處理實驗演示 - 19. 執(zhí)行詞形還原（Lemmatization）詞形還原（Lemmatization）是文本預(yù)處理中的重要部分对竣，與詞干提缺永恪（stemming）很...

190 0 0

跨象乘云

2022-03-24

自然語言處理實驗演示 - 18. Porter 詞干提取 Porter 詞干提取是最常用的詞干提取算法之一，其基本原理是刪除和替換英語中眾所周知的單詞后綴否纬、前綴和復(fù)數(shù)s吕晌。NL...

247 0 0

跨象乘云

2022-03-24

自然語言處理實驗演示 - 17. RegexpStemmer 詞干提取詞干提取 (Stemming) 是英文語料預(yù)處理的其中一個必要步驟，英語單詞在句子中使用時會轉(zhuǎn)化成各種...

171 0 0

跨象乘云

2022-03-23

自然語言處理實驗演示 - 16. 高級文本分詞器除了基本的文本分詞word_tokenize临燃，NLTK 還提供了更多的針對特定 NLP 任務(wù)的高級文本分詞標(biāo)記工具睛驳。在本實驗...

140 0 0

跨象乘云

2022-03-23

自然語言處理實驗演示 -15. Keras TextBlob 文本分詞事實上，并不存在一個單一的工具庫能解決全部的 NLP 業(yè)務(wù)需求膜廊。因此乏沸，你需要了解并掌握更多的工具來豐富...

153 0 0

跨象乘云

2022-03-22

自然語言處理實驗演示 - 14. N-Gram 模型應(yīng)用 N-Gram 是一種基于統(tǒng)計語言模型的算法。它的基本思想是將文本里面的內(nèi)容按照字節(jié)進(jìn)行大小為 N 的滑動窗口操作爪瓜，形...

168 0 0

跨象乘云

2022-03-21

自然語言處理實驗演示 - 13. 文本清洗和分詞我們將學(xué)習(xí)更多的文本數(shù)據(jù)預(yù)處理步驟蹬跃，以及如何從預(yù)處理文本中提取特征，并將它們轉(zhuǎn)換為向量钥勋。在本實驗中炬转，我們將對文本進(jìn)行簡單的清...

161 0 0

跨象乘云

2022-03-21

自然語言處理實驗演示 - 12. Raw 文本數(shù)據(jù)預(yù)處理在本案例中，我們將處理一個格式不正確的文本語料庫算灸。我們將執(zhí)行前面討論過的所有預(yù)處理步驟扼劈，以獲得文本的真實含義。 #知...

280 0 0

跨象乘云

2022-03-20

自然語言處理實驗演示 - 11. 語句邊界檢測語句邊界檢測菲驴，是檢測一個句子在哪里結(jié)束荐吵，另一個句子在哪里開始的方法。這對于中文而言很簡單赊瞬，因為句號(先煎。)或問號(？)表示一個句...

458 0 0

跨象乘云

2022-03-20

自然語言處理實驗演示 - 10. 詞義消歧（Word Sense Disambiguation）一個詞的意思取決于它與句子中其他詞的關(guān)聯(lián)巧涧。這意味著拼寫相同的單詞在不同的上下...

243 0 0

跨象乘云

2022-03-19

自然語言處理實驗演示 - 09. 命名實體識別（Named Entity Recognition (NER)）命名實體識別（Named Entity Recognition...

204 0 0

跨象乘云

2022-03-19

自然語言處理實驗演示 - 08. 詞形還原（Lemmatization）詞形還原和詞干提取比較相似薯蝎，將一個任意形式的單詞轉(zhuǎn)換為語法基礎(chǔ)形式。然而谤绳，詞形還原是基于詞典的占锯，每種...

131 0 0