文本分析流程
分詞
image.png
分詞效果怎么評價其做?
- 有語料集來算準(zhǔn)召率
- 下游任務(wù)來評價
單詞糾錯
第一步:找到拼寫錯誤的單詞
第二步:生成跟上述單詞類似的其他單詞,當(dāng)作是候選集
第三步:根據(jù)單詞在上下文中的統(tǒng)計信息來排序并選出最好的。
# 例子:提取詞干的方法來糾錯
from nltk.stem.porter import *
stemmer = PorterStemmer()
test_strs = ['caresses', 'flies', 'dies', 'mules', 'denied',
'died', 'agreed', 'owned', 'humbled', 'sized',
'meeting', 'stating', 'siezing', 'itemization',
'sensational', 'traditional', 'reference', 'colonizer',
'plotted']
singles = [stemmer.stem(word) for word in test_strs]
print(' '.join(singles)) # doctest: +NORMALIZE_WHITESPACE
# 結(jié)果: caress fli die mule deni die agre own humbl
# size meet state siez item sensat tradit refer colon plot