中文自然語言處理
之前看到知乎有一篇《哪些python庫讓你相見恨晚查描?》
https://www.zhihu.com/question/24590883
里面有幾個中文的庫,分別是jieba柏卤、snownlp冬三、textgrocery。jieba大家已經(jīng)很熟悉了缘缚,基本上分詞都會用到j(luò)ieba勾笆,速度快,分詞頁挺準(zhǔn)的桥滨。
我之前頁寫過對文本進行情緒分析的文章窝爪,用建好的詞典弛车,通過一個公式計算,得出正負面情緒分值蒲每。當(dāng)時寫這篇文章時纷跛,不知道其實是有中文情感分析的庫。
今天我就簡單介紹下snowNLP邀杏,可以分詞贫奠,標(biāo)注,還可以進行情緒分析望蜡。
snowNLP介紹
SnowNLP是一個python寫的類庫唤崭,可以方便的處理中文文本內(nèi)容,是受到了TextBlob的啟發(fā)而寫的脖律,由于現(xiàn)在大部分的自然語言處理庫基本都是針對英文的谢肾,于是寫了一個方便處理中文的類庫,并且和TextBlob不同的是小泉,這里沒有用NLTK芦疏,所有的算法都是自己實現(xiàn)的,并且自帶了一些訓(xùn)練好的字典微姊。注意本程序都是處理的unicode編碼眯分,所以使用時請自行decode成unicode。
示例
1柒桑、分詞
2弊决、詞性標(biāo)注
3、斷句
4魁淳、情緒判斷
返回值為正面情緒的概率郭变,
越接近1表示正面情緒
越接近0表示負面情緒
5棍鳖、拼音
6、繁體轉(zhuǎn)簡體
7、關(guān)鍵詞抽取
8蛋勺、概括總結(jié)文意
9碌秸、信息量衡量
TF-IDF是一種統(tǒng)計方法廉丽,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度较幌。
TF詞頻越大越重要,但是文中會的“的”少欺,“你”等無意義詞頻很大喳瓣,卻信息量幾乎為0,這種情況導(dǎo)致單純看詞頻評價詞語重要性是不準(zhǔn)確的赞别。因此加入了idf
IDF的主要思想是:如果包含詞條t的文檔越少畏陕,也就是n越小,IDF越大仿滔,則說明詞條t越重要
TF-IDF綜合起來惠毁,才能準(zhǔn)確的綜合的評價一詞對文本的重要性犹芹。
10、文本相似性
更多內(nèi)容
爬蟲
【視頻】有了selenium,小白也可以自豪的說:“去TMD的抓包蜈膨、cookie”
【視頻】快來get新技能--抓包+cookie,爬微博不再是夢
用Python抓取百度地圖里的店名屿笼,地址和聯(lián)系方式
文本分析
基于共現(xiàn)發(fā)現(xiàn)人物關(guān)系的python實現(xiàn)
神奇的python