python學(xué)習(xí) 一 python語法,及變量類型
python學(xué)習(xí) 二 爬一個圖片網(wǎng)站上
python學(xué)習(xí) 二 02 爬一個圖片網(wǎng)站芳肌,獲得主鏈接網(wǎng)址,并保存
python學(xué)習(xí) 二 03 爬一個圖片網(wǎng)站-獲得所有分頁網(wǎng)址
python學(xué)習(xí) 二 04 爬一個圖片網(wǎng)站-解析文件,獲得所有圖片鏈接
python學(xué)習(xí) 二 05 爬一個圖片網(wǎng)站-下載圖片鏈接
python學(xué)習(xí) 二 06 爬一個圖片網(wǎng)站-多線程方式下載
python學(xué)習(xí) 三 01 再爬一個網(wǎng)站胧洒,幾行代碼亭敢,搞定分類類別
python學(xué)習(xí) 三 02 再爬一個網(wǎng)站滚婉,獲得所有分頁
python學(xué)習(xí) 三 03 再爬一個網(wǎng)站,根據(jù)分頁帅刀,下載圖片
python學(xué)習(xí) 三 04 圖片爬蟲工程-組織框架
python 數(shù)據(jù)挖掘篇 一 結(jié)巴分詞
python 數(shù)據(jù)挖掘篇 二 詞云統(tǒng)計
python 數(shù)據(jù)挖掘篇 三 gensim 使用
python 數(shù)據(jù)挖掘篇四 小說數(shù)據(jù)挖掘?qū)嵗?/a>
Python 數(shù)據(jù)挖掘?qū)W習(xí)
一 結(jié)巴分詞
github地址:https://github.com/fxsjy/jieba
"結(jié)巴"中文分詞:做最好的 Python 中文分詞組件
還記得當(dāng)時想用C++让腹,實現(xiàn)分詞远剩,資料那個難找,調(diào)試那個麻煩骇窍,BUG那個多瓜晤,說多了都是淚,開始入手python 數(shù)據(jù)挖掘腹纳,看看這個能簡單不痢掠。
安裝
這種效率比c++安裝分詞庫 方便多了。
使用
詞性標(biāo)注
常用的一些符號及詞性的對應(yīng)關(guān)系為:a:形容詞c:連詞d:副詞e:嘆詞f:方位詞i:成語m:數(shù)詞n:名詞nr:人名ns:地名nt:機構(gòu)團體nz:其他專有名詞p:介詞r:代詞t:時間u:助詞v:動詞vn:名動詞w:標(biāo)點符號un:未知詞語
更詳細(xì)資料 可以搜索 計算所漢語詞性標(biāo)記集
一個自定義字典的例子:
注意要用:UTF-8格式保存
基本用法
1只估、?基本分詞
2志群、?根據(jù)詞性屬性分詞
創(chuàng)建字典
UTF-8格式保存
3、?提取關(guān)鍵字
4蛔钙、?返回詞語位置