1.第三方庫的獲取
1.第三方庫獲取和安裝
Python第三方庫依照安裝方式靈活性和難易程度有三個方法:pip工具安裝番枚、自定義安裝和文件安裝。
pip工具安裝:
最常用且最高效的Python第三方庫安裝方式是采用pip工具安裝损敷。pip是Python官方提供并維護的在線第三方庫安裝工具葫笼。
pip install<擬安裝庫名>/pip3 install<擬安裝庫名>
自定義安裝:
自定義安裝指按照第三方庫提供的步驟和方式安裝。第三方庫都有主頁用于維護庫的代碼和文檔拗馒。以科學(xué)計算用的numpy為例,開發(fā)者維護的官方主頁是:
http://www.numpy.org/
瀏覽該網(wǎng)頁找到下載鏈接,如下:
http://www.scipy.org/scipylib/download.html
進而根據(jù)指示步驟安裝路星。
文件安裝:
為了解決這類第三方庫安裝問題,美國加州大學(xué)爾灣分校提供了一個頁面,幫助Python
用戶獲得Windows可直接安裝的第三方庫文件,
鏈接地址如下:
http://www.lfd.uci.edu/~gohlke/pythonlibs/
這里以scipy為例說明,首先在上述頁面中找到scipy庫對應(yīng)的內(nèi)容。選擇其中的.whl文件下載,這里選擇適用于Python 3.5版本解釋器和32位系統(tǒng)的對應(yīng)文件:win3 2.whl,下載該文件到pycodes目錄诱桂。然后進入該目錄使用pip安裝洋丐。
2.PyInstaller庫
pyinstaller庫概述
Pylnstaller是一個十分有用的Python第三方庫,它能夠在Windows、Linux挥等、Mac OS X等操作系統(tǒng)下將Python源文件打包,變成直接可運行的可執(zhí)行文件友绝。通過對源文件打包,Python程序可以在沒有安裝Python的環(huán)境中運行,也可以作為一個獨立文件方便傳遞和管理。
安裝方式如下:
pip install Pylnstaller
1肝劲、使用Pylnstaller庫對Python源文件打包十分簡單,使用方法如下:
:|>Pylnstaller<Python源程序文件名>
執(zhí)行完畢后,源文件所在目錄將生成dist和build兩個文件夾迁客。最終的打包程序在dist內(nèi)部與源文件同名的目錄中。
2辞槐、可以通過-F參數(shù)對Python源文件生成一個獨立的可執(zhí)行文件,
如下:
:\>Pylnstaller-F<Python源程序文件名>
C:\Users\11397>cd Desktop
C:\Users\11397\Desktop>pyinstaller -F 000.py
常用參數(shù)
3.第三方庫:jieba庫掷漱,wordcloud庫
jieba庫的概述
1、由于中文文本中的單詞不是通過空格或者標點符號分割,中文及
類似語言存在一個重要的“分詞”問題榄檬。
2卜范、jieba(“結(jié)巴”)是Python中一個重要的第三方中文分詞函數(shù)庫。
安裝方式:
pip install jieba
3鹿榜、jieba庫的分詞原理是利用一個中文詞庫,將待分詞的內(nèi)容與分詞詞庫進行比對,通過圖結(jié)構(gòu)和動態(tài)規(guī)劃方法找到最大概率的詞組海雪。除了分詞jieba還提供增加自定義中文單詞的功能锦爵。
4、jieba庫支持三種分詞模式:精確模式,將句子最精確地切開,適合文本分析;全模式,把句子中所有可以成詞的詞語都掃描出來,速度非吃海快,但是不能解決歧義;搜索引擎模式,在精確模式基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
import jieba
1s= jieba.1cut("全國計算機等級考試python科目”)
print (1s)
4.jieba庫與中文分詞
1怀薛、jieba.lcut(s)是最常用的中文分詞函數(shù),用于精準模式,即將字符串分割成等量的中文詞組,返回結(jié)果是列表類型刺彩。
2、jieba.lcut(s,cut_all=True)用于全模式,即將字符串的所有分詞可能均列出來,返回結(jié)果是列表類型,冗余性最大枝恋。
import jieba
s=jieba.1cut("全國計算機等級考試python科目”,cut_all=True)
print(s)
['全國’,’國計’,’計算’,’計算機’,’算機’,’等級’,’考試’,’python',’科目’]
3创倔、jieba.lcut_for_search(s)返回搜索引擎模式,該模式首先執(zhí)行精確模式,然后再對其中長詞進一步切分獲得最終結(jié)果。
import jieba
s=jieba.lcut_for_search("全國計算機等級考試Python科目”)
print(s)
['全國’,’計算’,’算機’,’計算機’,’等級’,’考試’,’Python',’科目’]
print (s)
’一個’,’年輕人’,’,’,’我們’,’要’,’努力’,’,’,’加油’,
搜索引擎模式更傾向于尋找短詞語,這種方式具有一定冗余度,但冗余度相比全模式較少焚碌。
4畦攘、jieba.add_word()函數(shù),顧名思義,用來向jieba詞庫增加新的單詞。
wordcloud庫概述
1十电、wordcloud庫是專門用于根據(jù)文本生成詞云的Python第三方庫,十分常用且有趣知押。
2、裝wordcloud庫在Windows的cmd命令行使用如下命令:
pip install wordcloud
3鹃骂、wordcloud庫的使用十分簡單,以一個字符串為例台盯。其中,產(chǎn)生詞云只需要一行語句,在第三行,并可以將詞云保存為圖片。
from wordcloud import WordCloud
txt = 'i like python i am learing python'
wd =WordCloud().generate(txt)
wd. to_file('test.png')
在生成詞云時,wordcloud默認會以空格或標點為分隔符對目標文本進行分詞處理畏线。對于中文文本,分詞處理需要由用戶來完成静盅。一般步驟是先將文本分詞處理,然后以空格拼接,再調(diào)用wordcloud庫函數(shù)。
wordcloud常用參數(shù)