想要成為一個(gè)程序員,除了學(xué)習(xí)各種教程之外嗡靡,熟悉各種已經(jīng)在生產(chǎn)環(huán)境中使用的工具會(huì)讓你更快的成長跺撼!
這里有7款python工具,是所有數(shù)據(jù)專家必不可少的工具讨彼。當(dāng)你對(duì)他們有一定了解后歉井,會(huì)成為你找工作的絕對(duì)優(yōu)勢(shì)!下面就了解它們一下吧:
0.IPython
IPython是一個(gè)基于Python Shell的交互式解釋器哈误,但是有比默認(rèn)Shell強(qiáng)大得多的編輯和交互功能哩至。IPython 提供了如下特性:
更強(qiáng)的交互 shell(基于 Qt 的終端)學(xué)習(xí)資料也可以加下Python扣扣裙:四八三五四六四一六獲取
一個(gè)基于瀏覽器的記事本,支持代碼蜜自,純文本菩貌,數(shù)學(xué)公式,內(nèi)置圖表和其他富媒體
支持交互數(shù)據(jù)可視化和圖形界面工具
靈活袁辈,可嵌入解釋器加載到任意一個(gè)自有工程里
簡(jiǎn)單易用菜谣,用于并行計(jì)算的高性能工具
當(dāng)你一個(gè)庫不會(huì)用的時(shí)候珠漂,用ipython 可以寫一些測(cè)試代碼晚缩。可以用ipython快速掌握庫的方法和使用媳危。
1.GraphLab Greate
GraphLab Greate 是一個(gè) Python 庫荞彼,由 C++ 引擎支持,可以快速構(gòu)建大型高性能數(shù)據(jù)產(chǎn)品待笑。
關(guān)于 GraphLab Greate 的特點(diǎn):
可以在您的計(jì)算機(jī)上以交互的速度分析以 T 為計(jì)量單位的數(shù)據(jù)量鸣皂。
在單一平臺(tái)上可以分析表格數(shù)據(jù)、曲線、文字寞缝、圖像癌压。
最新的機(jī)器學(xué)習(xí)算法包括深度學(xué)習(xí),進(jìn)化樹和 factorization machines 理論荆陆。
可以用 Hadoop Yarn 或者 EC2 聚類在你的筆記本或者分布系統(tǒng)上運(yùn)行同樣的代碼滩届。
借助于靈活的 API 函數(shù)專注于任務(wù)或者機(jī)器學(xué)習(xí)。
在云上用預(yù)測(cè)服務(wù)便捷地配置數(shù)據(jù)產(chǎn)品被啼。
為探索和產(chǎn)品監(jiān)測(cè)創(chuàng)建可視化的數(shù)據(jù)帜消。
2.Spar
Spark是一個(gè)圍繞速度、易用性和復(fù)雜分析構(gòu)建的大數(shù)據(jù)處理框架浓体,提供了一個(gè)全面泡挺、統(tǒng)一的框架用于管理各種有著不同性質(zhì)(文本數(shù)據(jù)、圖表數(shù)據(jù)等)的數(shù)據(jù)集和數(shù)據(jù)源(批量數(shù)據(jù)或?qū)崟r(shí)的流數(shù)據(jù))的大數(shù)據(jù)處理的需求命浴。
Spark基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算娄猫,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中咳促,從而不再需要讀寫HDFS稚新,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法。
3.Pandas
Pandas 是基于 NumPy 的一個(gè)非常好用的庫跪腹,正如名字一樣褂删,人見人愛。之所以如此冲茸,就在于不論是讀取屯阀、處理數(shù)據(jù),用它都非常簡(jiǎn)單轴术。
Pandas 有兩種自己獨(dú)有的基本數(shù)據(jù)結(jié)構(gòu)难衰。讀者應(yīng)該注意的是,它固然有著兩種數(shù)據(jù)結(jié)構(gòu)逗栽,因?yàn)樗廊皇?Python 的一個(gè)庫盖袭,所以,Python 中有的數(shù)據(jù)類型在這里依然適用彼宠,也同樣還可以使用類自己定義數(shù)據(jù)類型鳄虱。只不過,Pandas 里面又定義了兩種數(shù)據(jù)類型:Series 和 DataFrame凭峡,它們讓數(shù)據(jù)操作更簡(jiǎn)單了拙已。
4.Scikit-Learn
Scikit-Learn是用Python開發(fā)的機(jī)器學(xué)習(xí)庫,其中包含大量機(jī)器學(xué)習(xí)算法摧冀、數(shù)據(jù)集倍踪,是數(shù)據(jù)挖掘方便的工具系宫。Scikit-learn的基本功能主要被分為六大部分:分類,回歸建车,聚類扩借,數(shù)據(jù)降維,模型選擇和數(shù)據(jù)預(yù)處理缤至。Scikit-learn需要NumPy和SciPy等其他包的支持往枷,才能夠使用。
5.PuLP
線性編程是一種優(yōu)化凄杯,其中一個(gè)對(duì)象函數(shù)被最大程度地限制了错洁。PuLP 是一個(gè)用 Python 編寫的線性編程模型。它能產(chǎn)生線性文件戒突,能調(diào)用高度優(yōu)化的求解器屯碴,GLPK,COIN CLP/CBC膊存,CPLEX导而,和GUROBI,來求解這些線性問題隔崎。
6.Matplotlib
matplotlib在Python中應(yīng)用最多的2D圖像的繪圖工具包今艺,使用matplotlib能夠非常簡(jiǎn)單的可視化數(shù)據(jù)。
matplotlib 嘗試使容易事情變得更容易爵卒,使困難事情變?yōu)榭赡苄槎小Mㄟ^ Matplotlib,你只需要輸入幾行代碼钓株,便可以生成繪圖实牡,直方圖,功率譜轴合,條形圖创坞,錯(cuò)誤圖,散點(diǎn)圖等
了解更多請(qǐng)關(guān)注微信公眾號(hào):程序員大牛