導(dǎo)讀:Python是目前數(shù)據(jù)科學(xué)領(lǐng)域的王者語言渗鬼,眾多科學(xué)家斟冕、工程師醋寝、分析師都使用它來完成數(shù)據(jù)相關(guān)的工作搞挣。由于Python具有簡單易學(xué)、語法靈活的特點音羞,很多需要處理數(shù)據(jù)的人士想要學(xué)習(xí)囱桨,主要有兩大類:
財經(jīng)類、統(tǒng)計類背景人員嗅绰,他們的日常工作有大量數(shù)據(jù)需要處理舍肠、分析,但對于學(xué)習(xí)使用計算機(jī)領(lǐng)域的編程語言Python又感到無從下手窘面。
一些想要學(xué)習(xí)Python的計算機(jī)人員翠语,他們工作較忙,沒有太多時間通過互聯(lián)網(wǎng)去系統(tǒng)學(xué)習(xí)Python數(shù)據(jù)技術(shù)
針對這兩類人員的需求财边,近期出版上市的《利用Python進(jìn)行數(shù)據(jù)分析》第2版是很好的選擇肌括。下面我們結(jié)合本書內(nèi)容,大致介紹下如何利用Python進(jìn)行數(shù)據(jù)分析酣难。
01 Python數(shù)據(jù)分析流程及學(xué)習(xí)路徑
數(shù)據(jù)分析的流程概括起來主要是:讀寫谍夭、處理計算、分析建模和可視化四個部分憨募。在不同的步驟中會用到不同的Python工具紧索。每一步的主題也包含眾多內(nèi)容。
根據(jù)每個部分需要用到的工具菜谣,Python數(shù)據(jù)分析的學(xué)習(xí)路徑如下:
02 利用Python讀寫數(shù)據(jù)
Python讀寫數(shù)據(jù)珠漂,主要包括以下內(nèi)容:
我們以一小段代碼來看:
可見,僅需簡短的兩三行代碼即可實現(xiàn)Python讀入EXCEL文件葛菇。
03 利用Python處理和計算數(shù)據(jù)
在第一步和第二步甘磨,我們主要使用的是Python的工具庫NumPy和pandas。其中眯停,NumPy主要用于矢量化的科學(xué)計算济舆,pandas主要用于表型數(shù)據(jù)處理。
04 利用Python分析建模
在分析和建模方面莺债,本書主要介紹了Statsmdels和Scikit-learn兩個庫滋觉。
.Statsmodels允許用戶瀏覽數(shù)據(jù),估計統(tǒng)計模型和執(zhí)行統(tǒng)計測試齐邦∽迪溃可以為不同類型的數(shù)據(jù)和每個估算器提供廣泛的描述性統(tǒng)計,統(tǒng)計測試措拇,繪圖函數(shù)和結(jié)果統(tǒng)計列表我纪。
Scikit-leran則是著名的機(jī)器學(xué)習(xí)庫,可以迅速使用各類機(jī)器學(xué)習(xí)算法。
05 利用Python數(shù)據(jù)可視化
數(shù)據(jù)可視化是數(shù)據(jù)工作中的一項重要內(nèi)容浅悉,它可以輔助分析也可以展示結(jié)果趟据。本書主要介紹了Python眾多可視化庫中最為主流的Matplotlib:
06 總結(jié):為什么要選這本書
《利用Python進(jìn)行數(shù)據(jù)分析》第2版原作者是美國的數(shù)據(jù)科學(xué)家Wes McKinney,他畢業(yè)于麻省理工學(xué)院术健,是大名鼎鼎的Python數(shù)據(jù)技術(shù)類庫pandas的創(chuàng)始人汹碱,在多家投資銀行從事過數(shù)據(jù)科學(xué)類的工作。本書第一版由Wes McKinney寫于2010年荞估,經(jīng)過7年的技術(shù)發(fā)展咳促,第一版中的部分技術(shù)已不再適用,因此他于2017年發(fā)表了本書的第二版勘伺,對書中的大量技術(shù)跪腹、代碼、示例進(jìn)行了更新娇昙。由于本書大受好評尺迂,國內(nèi)旋即引進(jìn)。
關(guān)于作者:徐敬一冒掌,是《利用Python進(jìn)行數(shù)據(jù)分析》第2版的譯者,中國工商銀行的數(shù)據(jù)分析師蹲盘,他在工作中大量使用各類Python數(shù)據(jù)技術(shù)股毫,對于Python的數(shù)學(xué)科學(xué)技術(shù)棧十分了解,同時英語水平良好召衔,使本書的翻譯質(zhì)量得以保證铃诬。