在此附上視頻教程
一伞鲫、基本介紹
1.pandas是基于numpy的一種工具蜂桶,或者說pands與numpy是相輔相成的兩個進行數(shù)據(jù)處理與分析的工具倘感,pands提供了大量能使我們便捷地處理數(shù)據(jù)的函數(shù)和方法竣贪。它是使Python成為強大而高效的數(shù)據(jù)分析環(huán)境的重要元素之一。
2.pandas是python的一個數(shù)據(jù)分析包锤窑,最初由AQR Capital Management于2008年4月開發(fā),并于2009年底開發(fā)出來蓝撇,目前由專注于Python數(shù)據(jù)包開發(fā)的PyData開發(fā)team繼續(xù)開發(fā)和維護果复,屬于PyData項目的一部分。Pandas最初被作為金融數(shù)據(jù)分工具而開發(fā)出來渤昌,因此虽抄,pandas為時間序列分析提供了很好的支持走搁。Pandas的名稱來源與面板數(shù)據(jù)(Panel data)和python數(shù)據(jù)分析(data analysis)。panel data是經(jīng)濟學(xué)中關(guān)于多維數(shù)據(jù)集的一個術(shù)語迈窟,在Pandas中也提供了panel的數(shù)據(jù)類型私植。
二、Pandas 安裝(Win10)
在命令行中鍵入以下命令就可以啦(Win + R呼出cmd命令行窗口)
pip install pandas
二车酣、數(shù)據(jù)類型
Series:序列曲稼,如下定義
如下圖:s = pd.Series([1, 3, 6, np.nan, 44, 1]) # np.nan相當(dāng)于None
可以看到打印出來的序列中的元素前都有一個與之對應(yīng)的序號,dtype:float64為序列中的數(shù)據(jù)類型
時間序列:
如下圖:dates = pd.data_range('20190421', periods = 6) # 表示從20190421開始生成6個數(shù)據(jù)
DataFrame: 二維的表格型數(shù)據(jù)結(jié)構(gòu)湖员。很多功能與R中的data.frame類似贫悄。可以將DataFrame理解為Series的容器娘摔。以下的內(nèi)容主要以DataFrame為主窄坦,如下定義
df = pd.DataFrame(np.arange(24).reshape((6,4)), index=dates, columns=['A','B','C','D'])
如下圖:
可看出,生成二維的表格型數(shù)據(jù)結(jié)構(gòu)凳寺,行的索引index為上面所定義的dates鸭津,列的索引為columns,如果不自定義行或列的索引肠缨,會默認為從0開始的數(shù)列為索引
或者用字典類型進行定義:
df2 = pd.DataFrame({'A': 1.,
'B': pd.Timestamp('20190421'),
'C': pd.Series(1, index=list(range(4)), dtype='float32'),
'D': np.array([3] * 4, dtype='int32'),
'E': pd.Categorical(["test", "train", "test", "train"]),
'F': 'foo'})
如下圖:
DataFrame的屬性的查看:
如下圖:df2.dtypes
其他方法:
df2.index # 查看行的名稱及屬性
df2.columns # 查看列的名稱及屬性
df2.value # 輸出表格中的所有數(shù)據(jù)
df2.T # 相當(dāng)于矩陣中的轉(zhuǎn)置
df2.sort_index(axis=1, ascending=False) # 對列進行倒序
df2.sort_index(axis=0, ascending=False) # 對行進行倒序
df2.sort_values(by='E') # 對表中E列的數(shù)據(jù)進行排序
好啦逆趋,以上就是這次對Pandas的介紹與一些簡單的定義。
歡迎大家在下方評論與留言或者給出建議晒奕,如有錯誤請指出闻书。希望這篇博文能幫助到剛學(xué)習(xí)這個的同學(xué),也歡迎大家分享給需要的人吴汪。
如需轉(zhuǎn)載惠窄,請注明出處。