在創(chuàng)建DataFrame前,我們先生成隨機數(shù)工窍。(隨機數(shù)在練習的時候很常用割卖。) Numpy庫的randn函數(shù)能生成多個隨機數(shù)。
還可以用Numpy的arange函數(shù) 生成一個list患雏,可以用作DataFrame的索引鹏溯。我個人比較喜歡用arange,括號里是(起點值淹仑,終點值+1丙挽,步長)
生成一個完整的DataFrame:
DataFrame有多個參數(shù):data就是要轉(zhuǎn)換成DataFrame的內(nèi)容肺孵,很多數(shù)據(jù)類型都可以轉(zhuǎn)換成DataFrame,比如:Series,字典颜阐,元組等等悬槽。如果是字典轉(zhuǎn)換的話,“鍵”就默認是列名了瞬浓。index是索引,columns是列名蓬坡。
如果在轉(zhuǎn)換成DataFrame時猿棉,沒有指定index 和columns,系統(tǒng)會自動設定屑咳,都是從0開始的整數(shù)萨赁。
可以使用dtypes來查看各列的數(shù)據(jù)格式,info函數(shù)可以查看整個DataFrame的屬性信息兆龙。
查看前幾行和后幾行數(shù)據(jù)杖爽,括號里選擇行的參數(shù):
對數(shù)值數(shù)據(jù)進行統(tǒng)計各類指標:
一般分類數(shù)據(jù)用value_counts(后續(xù)會講),數(shù)值數(shù)據(jù)用describe紫皇,這是最常用的兩個統(tǒng)計函數(shù)慰安。
選擇數(shù)據(jù)的行、列索引和數(shù)值:
行列轉(zhuǎn)換:
還有一個轉(zhuǎn)置函數(shù)unstack化焕,用法有些許的區(qū)別。
對數(shù)據(jù)進行排序铃剔,用到了sort_values撒桨,by參數(shù)可以指定根據(jù)哪一列數(shù)據(jù)進行排序,ascending是設置升序和降序(選擇多列或者多行排序要加[ ]键兜,把選擇的行列轉(zhuǎn)換為列表凤类,排序方式也可以同樣的操作)。
sort_values其它參數(shù):axis=0或者1 縱向排序還是橫普气;na_position='last' 將空值排在最后谜疤;kind和inplace是排序的具體方式,一般數(shù)據(jù)用不到现诀。