文末有源代碼(ipynb格式)、視頻教程的下載地址棱貌。
數(shù)據(jù)讀取
1冻河、Pandas操作的數(shù)據(jù)類型也就是結構是DataFrame
里面元素的數(shù)據(jù)類型分別是str(object),int64酿炸,float64三種
print(help(pandas.read_csv)
2、顯示前幾行涨冀,后幾行填硕,每列的含義,矩陣的維度鹿鳖。扁眯。。
索引和計算
1翅帜、取某一行的樣本
2姻檀、取某幾行的樣本
3、取DataFrame里的某一列
4涝滴、取DataFrame里的某幾列
5绣版、提取列名以“g”為結尾的數(shù)據(jù)
6、對某一列的所有數(shù)據(jù)進行操作狭莱,加減乘除
7僵娃、對某兩列對應位置相乘可以得到新的一列(值為兩列對應位置相乘);處理某列并添加到原數(shù)據(jù)集
8腋妙、對某幾列進行復雜的計算
9默怨、求某一列的最大值,并用于歸一化
10骤素、對指定的列進行排序
數(shù)據(jù)預處理實例
1匙睹、數(shù)據(jù)讀入
2、對于缺失值進行定位济竹,統(tǒng)計
3痕檬、有缺失值時,求均值得到的也是缺失值
4送浊、除去缺失值之后求均值梦谜;也可以直接調用Pandas里的.mean()方法求均值
5、透視表的使用
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
參數(shù)詳情可參考官網(wǎng):http://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html
詳細教程可參考博客:https://www.cnblogs.com/onemorepoint/p/8425300.html
其中源代碼在這里:http://nbviewer.jupyter.org/url/pbpython.com/extras/Pandas-Pivot-Table-Explained.ipynb
例如:統(tǒng)計船艙等級分別對應的“Fare”均值(用循環(huán)的方式)
后者使用.pivot_table函數(shù)
5袭景、刪除缺失值
6唁桩、按照某一列進行排序,并重設第一列的索引
sort_values和reset_index函數(shù)
自定義函數(shù)
使用apply函數(shù)調用自定義的函數(shù)
1耸棒、獲得第一百行
2荒澡、求每列缺失值的個數(shù)
3、把連續(xù)的年齡轉換成離散化的數(shù)據(jù)
Series結構
DataFrame分解得到的行或者列都是一個Series結構与殃。
前者相當于矩陣单山,后者相當于一行或者一列
Series (collection of values)碍现、DataFrame (collection of Series objects)、Panel (collection of DataFrame objects)
1米奸、取出某列昼接,即series結構
2、Series的組成和構建
3躏升、series的索引
4辩棒、索引重排序
5、按索引排序膨疏、按值排序
6一睁、
7、選取值在50-75之間的
8佃却、計算兩個媒體對每個電影的平均評分
1者吁、對于DataFrame建立索引值set_index,以電影名字為索引
2饲帅、以某一列為索引复凳,同樣可以切片。此時有兩個索引值
單獨選擇一行時灶泵,返回的是series結構育八;多行時,返回的是DataFrame結構
3赦邻、類型轉換apply函數(shù)
4髓棋、對某兩行計算標準差
源代碼鏈接:https://pan.baidu.com/s/1XBfgedOl0cw6-5mQFbpGtA 密碼:b6qw
視頻教程鏈接:鏈接:https://pan.baidu.com/s/1D6pXzgpmG7N6JqfniBD8eQ 密碼:i2s4