2020-03-15
1. 數(shù)據(jù)獲取
在Kaggle上獲取Airbnb數(shù)據(jù)踢关。
2. 數(shù)據(jù)導(dǎo)入
利用pandas.read_csv()方法導(dǎo)入數(shù)據(jù)。注意粘茄,數(shù)據(jù)集需要與腳本文件位于同一目錄下签舞。
3. 觀察數(shù)據(jù)
head()方法秕脓,觀察數(shù)據(jù)集的前五條數(shù)據(jù)。也可指定觀察數(shù)據(jù)的條數(shù)儒搭,如head(10)吠架,即觀察前10條數(shù)據(jù)
tail()方法,觀察數(shù)據(jù)集末尾五條的數(shù)據(jù)
describe()方法搂鲫,計(jì)算數(shù)據(jù)的總數(shù)傍药、最大值、最小值魂仍、位于25%的值拐辽、位于50%的值、位于75%的值等等
shape方法擦酌,描述數(shù)據(jù)集的行數(shù)俱诸、列數(shù)
loc[1:3,'age']方法,取第二三四條age的數(shù)據(jù)
df1['age'] 取df1數(shù)據(jù)集里面所有的age數(shù)據(jù)
4. 修改數(shù)據(jù)格式
pandas.to_datetime()? 將‘object對(duì)象格式’改為‘datetime時(shí)間格式’仑氛,方便進(jìn)行加減操作乙埃。
format = ‘%Y%m%d%H%M%S’ 指定時(shí)間的格式,pandas.to_datetime(數(shù)據(jù)集,format = ‘%Y%m%d%H%M%S’ )
dropna()方法锯岖,刪除空字段
4. 數(shù)據(jù)可視化
import seaborn
%matplotlib inline
導(dǎo)入seaborn庫(kù)介袜,用matplotlib畫(huà)圖
seabborn.boxplot(數(shù)據(jù)集) 箱型圖
seaborn.distplot(數(shù)據(jù)集) 條形圖