安裝pandas
pip install pandas
額外的安裝
jupyter
,我們的全部編程都在jupyter
進(jìn)行編寫
初探數(shù)據(jù)文件
需要的數(shù)據(jù)文件
IMDB.csv 提取碼: y8c9-
加載數(shù)據(jù)文件
import pandas as pd pd_imdb = pd.read_csv("IMDB.csv") #這里面我們以IMDB.csv文件為演示
文件自行下載
-
操作及食用方法
-
查看數(shù)據(jù)的基本信息
pd_imdb.info() #查看數(shù)據(jù)基本信息
會(huì)顯示出來(lái)該數(shù)據(jù)文件的基本信息
-
查看所有的列名
pd_imdb.columns #查看所有的列名
-
查詢前/后幾行數(shù)據(jù)
pd_imdb.head(3) #查看前三行 pd_imdb.tail(3) #查看末尾三行
-
查看基礎(chǔ)的描述信息
pd_imdb.describe() #查看基礎(chǔ)的描述信息
iloc 和 loc 的區(qū)別
iloc是根據(jù)索引值來(lái)獲取內(nèi)容的票渠,loc是根據(jù)列名來(lái)獲取內(nèi)容的:
iloc: pd_imdb[1:10,3:6] -> 這樣是選擇第1到9行,第3到5列的內(nèi)容 注意芬迄!這里面不包含第10行
loc:pd_imdb[0:10,['Title','Actors']] -> 這樣是選擇'Title','Actors'列的第0到10行-
選出最大值及最大值的索引
pd_imdb.loc[:,['Revenue (Millions)']].max() #選出票房最高的電影
pd_imdb.loc[:,['Revenue (Millions)']].idxmax() #選出票房最高的電影的索引(行號(hào))
-
范圍的選取
pd_imdb[pd_imdb['Revenue (Millions)'] > 500] #選出票房大于500的行
-
選取包含的內(nèi)容
pd_imdb[pd_imdb['Genre'].str.contains('Sci-Fi')] #選出風(fēng)格中包含科幻的
-
統(tǒng)計(jì)某列數(shù)據(jù)所有字眼出現(xiàn)的次數(shù)
pd_imdb['Director'].value_counts() #統(tǒng)計(jì)出每個(gè)導(dǎo)演導(dǎo)演了多少部影片
-