終于可以學(xué)以致用
現(xiàn)在急需解決一個問題,怎樣讀入非utf-8編碼的csv文件
測試發(fā)現(xiàn)要讀的數(shù)據(jù)編碼格式為'cp936',在read_csv中傳入?yún)?shù)encoding='cp936'即可
另外,頭文件有注釋信息,傳入skiprows=range(8)#一共有8行注釋
time_data = pd.read_csv('d:/works/baidu_data/2017_april/time_summary.csv', skiprows=range(7), encoding='cp936')
指定索引列是time_data.set_index(['日期','小時']) #注意是列表格式
grouped = time_data['展現(xiàn)'].groupby(time_data['日期']) #對DataFrame進(jìn)行聚類處理
time_data.groupby(['小時'])['展現(xiàn)','點擊'].sum() #這里是簡便寫法,表示以小時為聚類,展現(xiàn)點擊為統(tǒng)計項
grouped.sum() #得到各日期求和項Series對象
對于這個Series,直接grouped.sum().plot(),即可生成折線圖