這個(gè)進(jìn)階作業(yè)有幾位同學(xué)已經(jīng)分析得挺詳盡。之前把作業(yè)時(shí)間估計(jì)得有些樂觀屡律,實(shí)際做的過程中略微去探索一些新的問題作業(yè)的主線就時(shí)間不夠了腌逢,內(nèi)容比較少。
有感觸數(shù)據(jù)分析人員如果對(duì)于所分析數(shù)據(jù)的業(yè)務(wù)背景和數(shù)據(jù)含義有更好地認(rèn)識(shí)超埋,個(gè)人認(rèn)為最后的描述結(jié)果有更大概率能發(fā)現(xiàn)有實(shí)際意義的規(guī)律或特征搏讶,更好地指導(dǎo)工作。怎么在實(shí)際企業(yè)工作中讓數(shù)據(jù)中的發(fā)現(xiàn)和真正的運(yùn)營手段結(jié)合更緊密是這個(gè)職業(yè)的一個(gè)關(guān)鍵問題霍殴。
進(jìn)階作業(yè)天氣數(shù)據(jù)分析
- 使用本課所學(xué)的方法媒惕,在Jupyter Notebook中分析天氣數(shù)據(jù)weatherdata.csv
運(yùn)行環(huán)境
- Jupyter Notobook 5.0.0
- Python 3.6.1
數(shù)據(jù)導(dǎo)入和初步觀察
# 導(dǎo)入pandas模塊
import pandas as pd
# 魔術(shù)關(guān)鍵字設(shè)置直接顯示圖片
%matplotlib inline
weather_data = pd.read_csv('G:\Dropbox\data-analysis\weatherdata.csv', parse_dates=True , index_col='Date')
weather_data
數(shù)據(jù)是某地2013年整年的天氣數(shù)據(jù),包含華氏溫度来庭,濕度妒蔚,氣壓(校準(zhǔn)到海平面高度是為了排除高度對(duì)氣壓的影響,單位是英寸汞柱月弛。海平面標(biāo)準(zhǔn)大氣壓是29.92英寸汞柱肴盏,即我們的760毫米汞柱),可見度尊搬,風(fēng)速叁鉴,云量和天氣事件。
weather_data.describe()
對(duì)華氏溫度我們比較沒有直觀感覺佛寿,加入攝氏溫度
weather_data['TemperatureC'] = ( weather_data['TemperatureF'] - 32 ) * 5 / 9
weather_data.describe()
weather_data.TemperatureC.plot(title='Celsius Temperature in 2013', figsize=(20, 6))
可以看到全年最低溫能達(dá)到-10度以下幌墓,而最高溫未超過27度,基本也就6至8月在20至25度之間冀泻。從我自己的常識(shí)來估計(jì)常侣,該地區(qū)在北半球溫帶地區(qū)。如果氣候類型和中國差異不大弹渔,相當(dāng)于緯度在黃河以北胳施,吉林以南。
weather_data['Events'].value_counts(dropna=False).plot(title='Climate Events Distribution 2013', kind='pie', autopct='%1.1f%%', figsize=(8, 8))
weather_data.resample('W').mean().plot(y=['TemperatureF','Humidity'], kind='bar', secondary_y=['Humidity'], mark_right=False, figsize=(20, 8))
weather_data.resample('W').mean().plot(y=['WindSpeedMPH','Humidity'], kind='bar', secondary_y=['Humidity'], mark_right=False, figsize=(20, 8))
有一定比例的雨雪霧氣候肢专。有限時(shí)間內(nèi)做圖肉眼觀察覺得濕度和溫度或風(fēng)速?zèng)]有太大的相關(guān)性舞肆,一年大多數(shù)時(shí)間濕度都不低焦辅。就4,5月份有那么幾周濕度能在60%以下椿胯。這個(gè)地區(qū)的潮濕和季風(fēng)應(yīng)該關(guān)系不大筷登,不是靠湖就是靠海。
本來有想法多分析一些數(shù)據(jù)和嘗試一些新的方法哩盲,比如X軸時(shí)間變量的格式變化前方。在有限的時(shí)間內(nèi)覺得練習(xí)有所收獲,還是先發(fā)文吧廉油。
疑問
- Jupyter Notobook能直接把運(yùn)行結(jié)果保存或?qū)С鰹閳D片嗎惠险?pnjoe的完整的weatherdata.csv生成的DataFrame的結(jié)果截圖是用外部的截圖工具做的嗎?
- 如果老師發(fā)現(xiàn)我的Python語句有什么錯(cuò)誤或可以優(yōu)化的地方抒线,分析的角度和方式有什么可以優(yōu)化的地方班巩,都?xì)g迎提出。
- 做圖要學(xué)的地方還不少嘶炭。坐標(biāo)軸中Timestamp變量的顯示格式在制作圖表的工作里也經(jīng)常調(diào)整∪たⅲ現(xiàn)在還沒找到一個(gè)高效的方法。除了導(dǎo)入或制作索引前即改變其格式旱物,改變格式的函數(shù)還未來得及找到并嘗試遥缕。