項(xiàng)目背景
近年來,我國的環(huán)境問題比較嚴(yán)重,很多城市出現(xiàn)了霧霾天氣,當(dāng)然也有很多城市空氣依舊清新烦租,為了研究具體的空氣環(huán)境城市分布,我們采用了假設(shè)檢驗(yàn)以及線性回歸的思想對AQI(空氣質(zhì)量指數(shù))進(jìn)行分析和預(yù)測除盏,其中AQI的值越大,表示空氣質(zhì)量越差挫以,AQI值越小者蠕,表明空氣質(zhì)量越好。
提出問題
1.列出空氣質(zhì)量優(yōu)秀/較差的五個城市
2.全國空氣質(zhì)量分布情況
3.臨海城市和內(nèi)陸城市的空氣質(zhì)量對比
4.影響空氣指數(shù)的因素
5.空氣質(zhì)量均值驗(yàn)證
數(shù)據(jù)字段描述
City 城市名
AQI 空氣質(zhì)量指數(shù)
Precipitation 降雨量
GDP 城市生產(chǎn)總值
Temperature 溫度
Longitude 經(jīng)度
Latitude 緯度
Altitude 海拔高度
PopulationDensity 人口密度
Coastal 是否沿海
GreenCoverageRate 綠化覆蓋率
Incineration(10,000ton) 焚燒量(10000噸)
導(dǎo)入相應(yīng)的模塊以及數(shù)據(jù)集
數(shù)據(jù)處理
在進(jìn)行數(shù)據(jù)分析之前掐松,我們對數(shù)據(jù)集進(jìn)行觀察并對其中的缺失值踱侣、重復(fù)值粪小、異常值進(jìn)行處理
- 處理缺失值
我們發(fā)現(xiàn)降雨量數(shù)據(jù)中包含了4個缺失值,為了保證數(shù)據(jù)的精確抡句,我們查一下降雨量的數(shù)據(jù)分布
很明顯的呈現(xiàn)右偏分布探膊,因此采用平均數(shù)來替代缺失值并不妥,我們這里用中位數(shù)來代替
- 異常值處理
最常用的異常值檢測方式為3倍標(biāo)準(zhǔn)差檢驗(yàn)法待榔,我們用此方法篩選出異常數(shù)據(jù)逞壁,并繪制對應(yīng)的箱線圖
GDP屬性中檢測出8條異常值,我們這里采取用極端值替換的方式锐锣,將異常值替換成最大值
df['GDP'][(df['GDP']<lower)|(df['GDP']>upper)]=df['GDP'].mean()+3*df['GDP'].std()
- 重復(fù)值處理
重復(fù)值處理比較簡單腌闯,篩選出來并刪除即可
df.drop_duplicates(inplace=True)
數(shù)據(jù)分析及可視化
數(shù)據(jù)集處理完畢之后,我們開始進(jìn)行數(shù)據(jù)分析
1. 列出空氣質(zhì)量優(yōu)秀/較差的五個城市
按照AQI降序排列雕憔,選出排名前五以及后五的城市姿骏,進(jìn)行可視化,結(jié)果如下
結(jié)論:空氣質(zhì)量較好的城市為韶關(guān)市斤彼、南平市分瘦、梅州市、基隆市琉苇、三明市嘲玫,空氣質(zhì)量堪憂的城市分別為焦作市、錦州市翁潘、保定市趁冈、朝陽市、北京市
2. 全國空氣質(zhì)量分布情況
這里我們將AQI指數(shù)分為六個等級拜马,并根據(jù)等級統(tǒng)計(jì)全國空氣質(zhì)量的等級情況
我們再用散點(diǎn)圖繪制下全國的空氣質(zhì)量分布
結(jié)論:我國城市的空氣質(zhì)量集中在一級渗勘、二級和三級,高污染城市比例較低俩莽;從地理位置來看旺坠,西部城市空氣質(zhì)量優(yōu)于東部城市,南部城市優(yōu)于北部城市扮超。
3. 臨海城市和內(nèi)陸城市的空氣質(zhì)量對比
根據(jù)上面的結(jié)論我們發(fā)現(xiàn)取刃,仿佛臨海城市的空氣質(zhì)量普遍高于內(nèi)陸地區(qū),那么這個結(jié)論是否是真的呢出刷?還需要進(jìn)一步驗(yàn)證璧疗。
首先,我們來統(tǒng)計(jì)下不同地理環(huán)境的城市數(shù)量
第二步崩侠,繪制臨海和內(nèi)陸城市的AQI分布圖
我們發(fā)現(xiàn)內(nèi)陸城市AQI集中分布在50-100區(qū)間內(nèi),而沿海城市AQI集中分布在0-50區(qū)間坷檩,在此樣本中却音,沿海的AQI分布低于內(nèi)陸城市改抡,但是這畢竟是樣本,無法推測出總體分布情況系瓢,還需進(jìn)一步探測阿纤。
第三步,統(tǒng)計(jì)AQI均值并繪制分布密度圖
第四步夷陋,差異檢驗(yàn)欠拾,查看內(nèi)陸沿海AQI均值分布是否顯著
我們先假設(shè)內(nèi)陸城市和沿海城市的平均值相同
結(jié)果得出支持的概率為0.006,遠(yuǎn)低于0.05肌稻,因此我們否定原假設(shè)清蚀,選擇備擇假設(shè),即內(nèi)陸城市和沿海城市的平均值不相同
結(jié)論:經(jīng)過分析爹谭,我們發(fā)現(xiàn)有超過99%的概率可以證明臨海城市空氣質(zhì)量優(yōu)于內(nèi)陸城市的空氣質(zhì)量枷邪。
4. 影響空氣指數(shù)的因素
為了探究影響空氣質(zhì)量的具體因素,我們需要計(jì)算出兩個變量之間的相關(guān)系數(shù)诺凡,以此進(jìn)行判斷东揣,這里采用熱力圖進(jìn)行可視化操作。
sns.heatmap(df.corr(),annot=True,fmt='.2f')
結(jié)論:從顯示結(jié)果看出腹泌,AQI主要受降雨量和緯度的影響嘶卧,其中降雨量越多,空氣質(zhì)量越好(0.4)凉袱;緯度越低芥吟,空氣質(zhì)量越好(-0.55)
當(dāng)然,從整個圖片來看专甩,也能發(fā)現(xiàn)很多變量之間的關(guān)系钟鸵,比如GDP與焚燒量的正相關(guān)系數(shù)達(dá)到了0.9,溫度與緯度的負(fù)相關(guān)系數(shù)達(dá)到了-0.81等涤躲。
5. 空氣質(zhì)量均值驗(yàn)證
傳聞空氣質(zhì)量均值在71左右棺耍,這個消息是否是準(zhǔn)確的呢?我們進(jìn)行一次驗(yàn)證种樱。
首先計(jì)算樣本的均值
df['AQI'].mean()
結(jié)果顯示為75.334
那么總體的均值是否為71呢蒙袍?這里先假設(shè)總體的均值為71,進(jìn)行t檢驗(yàn)
結(jié)論:可以看出嫩挤,偏離均值1.81倍的標(biāo)準(zhǔn)差害幅,而且p值大于0.05,我們接受原假設(shè)(即空氣質(zhì)量均值在71左右)另外岂昭,我們還可以計(jì)算出在置信度為95%時矫限,空氣質(zhì)量均值的置信區(qū)間為70-80。
總結(jié)
- 空氣質(zhì)量最好的城市是韶關(guān)、南平和梅州叼风,最差的是北京。
- 分布總體顯示棍苹,西部城市空氣質(zhì)量優(yōu)于東部城市无宿,南部城市優(yōu)于北部城市。
- 臨海城市空氣質(zhì)量總體好于內(nèi)陸城市枢里。
- 降雨量和緯度對空氣質(zhì)量影響較大孽鸡。
- 我國平均空氣質(zhì)量指數(shù)在70-80之間,概率達(dá)到95%