python數(shù)據(jù)分析綜合項(xiàng)目--空氣質(zhì)量指數(shù)分析

項(xiàng)目背景

近年來,我國的環(huán)境問題比較嚴(yán)重,很多城市出現(xiàn)了霧霾天氣,當(dāng)然也有很多城市空氣依舊清新烦租,為了研究具體的空氣環(huán)境城市分布,我們采用了假設(shè)檢驗(yàn)以及線性回歸的思想對AQI(空氣質(zhì)量指數(shù))進(jìn)行分析和預(yù)測除盏,其中AQI的值越大,表示空氣質(zhì)量越差挫以,AQI值越小者蠕,表明空氣質(zhì)量越好。

提出問題

1.列出空氣質(zhì)量優(yōu)秀/較差的五個城市
2.全國空氣質(zhì)量分布情況
3.臨海城市和內(nèi)陸城市的空氣質(zhì)量對比
4.影響空氣指數(shù)的因素
5.空氣質(zhì)量均值驗(yàn)證

數(shù)據(jù)字段描述

City 城市名
AQI 空氣質(zhì)量指數(shù)
Precipitation 降雨量
GDP 城市生產(chǎn)總值
Temperature 溫度
Longitude 經(jīng)度
Latitude 緯度
Altitude 海拔高度
PopulationDensity 人口密度
Coastal 是否沿海
GreenCoverageRate 綠化覆蓋率
Incineration(10,000ton) 焚燒量(10000噸)

導(dǎo)入相應(yīng)的模塊以及數(shù)據(jù)集

數(shù)據(jù)處理

在進(jìn)行數(shù)據(jù)分析之前掐松,我們對數(shù)據(jù)集進(jìn)行觀察并對其中的缺失值踱侣、重復(fù)值粪小、異常值進(jìn)行處理

  • 處理缺失值

我們發(fā)現(xiàn)降雨量數(shù)據(jù)中包含了4個缺失值,為了保證數(shù)據(jù)的精確抡句,我們查一下降雨量的數(shù)據(jù)分布

降雨量分布圖

很明顯的呈現(xiàn)右偏分布探膊,因此采用平均數(shù)來替代缺失值并不妥,我們這里用中位數(shù)來代替

缺失值處理
  • 異常值處理
    最常用的異常值檢測方式為3倍標(biāo)準(zhǔn)差檢驗(yàn)法待榔,我們用此方法篩選出異常數(shù)據(jù)逞壁,并繪制對應(yīng)的箱線圖
異常值檢測

GDP箱線圖

GDP屬性中檢測出8條異常值,我們這里采取用極端值替換的方式锐锣,將異常值替換成最大值

df['GDP'][(df['GDP']<lower)|(df['GDP']>upper)]=df['GDP'].mean()+3*df['GDP'].std()
  • 重復(fù)值處理
    重復(fù)值處理比較簡單腌闯,篩選出來并刪除即可
df.drop_duplicates(inplace=True)

數(shù)據(jù)分析及可視化

數(shù)據(jù)集處理完畢之后,我們開始進(jìn)行數(shù)據(jù)分析

1. 列出空氣質(zhì)量優(yōu)秀/較差的五個城市

按照AQI降序排列雕憔,選出排名前五以及后五的城市姿骏,進(jìn)行可視化,結(jié)果如下

空氣質(zhì)量好的五大城市
空氣質(zhì)量堪憂的五個城市

結(jié)論:空氣質(zhì)量較好的城市為韶關(guān)市斤彼、南平市分瘦、梅州市、基隆市琉苇、三明市嘲玫,空氣質(zhì)量堪憂的城市分別為焦作市、錦州市翁潘、保定市趁冈、朝陽市、北京市

2. 全國空氣質(zhì)量分布情況

這里我們將AQI指數(shù)分為六個等級拜马,并根據(jù)等級統(tǒng)計(jì)全國空氣質(zhì)量的等級情況

全國空氣質(zhì)量等級劃分圖

我們再用散點(diǎn)圖繪制下全國的空氣質(zhì)量分布

地理分布圖

結(jié)論:我國城市的空氣質(zhì)量集中在一級渗勘、二級和三級,高污染城市比例較低俩莽;從地理位置來看旺坠,西部城市空氣質(zhì)量優(yōu)于東部城市,南部城市優(yōu)于北部城市扮超。

3. 臨海城市和內(nèi)陸城市的空氣質(zhì)量對比

根據(jù)上面的結(jié)論我們發(fā)現(xiàn)取刃,仿佛臨海城市的空氣質(zhì)量普遍高于內(nèi)陸地區(qū),那么這個結(jié)論是否是真的呢出刷?還需要進(jìn)一步驗(yàn)證璧疗。

首先,我們來統(tǒng)計(jì)下不同地理環(huán)境的城市數(shù)量

內(nèi)陸馁龟、沿海城市數(shù)量

第二步崩侠,繪制臨海和內(nèi)陸城市的AQI分布圖

AQI分布

我們發(fā)現(xiàn)內(nèi)陸城市AQI集中分布在50-100區(qū)間內(nèi),而沿海城市AQI集中分布在0-50區(qū)間坷檩,在此樣本中却音,沿海的AQI分布低于內(nèi)陸城市改抡,但是這畢竟是樣本,無法推測出總體分布情況系瓢,還需進(jìn)一步探測阿纤。

第三步,統(tǒng)計(jì)AQI均值并繪制分布密度圖

AQI均值

第四步夷陋,差異檢驗(yàn)欠拾,查看內(nèi)陸沿海AQI均值分布是否顯著

我們先假設(shè)內(nèi)陸城市和沿海城市的平均值相同

t檢驗(yàn)

結(jié)果得出支持的概率為0.006,遠(yuǎn)低于0.05肌稻,因此我們否定原假設(shè)清蚀,選擇備擇假設(shè),即內(nèi)陸城市和沿海城市的平均值不相同

結(jié)論:經(jīng)過分析爹谭,我們發(fā)現(xiàn)有超過99%的概率可以證明臨海城市空氣質(zhì)量優(yōu)于內(nèi)陸城市的空氣質(zhì)量枷邪。

4. 影響空氣指數(shù)的因素

為了探究影響空氣質(zhì)量的具體因素,我們需要計(jì)算出兩個變量之間的相關(guān)系數(shù)诺凡,以此進(jìn)行判斷东揣,這里采用熱力圖進(jìn)行可視化操作。

sns.heatmap(df.corr(),annot=True,fmt='.2f')
相關(guān)系數(shù)熱力圖

結(jié)論:從顯示結(jié)果看出腹泌,AQI主要受降雨量和緯度的影響嘶卧,其中降雨量越多,空氣質(zhì)量越好(0.4)凉袱;緯度越低芥吟,空氣質(zhì)量越好(-0.55)
當(dāng)然,從整個圖片來看专甩,也能發(fā)現(xiàn)很多變量之間的關(guān)系钟鸵,比如GDP與焚燒量的正相關(guān)系數(shù)達(dá)到了0.9,溫度與緯度的負(fù)相關(guān)系數(shù)達(dá)到了-0.81等涤躲。

5. 空氣質(zhì)量均值驗(yàn)證

傳聞空氣質(zhì)量均值在71左右棺耍,這個消息是否是準(zhǔn)確的呢?我們進(jìn)行一次驗(yàn)證种樱。

首先計(jì)算樣本的均值

df['AQI'].mean()

結(jié)果顯示為75.334

那么總體的均值是否為71呢蒙袍?這里先假設(shè)總體的均值為71,進(jìn)行t檢驗(yàn)

驗(yàn)證

結(jié)論:可以看出嫩挤,偏離均值1.81倍的標(biāo)準(zhǔn)差害幅,而且p值大于0.05,我們接受原假設(shè)(即空氣質(zhì)量均值在71左右)另外岂昭,我們還可以計(jì)算出在置信度為95%時矫限,空氣質(zhì)量均值的置信區(qū)間為70-80。

總結(jié)

  1. 空氣質(zhì)量最好的城市是韶關(guān)、南平和梅州叼风,最差的是北京。
  2. 分布總體顯示棍苹,西部城市空氣質(zhì)量優(yōu)于東部城市无宿,南部城市優(yōu)于北部城市。
  3. 臨海城市空氣質(zhì)量總體好于內(nèi)陸城市枢里。
  4. 降雨量和緯度對空氣質(zhì)量影響較大孽鸡。
  5. 我國平均空氣質(zhì)量指數(shù)在70-80之間,概率達(dá)到95%
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末栏豺,一起剝皮案震驚了整個濱河市彬碱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌奥洼,老刑警劉巖巷疼,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異灵奖,居然都是意外死亡嚼沿,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進(jìn)店門瓷患,熙熙樓的掌柜王于貴愁眉苦臉地迎上來骡尽,“玉大人,你說我怎么就攤上這事擅编∨氏福” “怎么了?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵爱态,是天一觀的道長谭贪。 經(jīng)常有香客問我,道長肢藐,這世上最難降的妖魔是什么故河? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮吆豹,結(jié)果婚禮上鱼的,老公的妹妹穿的比我還像新娘。我一直安慰自己痘煤,他們只是感情好凑阶,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著衷快,像睡著了一般宙橱。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天师郑,我揣著相機(jī)與錄音环葵,去河邊找鬼。 笑死宝冕,一個胖子當(dāng)著我的面吹牛张遭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播地梨,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼菊卷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了宝剖?” 一聲冷哼從身側(cè)響起洁闰,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎万细,沒想到半個月后扑眉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡雅镊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年襟雷,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片仁烹。...
    茶點(diǎn)故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡耸弄,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出卓缰,到底是詐尸還是另有隱情计呈,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布征唬,位于F島的核電站捌显,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏总寒。R本人自食惡果不足惜扶歪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望摄闸。 院中可真熱鬧善镰,春花似錦、人聲如沸年枕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽熏兄。三九已至品洛,卻和暖如春树姨,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背桥状。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工帽揪, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人辅斟。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓台丛,卻偏偏與公主長得像,于是被迫代替她去往敵國和親砾肺。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內(nèi)容