2015年祭陷,有一部很火的IP作品《何以笙簫默》,里面有一句蠻有意味的小句“世界上最痛苦的事趣席,不是無(wú)能為力兵志,而是當(dāng)一切都觸手可及,我卻不愿伸出手去宣肚∠牒保”曾經(jīng)的岳陽(yáng),我們自豪的說(shuō),岳陽(yáng)是一座可以深呼吸的城市按价。然而惭适,回首2015年,岳陽(yáng)人楼镐,是否依然可以深呼吸癞志?
2015年10月,一位朋友從常德過(guò)來(lái)框产,游玩之余凄杯,漫不經(jīng)心的說(shuō)了一句,“岳陽(yáng)今天天氣好差秉宿,不會(huì)有霾吧”戒突。當(dāng)時(shí)我心里一驚:“或許是霧吧”,但卻萌生了用Python和PHP來(lái)分析岳陽(yáng)空氣質(zhì)量的想法描睦。
時(shí)間轉(zhuǎn)眼到了一月膊存,兩篇報(bào)道吸引了我的注意。
作為一個(gè)對(duì)數(shù)字還算敏感的人忱叭,當(dāng)時(shí)我就發(fā)現(xiàn)第一篇文章332/365絕對(duì)不可能為88.3%隔崎,而是應(yīng)該為90.96%,而假如逆推88.3%的話窑多,應(yīng)該為322天仍稀,與“相比上年度空氣質(zhì)量?jī)?yōu)良天數(shù)267天多出65天”又自相矛盾。而且332和267這個(gè)兩個(gè)數(shù)字都屬于加1減1的補(bǔ)償?shù)乃季S定式埂息,所以有一定的捏造的可能技潘,同時(shí)與省環(huán)保廳宣傳差別太大,平均77.9%千康,岳陽(yáng)全省倒數(shù)第二享幽,所以這里肯定有問(wèn)題。
既然有問(wèn)題拾弃,那就解決它吧值桩。在中華人民共和國(guó)環(huán)境保護(hù)部信息中心爬下了所有AQI數(shù)據(jù),并從青悅開(kāi)放環(huán)境數(shù)據(jù)中心得到一部分缺失的數(shù)據(jù)(2014.4.11才啟用南湖風(fēng)景區(qū)豪椿、城陵磯奔坟、開(kāi)發(fā)區(qū)、云溪區(qū)搭盾、君山區(qū)咳秉、金鳳水庫(kù)監(jiān)控點(diǎn),之前全市只有國(guó)控和非國(guó)控兩個(gè)數(shù)據(jù))鸯隅,利用Execl和SPSS開(kāi)始了分析澜建。
總體分析
地區(qū)/時(shí)間 | 優(yōu) | 良 | 輕度污染 | 中度污染 | 重度污染 | 嚴(yán)重污染 | 優(yōu)良率 |
---|---|---|---|---|---|---|---|
婁底2015 | 18.4% | 58.6% | 20.3% | 2.2% | 0.5% | 77% | |
株洲2015 | 21.6% | 55.1% | 14.5% | 6.6% | 2.2% | 76.7% | |
常德2015 | 14.8% | 64.1% | 17.0% | 3.8% | 0.3% | 78.9% | |
長(zhǎng)沙2015 | 18.5% | 51.5% | 19.6% | 6.9% | 3.6% | 70% | |
湘潭2015 | 19.2% | 55.3% | 18.4% | 6.0% | 1.1% | 74.5% | |
郴州2015 | 29.3% | 54.2% | 14.8% | 1.6% | 83.5% | ||
岳陽(yáng)2015 | 8.8% | 64.7% | 24.7% | 1.9% | 73.5% | ||
岳陽(yáng)2014 | 2.7% | 73.4% | 16.5% | 5.8% | 1.1% | 0.5% | 76.1% |
部分?jǐn)?shù)字采用四舍五入的進(jìn)位方式,
在統(tǒng)計(jì)中2015年有國(guó)控和非國(guó)控以及省和環(huán)保部好幾套數(shù)據(jù),由于是與其它市洲和往年比較炕舵,選取了一套數(shù)據(jù)較全的樣本集何之,其它樣本集計(jì)算出來(lái)優(yōu)良率的結(jié)果分別為79.45%和75.62%,與新聞上宣傳的88.3%差別還是蠻大的咽筋,和環(huán)保廳的77.9%比較接近溶推。
在全省看來(lái),今年岳陽(yáng)空氣質(zhì)量真的算差的晤硕,2015年全國(guó)月排名最好一次169悼潭,最差一次276,平均202舞箍;而2014年全國(guó)月排名岳陽(yáng)平均104舰褪,也就是說(shuō)2015年退步了98個(gè)名次,說(shuō)好的深呼吸呢J栝稀U寂摹!
同時(shí)捎迫,不能抹殺環(huán)保部門(mén)的努力晃酒,2015年相比2014年,嚴(yán)重污染窄绒、重度污染和中度污染大有減少贝次,均值也有所下降。全年12月中彰导,同比減少的月份有1蛔翅、3、4位谋、5山析、6、10掏父、11月笋轨,同比增加有2、8赊淑、9月爵政,同比持平有7、12月陶缺,總體上還是向好的趨勢(shì)轉(zhuǎn)變钾挟。
污染嚴(yán)重的天什么時(shí)候出門(mén)比較好?
如果遇到污染天氣组哩,全天污染較為嚴(yán)重的分別是0點(diǎn)、1點(diǎn)、2點(diǎn)和13點(diǎn)伶贰、21點(diǎn)蛛砰、22點(diǎn)、23點(diǎn)黍衙,所以早點(diǎn)回家不要在外面浪是對(duì)的....
實(shí)際是因?yàn)榘滋煊刑?yáng)輻射的作用泥畅,空氣之間的交換比較明顯,即便有污染也會(huì)跟其他周?chē)目諝膺M(jìn)行擴(kuò)散琅翻、稀釋位仁;但在夜間地面輻射降溫作用比較明顯,所以近地面層的空氣容易形成逆溫層方椎,地面風(fēng)力較小的話聂抢,空氣交換作用不明顯。
岳陽(yáng)哪個(gè)地方空氣質(zhì)量最好棠众,哪個(gè)地方最差琳疏?哪個(gè)地方治理最見(jiàn)成效?
首先闸拿,金鳳水庫(kù)監(jiān)控點(diǎn)工作人員要培訓(xùn)啦吧....一年故障數(shù)快接近其它監(jiān)控點(diǎn)的故障數(shù)總和空盼。然后不出意外的南湖風(fēng)景區(qū)以6633次優(yōu)良、1383次污染位列宜居榜之首(不過(guò)哪個(gè)點(diǎn)在地圖上怎么看都像是在金鶚公園里面)新荤,君山區(qū)以6437次優(yōu)良揽趾、1489次污染居第二,最差的則是經(jīng)濟(jì)開(kāi)放區(qū)苛骨。
云溪區(qū)以20.69%的優(yōu)良提升率居第一篱瞎,君山區(qū)12.69%居第二,金鳳水庫(kù)是唯一有下降的地方智袭,下降5.48%奔缠。
地區(qū) |2015年 |2014年|優(yōu)良變化率|
----|------------|---------------|
城陵磯|0.74795943606233|0.707094201694634|0.0408652343676963
金鳳水庫(kù)|0.733737323769478|0.788503073600266|-0.0547657498307877
君山區(qū)|0.796067276774672|0.669211618257261|0.126855658517411
開(kāi)發(fā)區(qū)|0.734603017561217|0.709762970329852|0.0248400472313645
南湖風(fēng)景區(qū)|0.820306702943359|0.790531561461794|0.0297751414815649
云溪區(qū)|0.784442245857037|0.577586206896552|0.206856038960485
利用插值估計(jì)和海拔圖來(lái)推測(cè)岳陽(yáng)區(qū)域空氣最好的地方(由于大部分為平原,不考慮地勢(shì)分布和空氣擴(kuò)散條件吼野,同時(shí)沒(méi)有地面1.5m的開(kāi)闊校哎、通風(fēng)地區(qū)的均一觀測(cè)值,結(jié)論有可能完全不正確瞳步,just for fun!)
順便玩?zhèn)€小游戲闷哆,大家一起來(lái)猜猜哪天發(fā)生了什么
2月19號(hào)我猜出來(lái)是初一零點(diǎn)大家在放煙花。
但1月19號(hào)是什么单起?
數(shù)據(jù)是否有作假抱怔?
Benford 定律驗(yàn)證法
奔福德定律(Benford'slaw)也被稱為“首位數(shù)現(xiàn)象”(First-digitphenomena)、有效數(shù)字法則(Significantdigitlaw)嘀倒、對(duì)數(shù)法則(LogarithmLaw)屈留,是從統(tǒng)計(jì)學(xué)角度檢測(cè)鮮為人知的數(shù)字分布的內(nèi)在規(guī)律局冰。該定律揭示了在滿足特定條件的情況下,大量統(tǒng)計(jì)數(shù)據(jù)中數(shù)字1—9出現(xiàn)在數(shù)據(jù)首位的概率分布規(guī)律灌危。
1881年康二,美國(guó)數(shù)學(xué)家Newcomb最早發(fā)現(xiàn)Benford定律。1938年勇蝙,美國(guó)通用電氣公司(GE)科學(xué)家FrankBenford通過(guò)研究沫勿,得出和Newcomb同樣的結(jié)論:人們處理較小數(shù)字開(kāi)頭的數(shù)值的頻率較大。為了證明結(jié)論味混,Benford收集了20229個(gè)20組數(shù)據(jù)产雹,這些數(shù)據(jù)來(lái)源千差萬(wàn)別,發(fā)現(xiàn)整數(shù)1在首位出現(xiàn)的概率約為30%翁锡,整數(shù)2約為17%蔓挖,而8和9在數(shù)字首位出現(xiàn)的概率分別為5%和4%。通過(guò)分析盗誊,Benford發(fā)現(xiàn)正常的數(shù)據(jù)集符合某種規(guī)律时甚,并因此推導(dǎo)出Benford定律的數(shù)學(xué)表達(dá)式,即數(shù)字第一位上各個(gè)非0數(shù)字出現(xiàn)的概率哈踱,用公式表達(dá)如下:
依據(jù)加州大學(xué)伯克利分校對(duì)北京AQI指數(shù)進(jìn)行的benford率驗(yàn)證的方法(論文鏈接)荒适,我對(duì)岳陽(yáng)2014、2015年AQI進(jìn)行驗(yàn)證开镣,結(jié)果如下:
一般而言刀诬,chi-squre 值低于5% 的數(shù)值表示表示實(shí)際分配符合預(yù)測(cè)分配(Benford) 的概率非常低;而數(shù)值10%或以下邪财,表示至少有 90%的概率陕壹,資料可能是不正常的。獨(dú)立性檢查結(jié)果值非常低树埠,表示樣本資料可能是人工偽造的糠馆。
Logistic回歸分析
即邏輯模型(英語(yǔ):Logit model,也譯作“評(píng)定模型”怎憋、“分類評(píng)定模型”)是離散選擇法模型之一又碌,屬于多重變量分析范疇(詳細(xì)解釋)。
由于我無(wú)法建立符合邏輯的評(píng)定模型绊袋,咨詢THU的朋友也無(wú)果毕匀,表示放棄該分析方法。
附:空氣質(zhì)量指數(shù)級(jí)別
資料來(lái)源:
中華人民共和國(guó)環(huán)境保護(hù)部信息中心
青悅開(kāi)放環(huán)境數(shù)據(jù)中心
中國(guó)大陸重點(diǎn)城市空氣質(zhì)量歷史數(shù)據(jù)庫(kù)項(xiàng)目
PM2.5科學(xué)實(shí)驗(yàn)專家小組
Wikipedia