玩資料也好幾百個日子牙丽,但都止於內(nèi)部數(shù)據(jù)的分析妇萄。最近有金主要support一臺高規(guī)格機(jī)器讓我作一些freehand 的公開資料分析子寓,金主也不懂資訊技術(shù)食零,所以文章大概以描述過程及結(jié)果為主軸滑废,資訊科技(程式碼)則輕描淡寫帶過蝗肪,且己經(jīng)相當(dāng)一段長時間沒有在文章寫作上,剛好有比較舒服的寫作平臺蠕趁,就當(dāng)打報告了薛闪。
先來簡單作第一個分析,每天上班的路上就會看到好幾個教會俺陋,到底臺灣教會有多少? 相當(dāng)普及? 查閱了政府資料開放平臺並作 heat map豁延。
資料
* 全國宗教資訊系統(tǒng)資料-法人教會
* 全國人口統(tǒng)計資料 - 內(nèi)政部戶政司
資訊技術(shù)
* python - pucurl, lxml, pandas
* Data Visualization - plotdb.com
臺灣教會地區(qū)分佈圖
網(wǎng)頁互動版本(PlotDB的手機(jī)版本的 Map 暫時仍不能使用): Taiwan Church - 2016
以人口來看教會分佈
以服務(wù)人口來看, 不見得教堂數(shù)愈多其服務(wù)人口愈均勻, 反而是苗栗縣較為均勻, 但這裡有前提是每個人都信教且有博愛的精神來服務(wù).
以土地面積來看教會分佈
而以每平方公里來看教堂數(shù), 臺北市還是居冠在平方公里即有一間教堂, 所以在這些高分佈的朋友們能常看到教會.
在這裡南部的嘉義市及嘉義縣則是相當(dāng)有特色的"差距".
開始的困難還是在找尋資料腊状,在開放平臺並沒有人口及縣市面積诱咏,只好透過 google 找到內(nèi)政部的公開excel資料,也因非標(biāo)準(zhǔn)格式缴挖,故須手工整理袋狞。再來第二個遭遇xml並非完全是標(biāo)準(zhǔn)well format,所以透過dictionary 結(jié)構(gòu)轉(zhuǎn)換到pandas的可分析,這裡切記一定要先檢驗資料苟鸯,不然會有鬼擋牆的結(jié)果同蜻,可利用 Dataframe 的 isnull 方法來檢測。
今天的分析僅淺薄的入門作到前章ETL早处,及資料視覺化湾蔓,但其實在ML的教條裡,ETL 才是佔領(lǐng) 90% 的時間. 目前希望能有高產(chǎn)出來分析一些生活化的資料, 也希望能用 ML 模型來作一些推論, 期待很快再發(fā)佈下一份報告.?