文·blogchong
一鸠补、俺不是打廣告的
本文的標(biāo)題是“如何打造類似數(shù)據(jù)蟲巢官網(wǎng)系列教程之XX”,那主角當(dāng)然我們的“數(shù)據(jù)蟲巢官網(wǎng)”遗锣,不多說上鏈接www.mite8.com橱夭。
直接上鏈接好像有點(diǎn)打廣告的嫌疑,其實(shí)真不是屋吨,首先說一下蜒谤,數(shù)據(jù)蟲巢主要的外在體現(xiàn)是爬蟲+數(shù)據(jù)分析+數(shù)據(jù)可視化,應(yīng)簡書互聯(lián)網(wǎng)專題IT彭大主編之邀至扰,特地做一個(gè)這個(gè)系列鳍徽。
其實(shí)目的很明確,讓玩爬蟲敢课、數(shù)據(jù)分析阶祭、以及數(shù)據(jù)可視化的同行朋友,打通數(shù)據(jù)從收集直秆,到處理濒募,到分析,到網(wǎng)站數(shù)據(jù)可視化整套流程圾结。
整個(gè)數(shù)據(jù)流向的掌握瑰剃,外在的展現(xiàn),細(xì)節(jié)的把控筝野,最終讓人看到你的各種炫麗的圖表以及相關(guān)勞動(dòng)成果晌姚,是一件很有成就感的事粤剧。
當(dāng)然,這是感官上的好處挥唠,實(shí)際的好處就是抵恋,你把整個(gè)流程涉及到技術(shù)都掌握了,那么宝磨,不想成為半個(gè)大牛都難弧关。
對于玩爬蟲的應(yīng)屆生朋友,或者有找相關(guān)崗位工作的朋友懊烤,你把你做好的類似數(shù)據(jù)蟲巢官網(wǎng)這種數(shù)據(jù)可視化站點(diǎn)梯醒,甩到面試官臉上,你的面試總成績分分鐘可以上揚(yáng)30%腌紧。
因?yàn)榫瓦@一個(gè)東西,說不定比你簡歷上的什么什么項(xiàng)目畜隶,都更好使壁肋,因?yàn)槟苤苯涌吹窖剑哂姓f服力籽慢。
當(dāng)然浸遗,不能真甩,真甩也別告訴是我教你的箱亿,其次你要對其中整個(gè)流程環(huán)節(jié)涉及的技術(shù)都清楚跛锌,最起碼的標(biāo)準(zhǔn)就是面試官難不倒你。
二届惋、上圖髓帽,不然你們不信
這是進(jìn)入到“數(shù)據(jù)蟲巢官網(wǎng)”后直接看到的首頁導(dǎo)航,整體網(wǎng)站分首頁模塊脑豹、政務(wù)輿情模塊郑藏、行業(yè)洞察模塊、大數(shù)據(jù)觀瘩欺,以及關(guān)于我們五個(gè)模塊必盖。
其實(shí)首頁沒有過多東西,就是把中間兩個(gè)模塊里的一些比較給力俱饿,比較有震撼性的圖表搬到首頁展示歌粥,別讓首頁空著。
比如拍埠,這張圖的第一個(gè)圖表失驶,就是政務(wù)輿情模塊中的一個(gè)圖表,是動(dòng)態(tài)圖喲械拍,整個(gè)圖表會(huì)隨時(shí)間軸一秒變化一次突勇,做輪詢装盯。
這也是首頁中從其他模塊拿出來的圖表,這是行業(yè)洞察里頭的一個(gè)圖表甲馋,2016年一整年的數(shù)據(jù)變化曲線圖埂奈,看著北京的霧霾影響波動(dòng)還是蠻有意思的。
大伙兒也可以查一下北京霧霾爆表新聞定躏,看看跟上面的波動(dòng)能不能對的上账磺,反正我是核查過了,基本上影響波動(dòng)是一致的痊远,說明俺的分析還是蠻準(zhǔn)的嘛垮抗。
這同樣是首頁模塊中,一個(gè)圖表碧聪,這個(gè)圖表也是個(gè)動(dòng)態(tài)圖冒版,數(shù)據(jù)不復(fù)雜,整個(gè)圖表是個(gè)典型的動(dòng)態(tài)遷移的數(shù)據(jù)可視化例子逞姿,看看就好啦辞嗡。
這是首頁模塊的底部信息欄,包括了聯(lián)系信息滞造,以及一個(gè)公號的二維碼续室,看著是不是很正式,跟人家商業(yè)的數(shù)據(jù)官網(wǎng)查不了哪去吧谒养,簡直以假亂真挺狰,當(dāng)然,這也不是假的买窟。
這是政務(wù)輿情模塊的入口頁丰泊,從名稱上也知道,這部分的重點(diǎn)在于做政務(wù)方面的輿情分析相關(guān)的事蔑祟。
這部分包括財(cái)政統(tǒng)計(jì)分析子模塊趁耗、問政輿情子模塊、教育輿情子模塊疆虚、外界口碑輿情子模塊苛败、人才&招聘輿情子模塊、房產(chǎn)輿情子模塊径簿,數(shù)據(jù)是我從地方政府網(wǎng)站罢屈、門戶網(wǎng)站、地方論壇等爬取而來篇亭。
這部分截圖是政務(wù)輿情中缠捌,財(cái)政分析子模塊里的部分?jǐn)?shù)據(jù)可視化報(bào)表的截圖,涉及到面積圖、折線圖曼月、柱狀圖谊却,還有一些更復(fù)雜的可視化圖表等等。
這部分截圖是人才&招聘輿情子模塊涉及的部分?jǐn)?shù)據(jù)可視化報(bào)表截圖哑芹,涉及到變形的占比圖炎辨,曲線圖,以及圖表的組合使用等等聪姿。
這是行業(yè)洞察模塊的入口頁碴萧,行業(yè)洞察其實(shí)是對某一方面的問題從數(shù)據(jù)分析層面去剖析。
目前有兩個(gè)子模塊末购,如圖破喻,一個(gè)從口罩購買的角度分析全國受霧霾的影響情況分析,另一個(gè)是以各大主流招聘大數(shù)據(jù)相關(guān)崗位的數(shù)據(jù)來分分析大數(shù)據(jù)職位的需求情況盟榴。
前部分?jǐn)?shù)據(jù)是爬自京東的口罩購買評論數(shù)據(jù)曹质,后部分?jǐn)?shù)據(jù)是爬自各大主流招聘網(wǎng)站。
其實(shí)還有一個(gè)對電影《長城》的用戶反饋分析曹货,當(dāng)時(shí)《長城》熱播咆繁,爭議頗大,所以爬取了不少豆瓣的電影評論數(shù)據(jù)顶籽,做了具體的相關(guān)分析,包括涉及的熱點(diǎn)银觅、評論的情感分析等等礼饱。
這部分是霧霾影響分析中,涉及的地域分析情況赚楚,典型的結(jié)合地圖逛腿,做的數(shù)據(jù)可視化寒亥,當(dāng)然這個(gè)子模塊還有其他數(shù)據(jù)可視化形式,鑒于截圖就沒法一個(gè)個(gè)細(xì)說了蝴韭。
這部分是對于大數(shù)據(jù)需求分析中的部分圖表,其中會(huì)涉及到玫瑰圖熙侍、詞云榄鉴、橫向柱狀圖等數(shù)據(jù)可視化的形式。
這個(gè)大模塊是大數(shù)據(jù)相關(guān)的文章合集蛉抓,基于數(shù)據(jù)可視化做的各種數(shù)據(jù)分析庆尘,再輔以大數(shù)據(jù)相關(guān)的文字,能文能武巷送,簡直絕了驶忌。
這塊的數(shù)據(jù)其實(shí)就是來自我的大數(shù)據(jù)公眾號,與官網(wǎng)同名笑跛,“數(shù)據(jù)蟲巢”付魔。
這部分對文章劃了四個(gè)不同的類型:
1 大數(shù)據(jù)觀點(diǎn)聊品,這部分文章偏大數(shù)據(jù)行業(yè)話題討論
2 大數(shù)據(jù)挖掘,這部分主要是與大數(shù)據(jù)結(jié)合的價(jià)值挖掘部分相關(guān)的文章
3 大數(shù)據(jù)技術(shù)几苍,這部分的文章偏大數(shù)據(jù)技術(shù)相關(guān)的東西
4 感悟雜談翻屈,這部分的文章比較雜,有生活感悟擦剑、工作感嘆妖胀,雞湯等等亂七八糟的
最后一個(gè)大模塊,就是關(guān)于我們惠勒,好吧赚抡,這個(gè)看著挺唬人的,但是纠屋,沒有這個(gè)部分怎么讓整個(gè)網(wǎng)站看著更“正規(guī)”呢涂臣?!
哈哈售担,已經(jīng)有不止一個(gè)人對我說赁遗,你們公司的官網(wǎng)挺炫啊,我能怎么說(得意的大笑三聲)族铆。
上面這些基本上數(shù)據(jù)蟲巢官網(wǎng)的所有模塊了岩四,當(dāng)然截圖只是截圖而已,只是一部分哥攘,并且很多動(dòng)態(tài)的數(shù)據(jù)可視化效果無法展示剖煌,想要了解更多只能上去看看咯。
除此之外逝淹,頁頂?shù)谋尘爸懈ⅲ€有很炫的原子散漫效果,鼠標(biāo)移動(dòng)上去栅葡,原子效果會(huì)聚集茉兰、磁化,看上去更有科技感欣簇、數(shù)據(jù)感了规脸,是不是更加高端大氣上檔次了。
是的醉蚁,我要帶你們打造的就是這么一款看著比一些科技公司官網(wǎng)看起來更炫的個(gè)人網(wǎng)站燃辖,集個(gè)人技術(shù)大成的技術(shù)名片,對外吹牛逼的好工具网棍,通往升職加薪的大門黔龟,迎娶白富美的花轎...
好吧,我自己都有點(diǎn)編不下去了~~額,總之氏身,就是這么一個(gè)東西啦巍棱。
三、飆完圖蛋欣,咱來說技術(shù)
以下幾點(diǎn)航徙,我認(rèn)為你們需要關(guān)注:
1 如何解決數(shù)據(jù)源的問題:爬。所以它會(huì)涉及爬蟲的相關(guān)知識陷虎。
2 如何做數(shù)據(jù)的存儲:MySQL到踏。額,可能不是你們想象中的Hadoop尚猿,這點(diǎn)幾十萬上百萬的數(shù)據(jù)窝稿,MySQL就夠了嘛,要個(gè)蛋HDFS凿掂,我有罪伴榔,讓你們失望了,沒用高端大氣上檔次的Hadoop庄萎。
3 如何做數(shù)據(jù)分析:Java邏輯處理踪少,數(shù)據(jù)清洗,再加MySQL的統(tǒng)計(jì)分析糠涛,所有的業(yè)務(wù)結(jié)果數(shù)據(jù)就出來了援奢,沒有想象中復(fù)雜。
4 如何構(gòu)建一個(gè)網(wǎng)站:阿里云服務(wù)器一枚+域名一枚+Spring boot忍捡。是的萝究,你需要自己搞個(gè)云服務(wù)器,上面搭載數(shù)據(jù)庫锉罐、爬蟲服務(wù)、數(shù)據(jù)清洗進(jìn)程绕娘,以及你的網(wǎng)站代碼脓规,聽著就有點(diǎn)復(fù)雜,實(shí)際真有點(diǎn)復(fù)雜险领。
5 如何做出這么炫麗的可視化圖表:Echarts侨舆。大百度開發(fā)的可視化框架,流弊的不行不行绢陌,好用的不得了挨下。
6 如何解決文字這塊的內(nèi)容:這個(gè)沒轍,自己寫脐湾?算了臭笆,你還是直接用我的文章吧,俺不受版權(quán)費(fèi)。
上面的信息愁铺,我們來總結(jié)一下會(huì)涉及到哪些技術(shù):
1 你需要會(huì)爬蟲鹰霍,不管是Python也好,Java框架也好茵乱,都行茂洒,只要能拿到數(shù)據(jù),當(dāng)然瓶竭,為了拿到數(shù)據(jù)督勺,你需要會(huì)做抓包分析,會(huì)一些基礎(chǔ)的破解反爬策略斤贰。
2 你得會(huì)數(shù)據(jù)庫操作智哀,最基礎(chǔ)的MySQL得會(huì)一些,增刪改查腋舌,數(shù)據(jù)存儲盏触,建表刪表,數(shù)據(jù)的清洗轉(zhuǎn)換块饺,這個(gè)很基礎(chǔ)的了赞辩,不會(huì)自己百度吧。
3 對于云服務(wù)器的一些東西需要了解授艰,最起碼會(huì)XShell客戶端的使用吧辨嗽,不然你怎么登陸到你的服務(wù)器中,學(xué)會(huì)配置防火墻策略等等淮腾。
4 基礎(chǔ)的Linux操作得會(huì)點(diǎn)糟需,不然怎么玩云服務(wù)器,還指望著你在上頭自己安裝MySQL谷朝,自己安裝一些必要的工具洲押、例如Python、Java之類的呢圆凰,java服務(wù)的部署杈帐,一些Shell腳本的編寫等等。
5 域名相關(guān)的知識得會(huì)些专钉,最起碼得知道一個(gè)網(wǎng)站是需要域名的吧挑童,知道從哪購買域名,購買域名之后知道怎么關(guān)聯(lián)實(shí)際的IP等等相關(guān)的知識跃须。
6 Java后端框架得會(huì)多一些站叼,這里用的是Spring boot,簡單輕便的后端框架菇民,強(qiáng)烈推薦尽楔,不妨再告訴你們投储,前端其實(shí)也是用這個(gè)一起寫的,很古老的JSP模式翔试,老轻要,但是夠用了。
7 前端的知識得會(huì)一些垦缅,不然冲泥,你以為這么高端大氣上當(dāng)次的頁面布局,整體頁面規(guī)劃哪來的壁涎,是的凡恍,所以你需要知道一些前端知識,布局啊怔球,CSS啊嚼酝,JS腳本啊。
8 數(shù)據(jù)可視化框架需要懂竟坛,不懂就沒法玩最酷的部分了闽巩,其實(shí)不難的,像我這種之前一點(diǎn)都不會(huì)js的担汤,不照樣自學(xué)上了么涎跨?!
好吧崭歧,俺錯(cuò)了隅很,俺不再列了,再TM列下去率碾,讀者全跑了叔营,還打造個(gè)毛啊。
是的所宰,整個(gè)數(shù)據(jù)流程绒尊,從數(shù)據(jù)收集,到數(shù)據(jù)存儲仔粥,到處理垒酬,到統(tǒng)計(jì)分析,到網(wǎng)站件炉,到數(shù)據(jù)最終展示,涉及的技術(shù)矮湘,確實(shí)不少斟冕,真要打造出一個(gè)這么東西,應(yīng)該夠你自豪了缅阳。
但是磕蛇,也不要擔(dān)心景描,我當(dāng)時(shí)玩這個(gè)的時(shí)候,爬蟲是自學(xué)的秀撇、JAVA后端的東西是自學(xué)超棺,前端更是自學(xué)的,細(xì)數(shù)一下好像除了MySQL在學(xué)校學(xué)了點(diǎn)呵燕,好像其他東西都是自己折騰著出來的棠绘,所以比我有更強(qiáng)大大腦的你還怕個(gè)鳥。
更何況再扭,還有我氧苍,這個(gè)系列的終極目的就是帶你打造這么一個(gè)東西出來滴,啊不泛范,終極目標(biāo)是幫你打造一個(gè)裝逼的個(gè)人網(wǎng)站让虐。
四、你就不好奇罢荡,為啥我會(huì)折騰出來這個(gè)東西
其實(shí)這個(gè)東西一開始我也沒有想到要搞出來的赡突,畢竟前前后后搞它搞了兩三周(這話好有歧義的樣子),雖然是業(yè)余時(shí)間区赵。
其實(shí)一開始我是對政務(wù)輿情這塊的話題感興趣惭缰,所以想對自己老家的政務(wù)相關(guān)的以數(shù)據(jù)的角度去剖析,就嘗試了爬取了自己老家的地方性政府網(wǎng)站惧笛,地方門戶網(wǎng)站相關(guān)的數(shù)據(jù)从媚。
然后結(jié)合統(tǒng)計(jì)局的數(shù)據(jù),做了一些角度的分析患整,然后發(fā)現(xiàn)挺有意思的拜效。
后面又在爬蟲這條路上越走越遠(yuǎn),當(dāng)時(shí)一時(shí)好奇各谚,想知道大數(shù)據(jù)的市場行情如何紧憾,每個(gè)城市啊,細(xì)分的技術(shù)方向啊等等對于薪酬的變化影響昌渤,所以一時(shí)心癢赴穗,繼續(xù)研究爬蟲一口氣爬了幾個(gè)主流招聘網(wǎng)站的大數(shù)據(jù)相關(guān)崗位,做了相關(guān)分析膀息。
這條路子越走越黑般眉,緊接著北京連續(xù)霧霾警報(bào),朋友圈已經(jīng)被北京的霧霾占領(lǐng)了潜支,于是想做霧霾造成的影響分析甸赃,接著從京東的口罩相關(guān)的數(shù)據(jù)去解析這相關(guān)的影響。
在電影《長城》水深火熱之際冗酿,我又爬了《長城》的豆瓣數(shù)據(jù)埠对,做了一次深度的分析络断。
不知不覺,幾次折騰下來项玛,我發(fā)現(xiàn)已經(jīng)算是爬蟲小入門了貌笨,但是很不甘心這些我爬過來的數(shù)據(jù)就這樣僅僅的在我的公號里曇花一現(xiàn)。
是的襟沮,我要把他們給釋放出來锥惋,讓數(shù)據(jù)展現(xiàn)出他們的華麗。
所以臣嚣,我開始著手打造“數(shù)據(jù)蟲巢官網(wǎng)”净刮,然后...
然后,敬請期待下一篇《如何打造類似數(shù)據(jù)蟲巢官網(wǎng)系列教程之二:爬蟲是怎么煉成的》硅则。
相關(guān)閱讀:
《大數(shù)據(jù)職位畫像-看看你是不是白混了這么多年怎虫!》