“人人都是數(shù)據(jù)分析師”膜蠢,這句話并不是空穴來風(fēng)挑围,而是隨著大數(shù)據(jù)的深入落地糖荒,每個產(chǎn)業(yè)都會以數(shù)據(jù)驅(qū)動的模式經(jīng)營寂嘉。因此泉孩,這要求產(chǎn)業(yè)中的每個人都必須能夠分析數(shù)據(jù)寓搬。同時,伴隨著技術(shù)的發(fā)展镣典,也會有很多簡單的工具供大家使用兄春。
當(dāng)打開招聘網(wǎng)站中數(shù)據(jù)分析師的崗位介紹時赶舆,能夠發(fā)現(xiàn)數(shù)據(jù)分析師的要求離不開做模型、能夠使用分析軟件叙量、統(tǒng)計分析等幾個關(guān)鍵詞绞佩,一眼看去會給人一種這是一個技術(shù)要求很高征炼,對數(shù)學(xué)要求很高的工作躬贡,數(shù)據(jù)分析很難上手一樣拂玻。其實檐蚜,事實并不是是這樣闯第,盡管數(shù)據(jù)分析有一些高級的方法和技術(shù),然而每個人依然能夠輕松上手填帽,駕輕就熟地開展數(shù)據(jù)分析工作篡腌。數(shù)據(jù)分析看起來是件難事嘹悼,但是只要掌握了數(shù)據(jù)分析的心法杨伙、手法還有利器后萌腿,就很容易進(jìn)入駕馭手邊數(shù)據(jù)的門檻哮奇,并且還有機會步步深入鼎俘。
數(shù)據(jù)分析的心法捉邢,其實就是指做分析的思想,思想并不像數(shù)學(xué)證明一樣晦澀難懂宠进,反而更多的是會依靠嘗試材蹬。心法之下是手法堤器,手法就是數(shù)據(jù)分析方法論闸溃,有了思想的指引辉川,再加上方法的入手拴测,相信每個人能夠?qū)?shù)據(jù)分析學(xué)得一招半式昼扛。利器就是指分析的工具寸齐,有道是“工欲做其事,必先利其器”抄谐,掌握了數(shù)據(jù)分析的工具渺鹦,能夠更快的得出分析結(jié)果,同時也能夠更容易分析維度更多蛹含,記錄更長的數(shù)據(jù)毅厚。
心法——做分析的思想
心法是數(shù)據(jù)分析的基礎(chǔ)浦箱,也是對數(shù)據(jù)分析最精煉和最有高度的總結(jié)吸耿。做分析的思想祠锣,可以一分為三,其一為商業(yè)認(rèn)識咽安,其二為業(yè)務(wù)理解伴网,其三為分析思路。
從商業(yè)認(rèn)識就可以看出妆棒,這里說的數(shù)據(jù)分析是在商業(yè)領(lǐng)域的澡腾,相對廣泛的分析場景和分析對象而言,只能算是狹義的數(shù)據(jù)分析糕珊。數(shù)據(jù)分析不僅僅是用于商業(yè)領(lǐng)域动分,還可以用于其他多個領(lǐng)域,例如生物中的基因檢測红选,電子信息中的信號檢測等等澜公。當(dāng)然在這里就以商業(yè)為例,來解釋分析的思想喇肋。商業(yè)認(rèn)識是在在商業(yè)領(lǐng)域中的基本思想玛瘸,其在管理學(xué)和經(jīng)濟學(xué)中都有涉及,例如戰(zhàn)略領(lǐng)域中的SWOT分析苟蹈,PEST分析糊渊,在營銷領(lǐng)域的4P、4C慧脱、4R等等渺绒。這些商業(yè)思想早已成熟,并且在定性的領(lǐng)域得到了廣泛應(yīng)用和有效性驗證菱鸥。對數(shù)據(jù)分析而言宗兼,利用商業(yè)領(lǐng)域的基本思想的目的和意義就是在于構(gòu)建分析的邏輯,在的指導(dǎo)下氮采,明確分析什么數(shù)據(jù)殷绍,從哪些角度分析。并且相關(guān)理論也在指導(dǎo)應(yīng)該選取哪些方法來分析鹊漠。商業(yè)思想的價值讓數(shù)據(jù)分析能夠有一個清晰的路徑主到,在思想上保證分析流程的效率。
分析思想的第二項是業(yè)務(wù)理解躯概,業(yè)務(wù)理解用一句話來解釋就是“無業(yè)務(wù)不分析”登钥,只有在正確理解了業(yè)務(wù)的基礎(chǔ)上,才能得到有效和可靠的分析娶靡,業(yè)務(wù)理解包括了理解目標(biāo)客戶牧牢,理解業(yè)務(wù)流程等等。在數(shù)據(jù)分析中,只有數(shù)字的堆砌是沒有價值的塔鳍,一定要放到業(yè)務(wù)環(huán)境中去理解伯铣。例如一個數(shù)字20,這里一點意義都沒有轮纫。如果加上一個單位:20噸腔寡,其實就是蘊含了重量的信息,然而這個重量的信息依然要放在具體領(lǐng)域去理解蜡感。如果在航空領(lǐng)域蹬蚁,可以是20噸的飛機載重重量恃泪,這種場景下就有了理解數(shù)據(jù)的基礎(chǔ)郑兴。更進(jìn)一步的,如果是一架戰(zhàn)斗機的載彈量20噸贝乎,在這種情況情连,更能夠通過這個20噸的載彈量帶來載彈量是大還是小,在領(lǐng)域內(nèi)排名如何览效,有無改進(jìn)空間等等信息却舀。一個數(shù)字從加上單位,再進(jìn)入特定領(lǐng)域锤灿,同時更進(jìn)一步的有特定的對象挽拔,這樣一步一步就讓數(shù)據(jù)能夠帶來越來越多的信息,數(shù)據(jù)價值的體現(xiàn)也越來越重要但校。
分析思想的第三項是分析思路螃诅,在各個領(lǐng)域中總有各種各樣的分析思路在數(shù)據(jù)分析中體現(xiàn),例如層次分析状囱,加權(quán)比較术裸,關(guān)聯(lián)分析,決策樹等等亭枷,有些思想簡單袭艺,有些的思想非常復(fù)雜,然而對所有的數(shù)據(jù)分析思路而言叨粘,可以總結(jié)為四個字兩個詞:對比和拆分猾编。對比就是比大小,這是數(shù)學(xué)最基本的功能:哪個數(shù)大哪個數(shù)小升敲,哪個數(shù)比哪個多幾個袍镀,哪個比哪個多百分之多少等等,這些都是比較冻晤。而拆分苇羡,就是把數(shù)據(jù)分開了比,是對對比的深化,如像手術(shù)刀一樣其剖析分析對象結(jié)構(gòu)设江,往往更能發(fā)現(xiàn)問題所在锦茁。
對比和拆分的思路,既可淺顯叉存,簡單的幾個動作就能得出數(shù)據(jù)價值码俩,也可高深,在對比和拆分思想的基礎(chǔ)上能夠延伸出無數(shù)的方法歼捏,用于處理各種復(fù)雜問題稿存。就對比而言,只要選擇不同的對比對象瞳秽,就可以產(chǎn)生各種信息瓣履。就拆分而言,只要選取不同的維度练俐,就可以發(fā)揮不同的作用袖迎。
在對比上,可以選取的對象實在太多腺晾。首先是和自己比燕锥,可以在時間的維度上展開和自己的對比,例如對比過去和現(xiàn)在的情況悯蝉。我們時常能在新聞中看到這樣的報道归形,當(dāng)前的經(jīng)濟相比改革開放初期增長了多少,GDP要在21世紀(jì)比1980年翻兩翻等等鼻由。其實這些都是通過對比不同時代的中國經(jīng)濟數(shù)據(jù)暇榴,以展現(xiàn)出改革開放取得的成果。其次可以把自己和別人展開對比嗡靡,這種方式在對標(biāo)競爭對手的過程中常扯搴常看見。比如兩家公司的在年報發(fā)布以后讨彼,就可以對比在銷售收入和利潤上的差異歉井,各個經(jīng)濟指標(biāo)一經(jīng)比較,頓時高下立見哈误。放大對比哩至,是將自己和更大的宏觀對象進(jìn)行比較,比如對比一家公司和整個行業(yè)的情況蜜自,通過比較諸如某公司銷售利潤和行業(yè)平均利潤的方式菩貌,頓時就能夠知道這家公司在行業(yè)內(nèi)部經(jīng)營如何,是靠前還是靠后重荠,還有沒有上升空間等等信息箭阶。縮小對比,是將自身和更微觀的對象進(jìn)行比較仇参,與一家公司對比整個行業(yè)相反嘹叫,可以將這家公司的經(jīng)營情況和其下屬子公司甚至部門一一進(jìn)行比較,這樣就知道了哪些子公司的產(chǎn)生巨大貢獻(xiàn)诈乒,哪些子公司還在拖后腿罩扇。在有了如下信息的基礎(chǔ)上,就可以決策到底應(yīng)該對優(yōu)勢子公司加大投入怕磨,還是對落后子公司進(jìn)行裁撤喂饥。對比的思想不會僅僅只有自身、他人肠鲫、放大和縮小四種情況员帮,只要是平常能夠想到的,都可以通過對比相關(guān)數(shù)據(jù)后滩届,得出有價值的信息集侯。
拆分是對比的擴展和延伸被啼,也是數(shù)據(jù)分析邏輯展開的重要部分帜消。通過對數(shù)據(jù)的拆分,能夠?qū)⒎治龅膶ο笠徊讲郊?xì)化浓体,在抽絲剝繭中獲取有價值的發(fā)現(xiàn)泡挺。例如可以把一個數(shù)據(jù)拆分成不同的對象,例如全國的GDP就可以拆分成為不同的省市命浴,再通過不同省市間的對比娄猫,一下子就知道哪些省市領(lǐng)先哪些省市落后。又如在新聞中常說的房地產(chǎn)對GDP的貢獻(xiàn)是多少生闲,其實也是將全國的GDP按照產(chǎn)業(yè)進(jìn)行拆分媳溺,然后得出的房地產(chǎn)對GDP的貢獻(xiàn)。同時拆分可以分時間進(jìn)行拆分碍讯,把一年分成12個月悬蔽,通過月度的拆分就可能看到一年期間每個月的數(shù)據(jù)變化。例如在天氣預(yù)報上常匙叫耍看見1月降雨量和7月降雨量兩個指標(biāo)蝎困,這兩個指標(biāo)就揭示了一年中降雨最少的時候和最多的時候有多少,這個按月對全年降雨量的拆分方式就會比單單一個全年降雨量數(shù)據(jù)帶來更多信息倍啥。此外禾乘,還可以按照相關(guān)的指標(biāo)進(jìn)行拆分,通常這些指標(biāo)都有一定的邏輯關(guān)系虽缕,能夠通過對指標(biāo)的展開揭示出更多的信息始藕。例如對利潤可以通過公式“利潤=收入-成本”的方式進(jìn)行拆分,這樣一下子就知道收入和成本的利潤的影響程度。又例如對路程按照“距離=時間*速度”進(jìn)行拆分伍派,就能夠知道移動的距離更多來源于速度快還是時間長弟塞。拆分的思路,也同對比的一樣拙已,不僅僅局限于對象决记、時間和指標(biāo),只要在邏輯上能夠展開倍踪,都能夠進(jìn)行拆分系宫。
對比和拆分的思路可以同時應(yīng)用,這樣可以帶來更多的價值建车。例如在對比兩家公司的利潤時扩借,就可以將兩家的利潤拆分成收入和成本,就能夠在利潤的基礎(chǔ)上缤至,對比出兩家公司的收入和成本哪個更具備優(yōu)勢潮罪。又例如在對比一家公司兩年的收入情況時,就可以將兩年的收入分別拆分成12月的情況领斥,這樣分月對比嫉到,可以帶來收入是否具有周期性,以及收入的變化是否具有穩(wěn)定性等等諸多信息月洛。
對比和拆分是數(shù)據(jù)分析的基本思路何恶,基于這兩個思路,可以衍生出更多的方法嚼黔,往往對數(shù)據(jù)的金礦挖掘细层,就是從對比和拆分中開啟的。
手法——數(shù)據(jù)分析方法論
數(shù)據(jù)分析的手法是指數(shù)據(jù)分析方法論唬涧,即實施數(shù)據(jù)分析的通用方法疫赎。在數(shù)據(jù)分析中,有一套嚴(yán)格的分析流程碎节,任何一個分析項目或者任何一項分析工作就都是圍繞這個流程展開的捧搞。
數(shù)據(jù)分析的總體流程的一條主線依次是:確定分析目標(biāo)、業(yè)務(wù)理解钓株,數(shù)據(jù)提取实牡,數(shù)據(jù)整理,數(shù)據(jù)分析和結(jié)果展現(xiàn)轴合,另外在數(shù)據(jù)提取的步驟以前创坞,還會經(jīng)歷數(shù)據(jù)采集和數(shù)據(jù)儲存的過程。
從整個流程可以看出受葛,數(shù)據(jù)分析的起點是在分析目標(biāo)上题涨,而并非數(shù)據(jù)本身偎谁,這也說明了數(shù)據(jù)分析并不是以數(shù)據(jù)為導(dǎo)向的,反而是以業(yè)務(wù)為導(dǎo)向的纲堵。數(shù)據(jù)分析的流程是以確定分析目標(biāo)開始的巡雨,其目的就于明確分析的目的、對象和邊界席函。只要有數(shù)據(jù)確實可以帶來許多的信息铐望,依次也更需要把問題聚焦,明確通過數(shù)據(jù)分析茂附,需要去解決什么問題正蛙。對一家公司而言,分析其成本對利潤的影響還是銷售對收入的影響都是不同的命題营曼。因而只有確定了要分析的問題乒验,才會去安排后續(xù)的工作。
業(yè)務(wù)理解是將確定了的分析問題落地的過程蒂阱,這里其實就是要將業(yè)務(wù)問題轉(zhuǎn)換成數(shù)學(xué)問題锻全,把業(yè)務(wù)的各個環(huán)節(jié)抽離出來,通過定量的方式來表現(xiàn)和構(gòu)架录煤。這句話看起來很抽象鳄厌,也很復(fù)雜,其實簡單的來說辐赞,就是明確通過分析哪些數(shù)據(jù)來得到結(jié)果部翘,以及明確所分析數(shù)據(jù)之間的邏輯關(guān)系硝训。在業(yè)務(wù)理解中會確定分析思路响委,從中明確將那些定性的工具按照定量的方式來使用,明確要對比那些數(shù)據(jù)窖梁,明確要從哪些維度上面將數(shù)據(jù)進(jìn)行拆分赘风。因為,業(yè)務(wù)理解是數(shù)據(jù)分析的關(guān)鍵步驟之一纵刘,也是數(shù)據(jù)分析工作的中樞邀窃,數(shù)據(jù)分析的是否具有嚴(yán)密的邏輯,是否能夠深入都是來自于對業(yè)務(wù)理解程度上假哎。例如分析一家公司的盈利情況瞬捕,就需要在業(yè)務(wù)理論的環(huán)節(jié)中,考慮應(yīng)該按年進(jìn)行拆分還是按月進(jìn)行拆分舵抹,是重點看收入還是重點看成本肪虎,是否要分產(chǎn)品形態(tài)和業(yè)務(wù)板塊來進(jìn)行拆分。在業(yè)務(wù)理解的環(huán)節(jié)中惧蛹,只有數(shù)據(jù)分析的能力是不夠的扇救,還必須要能夠理解業(yè)務(wù)刑枝,要明白應(yīng)該從哪些方向去拆分?jǐn)?shù)據(jù),從哪些方向去構(gòu)建分析的過程迅腔,還有從哪些維度去解讀數(shù)據(jù)装畅。
數(shù)據(jù)提取就是指把在業(yè)務(wù)理解中明確要分析的數(shù)據(jù)提取出來,這里的數(shù)據(jù)有可能是企業(yè)內(nèi)部數(shù)據(jù)庫已經(jīng)儲存好的二手?jǐn)?shù)據(jù)沧烈,在后面經(jīng)過加工后掠兄,就可以直接使用。另外也有可能是當(dāng)前企業(yè)還不具備這些數(shù)據(jù)锌雀,需要從企業(yè)內(nèi)外部去獲取徽千。因此這里就是涉及到了數(shù)據(jù)采集,自己去獲取一手?jǐn)?shù)據(jù)汤锨,在獲取一手?jǐn)?shù)據(jù)以后双抽,需要將按照相關(guān)標(biāo)準(zhǔn)的形式儲存下來,因此也涉及到了數(shù)據(jù)儲存闲礼。
數(shù)據(jù)整理是對數(shù)據(jù)加工的工程牍汹,即將原始數(shù)據(jù)提取出來后,形成可以供分析標(biāo)準(zhǔn)形式柬泽,為后續(xù)的數(shù)據(jù)分析打造基礎(chǔ)慎菲。數(shù)據(jù)分析是從數(shù)據(jù)中獲取信息的過程,在數(shù)據(jù)分析的過程就是實施對比和拆分的過程锨并。通過對比和拆分露该,從數(shù)據(jù)中提取出信息,并進(jìn)行解讀第煮。數(shù)據(jù)分析既可以是簡單的計算解幼,也可以進(jìn)一步地使用統(tǒng)計學(xué)、數(shù)據(jù)挖掘包警、機器學(xué)習(xí)甚至深度學(xué)習(xí)的相關(guān)算法和工具撵摆,這些都取決于對分析的精度、方法的要求以及所分析數(shù)據(jù)的復(fù)雜程度害晦。
結(jié)果展現(xiàn)是把數(shù)據(jù)分析的結(jié)果通過圖表化的方式展現(xiàn)特铝。通過圖表,使人看到的不是冰冷的數(shù)字壹瘟,而是生動的圖表鲫剿,這樣更容易理解數(shù)據(jù)呈現(xiàn)的信息。
在數(shù)據(jù)分析的流程中稻轨,分析目標(biāo)和業(yè)務(wù)理解是由業(yè)務(wù)驅(qū)動的灵莲,考察的是對問題背景的認(rèn)識和解決問題的邏輯。而其他的部分則是更多地由數(shù)據(jù)驅(qū)動澄者,考察著數(shù)據(jù)分析的方法和技術(shù)笆呆。在著重考察數(shù)據(jù)分析方法和技術(shù)的步驟中请琳,數(shù)據(jù)采集、數(shù)據(jù)整理赠幕、數(shù)據(jù)分析和結(jié)果展現(xiàn)是比較關(guān)鍵的幾個步驟俄精。
數(shù)據(jù)采集是獲取數(shù)據(jù)的過程,也是整個數(shù)據(jù)分析過程中輸入的源頭榕堰,如果沒有數(shù)據(jù)就一切無從談起竖慧。數(shù)據(jù)的來源可以有很多,最簡單的就是手工記錄逆屡,不論是遠(yuǎn)古時期的結(jié)繩記事還是選舉時畫“正”字圾旨,都是屬于手工記錄。有時我們會在大街上偶遇手持調(diào)查表的調(diào)查人員魏蔗,還有我們在辦理銀行卡時填的表單也都是屬于手工記錄砍的,只不過當(dāng)完成了手工記錄的步驟后,還需要通過電腦或者其他終端的形式莺治,錄入到系統(tǒng)中去廓鞠。手工記錄是一種低效而且容易出錯的方式,對于產(chǎn)生大量數(shù)據(jù)的環(huán)節(jié)來說谣旁,這并不是最好的方法床佳。因此,也會在產(chǎn)生數(shù)據(jù)的環(huán)節(jié)中榄审,采取由系統(tǒng)自動記錄的方式采集數(shù)據(jù):每個人每個月的通話清單就是由電信運營商的系統(tǒng)自動記錄的砌们,還有每個人上網(wǎng)的每個點擊和瀏覽的動作也會被記錄在相關(guān)網(wǎng)站后臺和自身電腦的網(wǎng)絡(luò)日志中。自動獲取數(shù)據(jù)的還可以通過網(wǎng)絡(luò)爬蟲的模式搁进,即編寫一個代碼浪感,讓機器模擬成人一樣,去訪問各個網(wǎng)站拷获,同時記錄網(wǎng)站上面的信息篮撑。爬蟲具備適用范圍廣以及效率高的特點,所以深受數(shù)據(jù)采集人員的喜愛匆瓜。在數(shù)據(jù)采集環(huán)節(jié)中,除了自己去獲取數(shù)據(jù)外未蝌,還可以通過對外購買和交換數(shù)據(jù)的方式驮吱,如貴陽大數(shù)據(jù)交易中心就在提供購買和交換數(shù)據(jù)的服務(wù)。
數(shù)據(jù)整理是數(shù)據(jù)分析前的重要準(zhǔn)備環(huán)節(jié)萧吠,其目的主要是把數(shù)據(jù)按照相應(yīng)的字段整理成可供分析的標(biāo)準(zhǔn)格式左冬。由于數(shù)據(jù)采集和記錄過程中有可能會存在部分質(zhì)量問題,因此需要對數(shù)據(jù)按照質(zhì)量進(jìn)行規(guī)范化的操作纸型,這里包括了處理缺失值拇砰,即對數(shù)據(jù)缺失的部分是考慮剔除還是用其他值來代替梅忌;處理錯誤值匆帚,對明顯錯誤的數(shù)據(jù)如何處理泞莉,比如個人存款存在負(fù)數(shù)的情況,是看調(diào)整為零還是剔除處理;處理異常值寞秃,即一些過大或者過大的數(shù)值應(yīng)該如何處理瑰枫,例如針對一個人行走的速度是70km/h的數(shù)據(jù)踱葛,需要考慮是否調(diào)整為7km/h。除了處理數(shù)值以外光坝,在數(shù)據(jù)整理中還需要考慮變量的問題尸诽,一方面由于原始數(shù)據(jù)中維度太多,不一定全部進(jìn)入數(shù)據(jù)分析環(huán)節(jié)盯另,因此需要考慮選取哪些變量進(jìn)行分析性含。另外一方面,也有所需要的數(shù)據(jù)要通過對原始數(shù)據(jù)中變量進(jìn)行計算產(chǎn)生的情況鸳惯,因此會涉及到對衍生變量的計算胶滋。當(dāng)原始數(shù)據(jù)中只有時間和距離的變量,同時需要速度的數(shù)據(jù)時悲敷,就要通過“速度=距離/時間”的公式計算速度這個衍生變量究恤。
在對數(shù)據(jù)完成了整理工作后,就進(jìn)入了數(shù)據(jù)分析環(huán)節(jié)后德。數(shù)據(jù)分析就是通過數(shù)學(xué)模型對數(shù)據(jù)進(jìn)行拆分和對比的過程部宿,這也是整個數(shù)據(jù)分析總體流程中的核心環(huán)節(jié)。數(shù)據(jù)分析的過程中瓢湃,分析模型可以很簡單理张,簡單的拆分和對比就能夠得出結(jié)論。同時绵患,模型也可以特別復(fù)雜雾叭,需要花費大量的計算資源。通常來說落蝙,分析模型有三種類型织狐,首先是描述統(tǒng)計,例如計算平均值筏勒、中位數(shù)移迫、方差、分位點等等管行。稍微復(fù)雜一點厨埋,會涉及到統(tǒng)計學(xué)更高級的部分,即探索性分析捐顷,例如假設(shè)檢驗荡陷、方差分析等等雨效。更進(jìn)一步地,就會用到數(shù)據(jù)挖掘的相關(guān)技術(shù)和方法了废赞,包括決策樹分類徽龟、回歸分析、聚類分析蛹头,關(guān)聯(lián)分析等等工具顿肺,當(dāng)然還有更復(fù)雜的使用深度學(xué)習(xí)技術(shù)。對于模型的復(fù)雜程度的選擇渣蜗,取決于問題本身的復(fù)雜程度和數(shù)據(jù)本身的復(fù)雜程度屠尊。
結(jié)果展現(xiàn)是對數(shù)據(jù)分析結(jié)果按照相關(guān)的圖表進(jìn)行展示。數(shù)據(jù)分析的結(jié)果往往也是數(shù)據(jù)耕拷,因此用圖表展示數(shù)據(jù)讼昆,有更好的可讀性和可理解性。圖表也是一個拆分對比的過程骚烧,在拆分對比中可以分為絕對比較浸赫,相對比較和綜合比較三種模式。絕對比較是直接比較數(shù)字的數(shù)值大小赃绊,通常使用條形圖既峡,直方圖和折線圖可以清晰地反映出各部分大小和趨勢。相對比較是比較數(shù)據(jù)的相對大小情況碧查,例如圓餅圖就可能展示出在一個總體中运敢,各個分類所占的比例。綜合比較忠售,會從多個角度同時來對數(shù)據(jù)進(jìn)行比較传惠,比如蛛網(wǎng)圖就可以在多個指標(biāo)上面同時對比多個維度進(jìn)行絕對或相對比較,又如氣泡圖可以從3-4個維度上對比多組數(shù)據(jù)稻扬,即按照X軸卦方,Y軸,氣泡大小泰佳,顏色深度的形式體現(xiàn)出數(shù)據(jù)差異盼砍。結(jié)果展現(xiàn)是對數(shù)據(jù)藝術(shù)化的表現(xiàn),并不拘泥于一種圖表乐纸,往往會有各種生動的數(shù)據(jù)可視化形式衬廷,當(dāng)前常見的信息圖就是其中的有效又美觀的展現(xiàn)方式。
利器——分析工具
對數(shù)據(jù)分析而言汽绢,有了思想和方法就基本具備了通過分析數(shù)據(jù)并從中解決問題的能力。在這個基礎(chǔ)上侧戴,掌握好數(shù)據(jù)分析的相關(guān)分析工具宁昭,就能夠更高效地分析數(shù)量更大的數(shù)據(jù)跌宛,從而快速提升數(shù)據(jù)分析的效率和體量。數(shù)據(jù)分析工具是專門用戶分析數(shù)據(jù)的軟件积仗,也被稱為數(shù)據(jù)分析的利器疆拘,這是因為機器的計算能力遠(yuǎn)遠(yuǎn)大于手工計算,借助機器寂曹,可以實現(xiàn)對多維度哎迄、體量數(shù)據(jù)的快速計算。在有了正確的思想指導(dǎo)和方法準(zhǔn)備的基礎(chǔ)上隆圆,諸多復(fù)雜問題都可以在分析軟件的協(xié)助下漱挚,迎刃而解。
當(dāng)前市面上有眾多的數(shù)據(jù)分析軟件渺氧,從任何電腦都能用的單價計算到需要借助聯(lián)機處理的分布式處理平臺都有覆蓋旨涝。簡單地說,數(shù)據(jù)分析最普遍和最基礎(chǔ)的軟件就是電子表格侣背,其代表性的就微軟OFFICE套件中EXCEL白华。EXCEL在每臺電腦上都能夠使用,可以勝任平常人使用的數(shù)據(jù)分析任務(wù)贩耐,再加上有諸多的擴展功能弧腥,也會有各種各樣的使用場景,因此這被稱為數(shù)據(jù)分析的第一神器潮太。市場上除了微軟外管搪,還有諸多的廠商出品類似EXCEL的電子表格工具,而且許多都是開源和免費的消别,因此對電子表格軟件而言抛蚤,每個人的獲取成本的都可以為零。
EXCEL是通常用于數(shù)據(jù)分析的辦公軟件寻狂,并不是專門的數(shù)據(jù)分析軟件岁经。對數(shù)據(jù)分析而言,專業(yè)的軟件有很多蛇券,首先是IBM的SPSS軟件缀壤,SPSS包括了SPSS統(tǒng)計和SPSS MODELER,兩種軟件都就具有平緩的學(xué)習(xí)曲線纠亚,因此也是屬于數(shù)據(jù)分析的入門級軟件塘慕。
再向上是諸如SAS,MATALAB蒂胞,PYTHON图呢,R等專業(yè)軟件,能夠熟練使用其中一種軟件是當(dāng)前對數(shù)據(jù)分析師的專業(yè)要求,因此在絕大多數(shù)數(shù)據(jù)分析師的招聘啟事中蛤织,都有這些的軟件要求赴叹。
對單機分析而言,除了使用數(shù)據(jù)分析專業(yè)軟件指蚜,還可以使用例如C語言乞巧,JAVA等編程語言。這些語言很多情況是開發(fā)人員用于把相關(guān)數(shù)據(jù)分析的算法和過程摊鸡,嵌入到軟件和系統(tǒng)中去绽媒。當(dāng)然使用這類語言進(jìn)行數(shù)據(jù)分析對編程的要求更高,因此又被稱為數(shù)據(jù)分析的掃地僧級工具免猾。
除了單機分析外是辕,還可以進(jìn)行聯(lián)機分析,即多臺機器同時承擔(dān)一項分析任務(wù)掸刊,當(dāng)前最熱門的分布式計算就是數(shù)據(jù)聯(lián)機分析的范疇免糕。對聯(lián)機分析而言,就需要搭建相關(guān)的高速平臺來實現(xiàn)忧侧。例如HADOOP就是現(xiàn)在常用的分布式計算架構(gòu)石窑,SPARK是高效的分布式數(shù)據(jù)分析引擎。
各種數(shù)據(jù)分析軟件對數(shù)據(jù)的處理能力都不一樣蚓炬,其功能也各有千秋松逊。
對數(shù)據(jù)分析的第一神器EXCEL來說,其主要用于處理1萬-10萬條內(nèi)的數(shù)據(jù)肯夏。03版本的EXCEL能夠處理6萬多條數(shù)據(jù)经宏,在07版本以后,EXCEL能夠處理上百萬條數(shù)據(jù)驯击,但是由于計算性能的原因烁兰,通常EXCEL處理的數(shù)據(jù)更多在10萬條以內(nèi)。Excel功能強大徊都,在數(shù)據(jù)有限的情況下沪斟,幾乎可以替代任何分析軟件。
首先EXCEL具有非常強大的數(shù)據(jù)采集功能暇矫,除了對數(shù)據(jù)手工錄入和復(fù)制粘貼外主之,EXCEL能夠從網(wǎng)頁中的數(shù)據(jù)表格按照原格式采集。同時EXCEL能導(dǎo)入文本文件李根,因此在數(shù)據(jù)分析中常用的csv文件就能夠?qū)脒M(jìn)EXCEL槽奕,同時EXCEL還支持SQL語句從數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)》拷危總之常見的數(shù)據(jù)格式粤攒,都能夠?qū)脒M(jìn)EXCEL中去所森。
同時,EXCEL的運算功能非常強大琼讽,對于EXCEL自身而言必峰,就有大量的函數(shù)可以進(jìn)行數(shù)學(xué)運算洪唐,從統(tǒng)計到三角函數(shù)钻蹬,從科學(xué)計算再到財務(wù)計算都有覆蓋。利用EXCEL函數(shù)凭需,也能夠?qū)崿F(xiàn)數(shù)據(jù)的快速匹配和查找功能问欠。在EXCEL的運算功能中,可以利用VBA編寫相關(guān)的宏代碼粒蜈,這讓相關(guān)的算法都能夠嵌入到EXCEL中去顺献。因此,借助VBA枯怖,EXCEL能夠?qū)崿F(xiàn)任何計算注整。
EXCEL還具備數(shù)據(jù)鉆取功能。數(shù)據(jù)透視表是EXCEL中一個非常實用的工具度硝,透視能夠讓EXCEL將一張二維表格肿轨,按照不同的變量從多個角度來構(gòu)建想要匯總表格,同時還能夠?qū)崿F(xiàn)指標(biāo)之間的計算蕊程。因此椒袍,借助數(shù)據(jù)透視表,分析數(shù)據(jù)時藻茂,能夠很方便地從多個維度來拆分?jǐn)?shù)據(jù)進(jìn)行對比驹暑。
另外,EXCEL還有極其高效的數(shù)據(jù)展現(xiàn)功能辨赐,EXCEL自身就帶有大量的圖表优俘,其包括了折線圖,直方圖掀序,餅圖等等基礎(chǔ)圖表帆焕,以及氣泡圖、蛛網(wǎng)圖等復(fù)合圖表森枪。加上還支持多個圖表之間的組合视搏,因而EXCEL能夠做出各式各樣既能夠準(zhǔn)確表明數(shù)據(jù)同時又很美觀的數(shù)據(jù)圖表,如風(fēng)車圖县袱、南丁格爾圖等等浑娜。在當(dāng)前最熱門的信息圖的繪制,都可以通過EXCEL來完成式散。還有在最新的EXCEL中筋遭,已經(jīng)能夠?qū)氲乩硇畔ⅲ@讓數(shù)據(jù)地圖能夠在EXCEL中實現(xiàn)。
EXCEL是辦公軟件漓滔,由于其具有良好的數(shù)據(jù)處理和計算功能编饺,所以常被在數(shù)據(jù)分析中使用。對于數(shù)據(jù)分析响驴,還有一些專業(yè)的軟件和工具可供使用透且,這些軟件和工具功能更強大,因此也可以算作是數(shù)據(jù)分析的高級武器豁鲤。
在眾多的高級武器中秽誊,IBM的SPSS具備操作簡便容易學(xué)習(xí)的特性,算是入門級軟件琳骡。相比其他分析軟件而言锅论,SPSS是圖形化界面,可以像excel一樣楣号,直接通過菜單操作最易,而不需要編寫代碼。比EXCEL更高級的是炫狱,SPSS除了可以使用描述性統(tǒng)計外藻懒,還能便捷地使用驗證性統(tǒng)計和探索性統(tǒng)計,進(jìn)一步地毕荐,在SPSS MODELER中能夠?qū)嵤?shù)據(jù)挖掘束析。SPSS還具備代碼功能,因此對于數(shù)據(jù)分析具有較高的拓展性和自主性憎亚。
SPSS具有易操作员寇,能分析的優(yōu)良的特性,但是對于大規(guī)模多維度的數(shù)據(jù)分析第美,就需要用更專業(yè)的數(shù)據(jù)分析軟件蝶锋,例如當(dāng)前市面上常見SAS、MATLAB什往、PYTHON和R等分析軟件扳缕。同時,這些也是較主流的分析軟件别威。與EXCEL和SPSS不同的是躯舔,這類軟件需要通過代碼來完成數(shù)據(jù)分析的操作,因而這在一定程度上也能夠作為編程軟件來使用省古。這些軟件數(shù)據(jù)處理能力強大粥庄,處理的數(shù)據(jù)能夠達(dá)到上億條,數(shù)據(jù)的大小能夠達(dá)到GB級豺妓。此外惜互,這類軟件能夠以通過表格的方式展示數(shù)據(jù)布讹,便于使用者隨便查看正在處理的數(shù)據(jù)的情況。
在數(shù)據(jù)分析中训堆,還有用到C語言描验,JAVA等專業(yè)編程語言的情況。這些編程語言坑鱼,往往是在相關(guān)的軟件和系統(tǒng)中膘流,將數(shù)據(jù)分析的相關(guān)算法進(jìn)行嵌入和封裝,其目的是讓軟件和系統(tǒng)實現(xiàn)數(shù)據(jù)分析的功能姑躲。這類軟件在數(shù)據(jù)分析領(lǐng)域中的使用睡扬,更依賴于前期對數(shù)據(jù)分析算法的邏輯的正確梳理以及對環(huán)境中數(shù)據(jù)結(jié)構(gòu)的正確對接。在當(dāng)前的數(shù)據(jù)分析招聘啟示中黍析,能夠時常看到對C和JAVA的要求屎开,這些都說明了在軟件的開發(fā)工作中阐枣,數(shù)據(jù)分析的重要作用。
SPARK奄抽,HADOOP是當(dāng)前主流的大數(shù)據(jù)處理和平臺和引擎蔼两,其能夠處理的數(shù)據(jù)量已經(jīng)能夠到達(dá)PB級甚至更高。通過并行計算的機制逞度,即多臺機器同時處理數(shù)據(jù)额划,能夠?qū)崿F(xiàn)對大量數(shù)據(jù)的高速分析。同時档泽,他們也具備多種語言的接口俊戳,這使其處理的數(shù)據(jù)能夠在JAVA等編程語言以及R等專業(yè)分析軟件被調(diào)用,因而極大地擴展了大數(shù)據(jù)處理的范圍和場景馆匿。
在對數(shù)據(jù)分析工具的而言抑胎,從簡單易用的EXCEL到復(fù)雜而功能強大的大數(shù)據(jù)分析平臺都有覆蓋,對于大多數(shù)人來說渐北,EXCEL就已經(jīng)足夠阿逃,如果還有更高的數(shù)據(jù)分析要求,就可以切換到其他更高級的工具上去赃蛛,讓更專業(yè)的人員來完成相應(yīng)的分析工作恃锉。
數(shù)據(jù)分析之三重境界
數(shù)據(jù)分析的軟件和工具其實就是用于處理和分析數(shù)據(jù)的神兵利器,是每個要分析數(shù)據(jù)的人都需要能夠使用的呕臂。對于這些軟件的使用破托,可深可淺,只要能夠解決問題就行诵闭。不過炼团,伴隨著軟件技能的提升澎嚣,能夠處理問題的復(fù)雜度和數(shù)據(jù)的復(fù)雜度也會相應(yīng)提升。
對于數(shù)據(jù)分析瘟芝,共有三重境界易桃,第一重:眼中有表,心中沒表锌俱,第二重:眼中有表晤郑,心中有表,第三重:眼中沒表贸宏,心中有表造寝。每一重境界,都含有“表”字吭练,其實這也說明了诫龙,這些軟件都是把數(shù)據(jù)進(jìn)行表格化的操作和處理■暄剩基本在每個軟件中签赃,數(shù)據(jù)都是以二維表的形式存在,每一列代表不同的變量即不同的維度分尸,而每一行代表不同的記錄即每一條記錄了各個維度數(shù)據(jù)的個體锦聊。就這樣,在行列之間箩绍,各種運算和轉(zhuǎn)換孔庭,最終實現(xiàn)了數(shù)據(jù)分析的功能。
首先對第一重境界眼中有表材蛛,心中沒表而言圆到,主要是指對數(shù)據(jù)的基本操作,這些操作都是EXCEL的基本應(yīng)用仰税,像一些基本的函數(shù)計算构资,例如求和、求平均值等等陨簇,以及對數(shù)據(jù)用簡單的圖表進(jìn)行展示吐绵。在這重境界中,操作只是集中在眼前表格上河绽,不會有更多的變換和更深層次的結(jié)果輸出己单。在日常的工作中,這種境界的操作非常常見耙饰,比如計算一個班的一門學(xué)科的平均分纹笼,只需要把一張記錄了這個班學(xué)生和單科成績的二維表,對這表所有成績求和后除以人數(shù)就能得出結(jié)果苟跪,因此也不需要更多的表格介入進(jìn)來廷痘。
對第二重境界眼中有表蔓涧,心中有表而言,操作的復(fù)雜程度和難度都遠(yuǎn)遠(yuǎn)高于第一重笋额,在EXCEL中是對透視表的操作元暴,能夠通過各種維度靈活分解和匯總數(shù)據(jù),以及能夠從多個表格中把數(shù)據(jù)鏈接到一起兄猩,這種技術(shù)在數(shù)據(jù)庫的操作中也非常常見茉盏。在這重境界與前一重境界不同于心,盡管眼前的表還是簡簡單單的一張數(shù)據(jù)表了枢冤,但是心中卻不僅僅是這張表鸠姨,各種表格存在于心,可以依照心中表格對眼前的表格進(jìn)行各種轉(zhuǎn)換和改造淹真,既可以以當(dāng)前這張數(shù)據(jù)表為載體讶迁,從多個維度來展示數(shù)據(jù),也可以以這張表為核心趟咆,匹配其他表格中的數(shù)據(jù)添瓷,以擴展本表的信息,總之只要數(shù)據(jù)足夠值纱,各種花樣都能夠玩出來。還是以學(xué)生成績?yōu)槔魈溃粡埍戆藢W(xué)生的姓名虐唠,性別、年級惰聂、班級疆偿,性別,考試科目搓幌,成績等等數(shù)據(jù)杆故。在第一重層的境界中,只能對所有成績進(jìn)行平均以及求和等操作溉愁。然而在第二重境界中处铛,就能夠按照班級、性別拐揭、年級撤蟆、科目等對考試成績分類求平均值,同時能夠從不同的維度交叉展示堂污,如展示各班分性別展示家肯,各年級分科目展示等等。同時在取得了不同時間的成績表格后盟猖,也能夠把個張成績表上都存在學(xué)生單獨提出來讨衣,在原有維度數(shù)據(jù)的基礎(chǔ)上再匹配出包含時間的新表出來换棚,這樣就可以進(jìn)一步地分時間來展示數(shù)據(jù)了。
第三重境界是眼中沒表反镇,心中有表固蚤,這一重境界較前一重不同在“眼”,前兩重的境界還需要看著表進(jìn)行操作愿险,而在這一重境界中則已經(jīng)脫離了眼前的表格颇蜡,可以不看表就能處理數(shù)據(jù),因而這一重境界也是走向更高水平必須經(jīng)歷的環(huán)節(jié)辆亏,也是成為高手必須到達(dá)的階梯风秤。達(dá)到了這一重境界,數(shù)據(jù)分析的操作能夠擺脫EXCEL扮叨,使用功能更強大的諸如R缤弦、SAS等工具上,通過代碼實現(xiàn)EXCEL中對數(shù)據(jù)的操作彻磁。更進(jìn)一步地碍沐,在使用諸如Hadoop等大數(shù)據(jù)工具上,都需要達(dá)到這種境界衷蜓,將心中需要呈現(xiàn)的表格累提,通過代碼進(jìn)行實現(xiàn)。第三重境界磁浇,重點在心斋陪,與前兩重相比,需要更高的結(jié)構(gòu)化思維和整體思維置吓,才能準(zhǔn)確地把腦海中構(gòu)想的表格无虚,在工具中實現(xiàn)。
數(shù)據(jù)分析的三重境界衍锚,表面上看是對不同軟件應(yīng)用熟悉程度的區(qū)別友题,而在背后是對數(shù)據(jù)分析思想的理解以及對數(shù)據(jù)分析方法的掌握。軟件操作學(xué)會容易戴质,然后對分析思想和分析方法就需要長期的積累和沉淀度宦。其實,數(shù)據(jù)分析工作就像睡蓮置森,做出的成果都是浮在水面上的看得到的花朵斗埂,而決定花朵是否燦爛的,還是取決于水下的根基和吸取的養(yǎng)分凫海,根基和養(yǎng)分其實就是思想的參悟呛凶、方法的理解以及工具的熟練,這些不在一時之快行贪,而在日積月累漾稀。
總而言之模闲,數(shù)據(jù)分析,人可皆會崭捍,心之不同里尸折,境界不同,百般變化殷蛇,在乎一心实夹。
原文轉(zhuǎn)發(fā),功德無量粒梦!