數(shù)據(jù)分析的時代已經(jīng)到來供璧,從國家浩习、政府、企業(yè)到個人聊倔,大數(shù)據(jù)和數(shù)據(jù)分析已經(jīng)成為大家耳熟能詳?shù)拿~晦毙。但是你可能沒有學(xué)過數(shù)據(jù)分析或編程的專業(yè)知識,或者你雖然學(xué)了很多數(shù)據(jù)分析的理論耙蔑,但你還不知道怎樣運用到實踐上见妒。在這里,我將對數(shù)據(jù)分析師最受歡迎的四種工具(Excel甸陌、R须揣、Python和BI)進(jìn)行比較,作為開始學(xué)習(xí)數(shù)據(jù)分析的基礎(chǔ)邀层。
1.Excel
1.1 使用場景
??? 一般辦公室里簡單的數(shù)據(jù)處理工作返敬。
??? 中小型企業(yè)的數(shù)據(jù)管理和存儲遂庄。
??? 學(xué)生或老師用來進(jìn)行簡單的統(tǒng)計分析(如方差分析寥院、回歸分析等)。
??? 結(jié)合 Word和PowerPoint來創(chuàng)建數(shù)據(jù)分析報告涛目。
??? 數(shù)據(jù)分析師的輔助工具秸谢。
??? 為一些商業(yè)雜志和報紙制作圖表(數(shù)據(jù)可視化)。
1.2 優(yōu)勢
??? 入門使用Excel很容易霹肝。
??? 學(xué)習(xí)資源非常豐富估蹄。
??? 你可以用Excel做很多事情:建模、可視化沫换、數(shù)據(jù)報告臭蚁、動態(tài)圖表等。
??? 它可以幫助您在進(jìn)一步學(xué)習(xí)其他工具(如Python和R)之前了解許多操作的含義讯赏。
1.3 缺點
??? 要完全掌握Excel垮兑,需要學(xué)習(xí)VBA,所以難度還是很高的漱挎。
??? 當(dāng)數(shù)據(jù)量很大時系枪,就會出現(xiàn)卡頓的情況。
??? 不借助其他工具的話磕谅,Excel數(shù)據(jù)文件本身只能容納108萬行私爷,不適合處理大規(guī)模數(shù)據(jù)集。
??? 內(nèi)置的統(tǒng)計分析過于簡單膊夹,做高級分析比較吃力衬浑。
??? 與Python、R和其他開源軟件不同放刨,正版Excel需要收費工秩。
2.R
2.1 使用場景
R的功能幾乎涵蓋數(shù)據(jù)分析的所有領(lǐng)域,就我們一般的數(shù)據(jù)分析工作而言,R能做的事情主要有以下幾個方面拓诸。
??? 數(shù)據(jù)清洗侵佃。
??? 網(wǎng)絡(luò)爬取。
??? 數(shù)據(jù)可視化奠支。
??? 統(tǒng)計假設(shè)檢驗(t檢驗馋辈、方差分析、卡方檢驗等)倍谜。
??? 數(shù)據(jù)建模(線性回歸迈螟、邏輯回歸、樹模型尔崔、神經(jīng)網(wǎng)絡(luò)等)答毫。
??? 數(shù)據(jù)分析報告輸出(R markdown)。
2.2 R容易學(xué)嗎季春?
在我看來洗搂,學(xué)習(xí)使用R是比較簡單的,如果經(jīng)過10天的集中學(xué)習(xí)载弄,足以掌握其基本使用耘拇、基本數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)導(dǎo)入導(dǎo)出宇攻、簡單的數(shù)據(jù)可視化等內(nèi)容惫叛。有了這些基礎(chǔ),當(dāng)你遇到實際問題時逞刷,就可以找到你需要使用的R包嘉涌,通過閱讀幫助文件或者網(wǎng)絡(luò)上的資料,可以快速地解決具體的問題夸浅。
?
3. Python
3.1 使用場景
??? 數(shù)據(jù)爬取仑最。
??? 數(shù)據(jù)清洗。
??? 數(shù)據(jù)建模题篷。
??? 根據(jù)業(yè)務(wù)場景和實際問題構(gòu)建數(shù)據(jù)分析算法词身。
??? 數(shù)據(jù)可視化。
??? 數(shù)據(jù)挖掘和分析的高級領(lǐng)域番枚,例如機器學(xué)習(xí)和文本挖掘法严。
3.2 R與Python
R和Python都是可以編程的數(shù)據(jù)分析工具,不同的是葫笼,R專門用于數(shù)據(jù)分析領(lǐng)域深啤,而數(shù)據(jù)分析只是Python 的一個應(yīng)用分支,Python還可以用來開發(fā)網(wǎng)頁路星、開發(fā)游戲或者開發(fā)系統(tǒng)后端溯街,做一些運維的工作诱桂。
?
當(dāng)前的一個趨勢是,在數(shù)據(jù)分析的領(lǐng)域里呈昔,Python正在追趕著R挥等,在某些方面,它已經(jīng)超越了R堤尾,例如機器學(xué)習(xí)和文本挖掘肝劲,但是R在統(tǒng)計領(lǐng)域仍然保持著優(yōu)勢。Python在數(shù)據(jù)分析方面的發(fā)展郭宝,在很多地方都模仿了R的一些特性辞槐,所以,如果你還是新手粘室,還沒有開始學(xué)習(xí)榄檬,我建議你從Python開始。
?
Python和R都很容易入門衔统,但是如果你同時學(xué)習(xí)兩者鹿榜,就會很混亂,因為它們在很多地方都非常相似缰冤。所以建議不要同時學(xué)習(xí)犬缨,等到你掌握了其中一個,然后開始學(xué)習(xí)另一個棉浸。
?
3.3 選擇R還是Python?
如果因為時間有限只能選擇其中之一的去學(xué)習(xí)刺彩,我推薦使用Python迷郑。但我仍然建議你兩者都學(xué)一下,你可能在某些地方聽說Python在工作中更常用创倔,但解決問題才是最重要的嗡害,如果你能用R高效地解決問題,那就用 R畦攘。事實上霸妹,Python模仿了R的許多特性,比如Pandas 庫中的DataFrames知押,還有正在開發(fā)的可視化包ggplot模仿了R中非常有名的ggplot2叹螟。
?
4. 商業(yè)智能(BI)
數(shù)據(jù)分析中有一句話:文字不如表,表不如圖台盯,數(shù)據(jù)可視化是數(shù)據(jù)分析的主要方向之一罢绽。Excel的圖表可以滿足基本的圖形要求,但這只是基礎(chǔ)静盅,高級可視化需要編程的知識良价。除了學(xué)習(xí)R、Python等編程語言外,還可以選擇簡單易用的BI工具明垢。
?
BI的優(yōu)勢在于它更擅長做交互式的報告蚣常,它擅長解釋歷史數(shù)據(jù)和實時數(shù)據(jù),可以大大解放數(shù)據(jù)分析師的工作痊银,提升整個公司的數(shù)據(jù)意識史隆,提高數(shù)據(jù)導(dǎo)入效率。市場上有很多BI產(chǎn)品曼验,例如Powerbi泌射,Smartbi智分析都是非常免費實用的BI工具,它們的原理都是搭建儀表盤鬓照,通過維度的聯(lián)動和鉆取熔酷,得到可視化的分析。