作為一直想入門(mén)數(shù)據(jù)分析的童鞋們來(lái)說(shuō)弃揽,如何選定一門(mén)面向數(shù)據(jù)分析的編程語(yǔ)言或工具呢壁畸?注意是數(shù)據(jù)分析,而不是大數(shù)據(jù)哦郭毕,數(shù)據(jù)分析是基礎(chǔ)了苍匆。
數(shù)據(jù)分析的工具千萬(wàn)種刘急,綜合起來(lái)萬(wàn)變不離其宗。無(wú)非是數(shù)據(jù)獲取浸踩、數(shù)據(jù)存儲(chǔ)叔汁、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析据块、數(shù)據(jù)展示等幾個(gè)方面码邻。而被提到頻率最高的如Excel、R另假、Python像屋、SPSS、SAS边篮、SQL等己莺。那么,這些工具本身到底有什么特點(diǎn)呢戈轿,應(yīng)該如何合理的使用來(lái)解決數(shù)據(jù)分析的各種問(wèn)題凌受?
最簡(jiǎn)單的是EXCEL,它不僅是簡(jiǎn)單的而且是必備的思杯。正所謂初級(jí)學(xué)圖表胜蛉,中級(jí)學(xué)函數(shù)透視表,高級(jí)學(xué)習(xí)VBA色乾。EXCEL功能的強(qiáng)大只有那些正真學(xué)過(guò)它的人才能知道誊册,我們反對(duì)任何關(guān)于EXCEL復(fù)雜,不實(shí)用的說(shuō)法杈湾。在學(xué)完VBA之后解虱,EXCEL幾乎能解決你在日常工作中遇到的所有問(wèn)題。EXCEL是你成為數(shù)據(jù)分析師的必備條件漆撞。
對(duì)于一個(gè)初級(jí)的數(shù)據(jù)分析師來(lái)說(shuō),剛開(kāi)始如果能精通SQL與Excel再會(huì)點(diǎn)SPSS之類(lèi)的就差不多了于宙。SPSS對(duì)用戶的要求是只要會(huì)點(diǎn)擊菜單就可以了浮驳,有編程窗口但是一般沒(méi)人用,用戶多是受到過(guò)一些統(tǒng)計(jì)訓(xùn)練的捞魁,但不需要高深的分析能力至会,市場(chǎng)調(diào)研用的比較多,統(tǒng)計(jì)專業(yè)的學(xué)生一般要求掌握谱俭。
再往后奉件,你可能就需要精通一門(mén)統(tǒng)計(jì)分析軟件了,一般說(shuō)來(lái)如果是互聯(lián)網(wǎng)行業(yè)可能R語(yǔ)言是最為流行昆著,因?yàn)镽語(yǔ)言是開(kāi)源的县貌,不過(guò)上手還是需要長(zhǎng)期的學(xué)習(xí);SPSS界面友好型凑懂,不過(guò)一般是市場(chǎng)研究用的比較多煤痕,如果你會(huì)用SPSS編程,其實(shí)功能還是比較強(qiáng)大的,建議如果想先練手可以學(xué)這個(gè)摆碉,上手快塘匣;SAS一般是金融企業(yè)特別是銀行業(yè)和醫(yī)學(xué)統(tǒng)計(jì),銀行業(yè)人員有一些是用SAS做統(tǒng)計(jì)巷帝,一般是銀行業(yè)內(nèi)部人做的忌卤,另一種是給銀行業(yè)做數(shù)據(jù)挖掘的公司,不過(guò)正版一年也要上百萬(wàn)楞泼,不是土豪也用不起埠巨,而且SAS學(xué)習(xí)沒(méi)人指導(dǎo)很難學(xué);所以看童鞋們的選擇现拒,想在傳統(tǒng)或者咨詢公司做的SPSS比較合適辣垒,想去金融特別是銀行業(yè)SAS不錯(cuò),想進(jìn)互聯(lián)網(wǎng)公司學(xué)R語(yǔ)言可能是比較明智印蔬。
再就是Python勋桶。Python在這些工具里面是綜合功能最強(qiáng)大的,但是這些功能分散在第三方庫(kù)里面侥猬,沒(méi)有得到有機(jī)的整合例驹,所以學(xué)習(xí)成本還是比較高的。Python與R不同退唠,Python是一門(mén)多功能的語(yǔ)言鹃锈。數(shù)據(jù)統(tǒng)計(jì)是更多是通過(guò)第三方包來(lái)實(shí)現(xiàn)的。具體來(lái)說(shuō)瞧预,常用的Python在統(tǒng)計(jì)上面的Package有這樣一些:
1屎债、Numpy與Scipy。這兩個(gè)包是Python之所以能在數(shù)據(jù)分析占有一席之地的重要原因垢油。其中Numpy封裝了基礎(chǔ)的矩陣和向量的操作盆驹,而Scipy則在Numpy的基礎(chǔ)上提供了更豐富的功能,比如各種統(tǒng)計(jì)常用的分布和算法都能迅速的在Scipy中找到滩愁。
2躯喇、Matplotlib。這個(gè)Package主要是用來(lái)提供數(shù)據(jù)可視化的硝枉,其功能強(qiáng)大廉丽,生成的圖標(biāo)可以達(dá)到印刷品質(zhì),在各種學(xué)術(shù)會(huì)議里面出鏡率不低妻味。依托于Python正压,可定制性相對(duì)于其他的圖形庫(kù)更高。還有一個(gè)優(yōu)點(diǎn)是提供互動(dòng)化的數(shù)據(jù)分析弧可,可以動(dòng)態(tài)的縮放圖表蔑匣,用做Adhoc
analysis非常合適劣欢。
3、Scikit Learn裁良。非常好用的MachineLearning庫(kù)凿将,適合于用于快速定制原型。封裝幾乎所有的經(jīng)典算法价脾,易用性極高牧抵。
4、Python標(biāo)準(zhǔn)庫(kù)侨把。這里主要是體現(xiàn)了Python處理字符串的優(yōu)勢(shì)犀变,由于Python多功能的屬性和對(duì)于正則表達(dá)式的良好支持,用于處理文本是再合適不過(guò)的了秋柄。
Python是一套比較平衡的語(yǔ)言获枝,各方面都可以,而R是在統(tǒng)計(jì)方面比較突出骇笔。R的優(yōu)勢(shì)在于有包羅萬(wàn)象的統(tǒng)計(jì)函數(shù)可以調(diào)用省店,特別是在時(shí)間序列分析方面(主要用在金融分析與趨勢(shì)預(yù)測(cè))無(wú)論是經(jīng)典還是前沿的方法都有相應(yīng)的包直接使用;相比Python在這方面貧乏不少笨触。Python的優(yōu)勢(shì)在于其膠水語(yǔ)言的特性懦傍,一些底層用C寫(xiě)的算法封裝在Python包里后性能非常高效。
總之R和SAS是專業(yè)性比較強(qiáng)的統(tǒng)計(jì)軟件芦劣,統(tǒng)計(jì)專業(yè)學(xué)生必備粗俱,SPSS是更大眾化的統(tǒng)計(jì)軟件,Python不是統(tǒng)計(jì)軟件虚吟,而是一種可以用來(lái)做各種事情的語(yǔ)言寸认。R和Python現(xiàn)在越來(lái)越受到各大公司的喜歡,也必定會(huì)成為將來(lái)的發(fā)展趨勢(shì)稍味。Python的功能可遠(yuǎn)遠(yuǎn)不止用來(lái)分析數(shù)據(jù)废麻,它可以用來(lái)開(kāi)發(fā),建站模庐,寫(xiě)個(gè)小APP什么的。我們所知道的果殼網(wǎng)油宜,知乎掂碱,DROPBOX等可都是用Python寫(xiě)得哦。如果你能同時(shí)學(xué)會(huì)Python和R慎冤,在數(shù)據(jù)科學(xué)領(lǐng)域肯定就游刃有余了疼燥。
名稱
特點(diǎn)
適用場(chǎng)景
出現(xiàn)頻數(shù)
1
Excel
一般非大量數(shù)據(jù)分析的人員可以滿足大部分需求
財(cái)務(wù)、金融蚁堤、產(chǎn)品經(jīng)理等一般數(shù)據(jù)量處理需求
較高醉者,作為普通技能
2
R語(yǔ)言
兼容性強(qiáng),語(yǔ)言程序化也強(qiáng),在編程語(yǔ)言方面需要投入的精力比Python大撬即,但適用面較廣
最常用數(shù)據(jù)分析工具之一立磁,兼容性強(qiáng)
高頻工具之一
3
Python
Life is too short,I use Python
以語(yǔ)言簡(jiǎn)單剥槐,注重?cái)?shù)據(jù)分析的高效著稱唱歧,尤其是在文本處理等數(shù)據(jù)結(jié)構(gòu)化方面有很好優(yōu)勢(shì)
編程類(lèi)數(shù)據(jù)分析,如文本字符等非結(jié)構(gòu)化數(shù)據(jù)的處理
高頻工具之一
4
SQL
數(shù)據(jù)庫(kù)處理和分析的必備技能粒竖,屬于數(shù)據(jù)庫(kù)方面的基本工具
側(cè)重?cái)?shù)據(jù)庫(kù)方面颅崩,如數(shù)據(jù)倉(cāng)庫(kù)等,作為Oracle等數(shù)據(jù)庫(kù)方面的基礎(chǔ)知識(shí)不可或缺
高頻工具之一
5
SPSS
統(tǒng)計(jì)分析功能強(qiáng)大蕊苗,側(cè)重于統(tǒng)計(jì)分析類(lèi)模型
建模能力已經(jīng)不局限于統(tǒng)計(jì)了沿后,在預(yù)測(cè)、機(jī)器學(xué)習(xí)方面也有很多包
頻率一般
6
SAS
金融大數(shù)據(jù)分析
金融風(fēng)控建模較多
金融投資數(shù)據(jù)建模常用工具之一
7
Matlab
矩陣計(jì)算等數(shù)學(xué)專用建模工具
強(qiáng)大的各種工具包朽砰,以及仿真能力
側(cè)重于數(shù)據(jù)本身的計(jì)算尖滚,院校科研用的較多
總的來(lái)說(shuō)锅移,不同工具各有擅場(chǎng)熔掺,最關(guān)鍵的當(dāng)然還在于業(yè)務(wù)的掌握和數(shù)學(xué)方法的掌握(統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)等核心方法)。但磨刀不誤砍柴工非剃,把基本工具掌握熟練了百利無(wú)一弊置逻。而當(dāng)你要做大數(shù)據(jù)分析的時(shí)候,還會(huì)用到Hadoop等工具(實(shí)際上這些工具都是可以結(jié)合Hadoop大數(shù)據(jù)平臺(tái)聯(lián)合起來(lái)用的备绽,后面專題介紹)券坞。而且,工具不是萬(wàn)能的肺素,業(yè)務(wù)和數(shù)據(jù)建模方法才是萬(wàn)法之源恨锚。不要被工具迷花了眼哦!