作者:RAM DEWANI 翻譯:歐陽錦 校對:陳漢青
我們得承認——數據科學的范圍龐雜邀桑,每一個領域要求處理數據的方式各有不同,這讓許多分析家/數據庫科學家陷入困惑工窍。而如果你是一位商業(yè)領袖割卖,你將要選擇你和你的公司所使用的工具,這很關鍵患雏,因為這些工具會產生長期的影響鹏溯。同樣地,問題是你應該選擇哪種數據科學工具呢淹仑?在本文中丙挽,我將通過羅列出數據科學領域廣泛使用的工具并細分它們的用途和優(yōu)勢,來幫你解決這些困惑匀借。所以颜阐,讓我們開始吧!
目錄
- 深入大數據 – 處理大數據的工具
體量
種類
速度
- 數據科學的工具
報告和商業(yè)智能
預測建模和機器學習
人工智能
大數據的數據科學工具
為了真正了解大數據背后的深刻意義吓肋,我們需要了解給大數據下定義所的基本原理凳怨。他們被稱為大數據的3V而廣為人知。
體量
種類
速度
處理大數據體量的工具
顧名思義是鬼,體量是指數據的規(guī)模和數量猿棉。要了解我在說的數據規(guī)模磅叛,你需要知道,世界上超過90%的數據是在最近兩年內創(chuàng)建的萨赁!十年來弊琴,隨著數據量的增加,該技術也變得越來越好杖爽。計算和存儲成本的降低使收集和存儲大量數據變得更加容易敲董。數據體量定義了它是否符合大數據的條件。當我們的數據范圍在1Gb到10Gb左右時慰安,傳統的數據科學工具就可以很好地工作腋寨。那么這些工具有哪些呢?
- Microsoft Excel–Excel是處理少量數據的最簡單化焕,最受歡迎的工具萄窜。它支持的最大行數只剛剛超過一百萬,一張表一次最多只能處理16,380列撒桨。當數據量很大時查刻,這些根本不夠用。
Microsoft Excel:
- Microsoft Access –它是Microsoft流行的用于數據存儲的工具凤类。使用此工具可以平穩(wěn)順暢地處理高達2Gb的較小數據庫穗泵,但超過這個數字,Access會開始崩潰谜疤。
- SQL – SQL是自1970年代以來最流行的數據管理系統之一佃延。幾十年來,它一直是主要的數據庫解決方案夷磕。SQL仍然很流行履肃,但有一個缺點——隨著數據庫的不斷增長,很難對其進行擴展坐桩。
到目前為止我們已經介紹了一些基本工具∮芘ǎ現在該放大招了!如果你的數據大于10Gb撕攒,甚至超過1Tb+陡鹃,那么需要使用我在下面提到的工具:
- Hadoop –它是一個開源的分布式框架,用于管理大數據的數據處理和存儲抖坪。當你從零開始構建機器學習項目時萍鲸,很可能會使用此工具。
- Hive –它是建立在Hadoop之上的數據倉庫擦俐。Hive提供了一個類似于SQL的接口來查詢存儲在與Hadoop集成的各種數據庫和文件系統中的數據脊阴。
處理大數據種類的工具
數據種類是指存在的不同類型的數據。數據類型可以是以下之一:結構化和非結構化數據。讓我們看一下不同數據類型的示例:
花一點時間去觀察這些示例嘿期,并且將它們與你的真實數據關聯起來品擎。你可能在結構化數據中觀察到,這種類型的數據有固定的順序和結構备徐,而非結構化數據相反萄传,這些示例并不遵循任何趨勢或者模式。例如蜜猾,顧客反饋在長度秀菱、情感和其他方面有所不同。另外蹭睡,這類數據巨大并且種類繁多衍菱。處理這類數據可能非常具有挑戰(zhàn)性,那么市場上用于管理和處理這些不同數據類型的數據科學工具有哪些呢肩豁?兩個最常見的數據庫是SQL和NoSQL脊串。在NoSQL出現前,SQL多年來一直是市場主導者清钥。
SQL的一些例子是Oracle琼锋,MySQL,SQLite循捺,而NoSQL由諸如MongoDB斩例,Cassandra等流行的數據庫組成雄人。這些NoSQL數據庫由于具有擴展和處理動態(tài)數據的能力而被廣泛地應用从橘。
處理大數據速度的工具
第三個,也是最后一個V代表了速度础钠。這是捕獲數據時的速度恰力,包括實時和非實時數據。我們在這里將主要討論實時數據旗吁。
我們周圍有許多捕獲和處理實時數據的示例踩萎。最復雜的是自動駕駛汽車收集的傳感器數據。想象一下很钓,在自動駕駛汽車中香府,汽車必須同時動態(tài)地收集和處理有關車道、與其他車輛的距離等數據码倦!
其他正在收集的實時數據的例子包括:
- 閉路電視
- 股票交易
- 信用卡交易欺詐檢測
- 網絡數據——社交媒體(Facebook企孩、Twitter等)
“你知道嗎?在紐約證券交易所的每個交易時段中袁稽,都會生成超過1TB的數據勿璃!”現在,讓我們來看看處理實時數據的一些常用數據科學工具:
- Apache Kafka – Kafka是Apache的開源工具。它用于創(chuàng)建實時數據管道补疑。Kafka的一些優(yōu)點在于——它具有容錯性歧沪、速度很快,并且被大量機構投入生產使用莲组。
- Apache Storm – Apache的該工具幾乎可用于所有編程語言诊胞。它每秒可處理多達100萬個元組,并具有高度的可擴展性胁编。對于高數據速率來說厢钧,這是個好工具。
- Amazon Kinesis – 亞馬遜提供的此工具類似于Kafka嬉橙,但需要付費早直。然而,它提供的是開箱即用的解決方案市框,這使其成為組織機構的強勢的備選方案霞扬。
- Apache Flink – Flink是Apache另一種可用于實時數據的工具。Flink的優(yōu)點在于它的高性能枫振、容錯能力和有效的內存管理喻圃。
現在,我們已經掌握了通常用于處理大數據的各種工具粪滤,接下來將介紹使用高級機器學習技術和算法來利用數據的部分斧拍。
廣泛使用的數據科學工具
如果你要建立一個全新的數據科學項目杖小,那么腦海中會浮現很多問題,這與你的水平無關——無論你是數據科學家昂勉,數據分析師扫腺,項目經理還是高級數據科學主管,都是如此攒至。
你將面對的一些問題是:
- 在數據科學的不同領域中應該使用哪些工具躁劣?
- 應該購買這些工具的許可證還是選擇開源工具?等等渠抹。
在本節(jié)中,我們將根據不同領域討論行業(yè)中使用的一些受歡迎的數據科學工具奇颠。數據科學本身就是一個廣義術語放航,它由各種不同的領域組成,每個領域都有它自己的業(yè)務重要性和復雜性荆几,正如下圖所示:
數據科學的范圍包含了各種領域赊时,上圖表示了這些領域的相對復雜性和它們提供的業(yè)務價值。讓我們討論一下以上頻譜中顯示的每一個點诞吱。
報告和商業(yè)智能
讓我們從這個范圍的底端開始。報告和商業(yè)智能使一個機構能夠識別出數據的趨勢和模式房维,從而制定關鍵的戰(zhàn)略決策抬纸。這種分析的類型包括MIS、數據分析和儀表板湿故。這些領域中常用的工具有:
Excel – 它提供了多種選擇,包括了數據透視表和圖表晓锻,使你可以快速分析數據飞几。簡而言之,它是數據科學/分析工具中的“瑞士軍刀”屑墨。
QlikView – 您只需單擊幾下即可合并卵史,搜索,可視化和分析所有數據資源槐秧。這是一種易于學習的直觀的工具,因此非常受歡迎颠通。
- Tableau – 它是當今市場上最受歡迎的數據可視化工具之一顿锰。它能夠處理大量數據启搂,甚至提供類似于Excel的計算功能和參數。Tableau因其整潔的儀表板和故事界面而倍受贊譽.
- Microstrategy – 它是另一個BI工具牢撼,支持儀表板浪默、自動分發(fā)和其他關鍵數據分析任務。
- PowerBI – 它是商業(yè)智能(BI)領域中的Microsoft產品纳决。PowerBI旨在與Microsoft技術進行集成乡小。因此阔加,如果你的組織有Sharepoint或SQL數據庫用戶,那么你和你的團隊將會喜歡這個工具满钟。
- Google Analytics – 想知道Google Analytics如何進入此名單的嗎?嗯……數字營銷在業(yè)務轉型中起著重要作用湃番,沒有比它更好的工具可以用來分析你的數字化工作。
預測分析和機器學習工具
順著前面那個圖再往上走吠撮,其復雜性和商業(yè)價值也變高了尊惰!這是大多數數據科學家賴以生存的領域。你將要解決的問題類型是統計建模弄屡,預測,神經網絡和深度學習鞋诗。讓我們了解一些該領域的常用工具:
- Python – 由于其易用性膀捷,靈活性和開源特性,Python是當今行業(yè)數據科學中最主要的語言之一削彬。它已經在ML社區(qū)中迅速普及并被廣泛接受秀仲。
- R – 它是數據科學中另一種非常常用且受人尊敬的語言。R有一個蓬勃發(fā)展且被極大支持的社區(qū)啄育,附帶了許多軟件包和庫拌消,支持大多數的機器學習任務墩崩。
- Apache Spark – Spark由加州大學伯克利分校于2010年開源鹦筹,此后已成為最大的大數據社區(qū)之一铝阐。它被稱為大數據分析的“瑞士軍刀”铐拐,因為它具有多種優(yōu)勢遍蟋,例如靈活性吹害、速度、計算能力等虚青。
- Julia – 它是一種即將到來的語言它呀,被捧為Python的繼承者。目前它仍處于起步階段棒厘,觀察其在未來的表現將會是一件有趣的事纵穿。
- Jupyter Notebooks – 這些筆記本廣泛用于Python編程。盡管它主要用于Python奢人,但它也支持其他語言谓媒,例如Julia,R等何乎。
到目前為止句惯,我們討論的工具都是真正的開源工具。你無需支付費用或購買任何額外的許可證宪赶。它們擁有活躍的社區(qū)宗弯,可以定期維護和發(fā)布更新「迹現在搂妻,我們將看一些在某些特定行業(yè)中通用的收費工具:
- SAS – 這是一個非常受歡迎且功能強大的工具。在銀行和金融部門中被普遍使用辕棚。它的使用在美國運通欲主,摩根大通邓厕,西格瑪,蘇格蘭皇家銀行等私人組織中占有很高的份額扁瓢。
- SPSS – SPSS是“社會科學統計軟件包”的縮寫详恼,在2009年被IBM收購。它提供高級統計分析引几、龐大的機器學習算法庫昧互、文本分析等。
- Matlab – Matlab在組織機構的領域里確實被低估了伟桅,但在學術界和研究部門中得到了廣泛的使用敞掘。最近相較于Python,R和SAS楣铁,Matlab已經陣地失守玖雁,但是大學(尤其在美國)仍在使用Matlab教授許多本科課程。
深度學習的通用框架
深度學習需要大量的計算資源盖腕,并且需要特殊的框架才能有效地利用這些資源赫冬。因此,你很可能需要GPU或TPU溃列。讓我們看看本節(jié)中用于深度學習的一些框架劲厌。
TensorFlow – 它很容易成為當今行業(yè)中使用最廣泛的工具。Google可能與此有關听隐!
PyTorch – 這種超級靈活的深度學習框架正在成為TensorFlow的強勢競爭對手脊僚。PyTorch最近受到一些關注,它的開發(fā)者是Facebook的研究人員遵绰。
Keras和Caffe是廣泛用于構建深度學習應用程序的其他框架辽幌。
人工智能工具
AutoML的時代就在這里。如果還沒有聽說過這些工具椿访,那么這是一個自我學習的好機會乌企!作為數據科學家,你很可能會在不久的將來與他們合作成玫。
列舉一些最受歡迎的AutoML工具加酵,包括AutoKeras,Google Cloud AutoML哭当,IBM Watson猪腕,DataRobot,H20的無人駕駛AI和亞馬遜的Lex钦勘。AutoML有望成為AI / ML社區(qū)中的下一個大事件陋葡。它旨在消除或減少技術性,以便商業(yè)領導者可以使用它來制定戰(zhàn)略決策彻采。這些工具將推動整個數據分析流程自動化腐缤!