隨著世界進(jìn)入大數(shù)據(jù)時(shí)代,對(duì)其存儲(chǔ)的需求也在增長(zhǎng)钾恢。直到2010年手素,它一直是企業(yè)行業(yè)面臨的主要挑戰(zhàn)和關(guān)注點(diǎn)。主要重點(diǎn)是構(gòu)建用于存儲(chǔ)數(shù)據(jù)的框架和解決方案〈耱剑現(xiàn)在泉懦,當(dāng)Hadoop和其他框架成功解決存儲(chǔ)問題時(shí),重點(diǎn)就轉(zhuǎn)移到了處理這些數(shù)據(jù)上疹瘦。數(shù)據(jù)科學(xué)是這里的秘訣崩哩。您在好萊塢科幻電影中看到的所有想法實(shí)際上都可以通過數(shù)據(jù)科學(xué)變成現(xiàn)實(shí)。數(shù)據(jù)科學(xué)是人工智能的未來言沐。因此邓嘹,了解什么是數(shù)據(jù)科學(xué)以及如何為您的業(yè)務(wù)增加價(jià)值非常重要。
在此博客中险胰,我將介紹以下主題汹押。
對(duì)數(shù)據(jù)科學(xué)的需求。
什么是數(shù)據(jù)科學(xué)起便?
它與商業(yè)智能(BI)和數(shù)據(jù)分析有何不同棚贾?
借助用例,數(shù)據(jù)科學(xué)的生命周期榆综。到本博客結(jié)束時(shí)妙痹,您將能夠理解什么是數(shù)據(jù)科學(xué)及其在從我們周圍的復(fù)雜和大型數(shù)據(jù)集中提取有意義的見解中的作用。
讓我們了解為什么我們需要數(shù)據(jù)科學(xué)
傳統(tǒng)上鼻疮,我們擁有的數(shù)據(jù)大多是結(jié)構(gòu)化的细诸,而且規(guī)模較小,可以使用簡(jiǎn)單的BI工具進(jìn)行分析陋守。與傳統(tǒng)的系統(tǒng)中大多數(shù)數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù)不同震贵,如今大多數(shù)數(shù)據(jù)是非結(jié)構(gòu)化或半結(jié)構(gòu)化的利赋。讓我們看看下圖中的數(shù)據(jù)趨勢(shì),該趨勢(shì)表明猩系,到2020年媚送,將有80%以上的數(shù)據(jù)是非結(jié)構(gòu)化的。
此數(shù)據(jù)是從不同來源生成的寇甸,例如財(cái)務(wù)日志塘偎,文本文件,多媒體表格拿霉,傳感器和工具吟秩。簡(jiǎn)單的BI工具無法處理如此龐大的數(shù)據(jù)量。這就是為什么我們需要更復(fù)雜和高級(jí)的分析工具和算法來處理绽淘,分析和汲取有意義的見解的原因涵防。
這不是數(shù)據(jù)科學(xué)如此受歡迎的唯一原因。讓我們更深入地了解數(shù)據(jù)科學(xué)如何在各個(gè)領(lǐng)域中使用沪铭。
如何從現(xiàn)有數(shù)據(jù)(例如客戶的過去瀏覽歷史壮池,購(gòu)買歷史,年齡和收入)中了解客戶的確切要求杀怠,該怎么辦椰憋?毫無疑問,您也早先擁有了所有這些數(shù)據(jù)赔退,但是現(xiàn)在有了大量和各種各樣的數(shù)據(jù)橙依,您可以更有效地訓(xùn)練模型,并以更高的精度向客戶推薦產(chǎn)品硕旗。因?yàn)樗鼘槟慕M織帶來更多業(yè)務(wù)窗骑,這會(huì)令人驚訝嗎?
讓我們采用另一種情況來了解數(shù)據(jù)科學(xué)在決策中的作用卵渴。如果您的汽車具有將您開車回家的智能,該怎么辦鲤竹?自動(dòng)駕駛汽車從傳感器收集實(shí)時(shí)數(shù)據(jù)浪读,包括雷達(dá),攝像機(jī)和激光辛藻,以繪制周圍環(huán)境的地圖碘橘。基于這些數(shù)據(jù)吱肌,它可以使用先進(jìn)的機(jī)器學(xué)習(xí)算法來做出決策痘拆,例如何時(shí)加速,何時(shí)減速氮墨,何時(shí)超車纺蛆,何時(shí)轉(zhuǎn)向吐葵。
讓我們看看如何在預(yù)測(cè)分析中使用數(shù)據(jù)科學(xué)。讓我們以天氣預(yù)報(bào)為例桥氏∥虑停可以收集并分析來自船舶,飛機(jī)字支,雷達(dá)凤藏,衛(wèi)星的數(shù)據(jù),以建立模型堕伪。這些模型不僅可以預(yù)測(cè)天氣揖庄,而且可以預(yù)測(cè)任何自然災(zāi)害的發(fā)生。它將幫助您事先采取適當(dāng)措施并挽救許多寶貴的生命欠雌。
讓我們看一下下面的信息圖蹄梢,以查看Data Science為其創(chuàng)造印象的所有領(lǐng)域。
現(xiàn)在您已經(jīng)了解了數(shù)據(jù)科學(xué)的需求桨昙,讓我們了解什么是數(shù)據(jù)科學(xué)检号。
什么是數(shù)據(jù)科學(xué)?
術(shù)語“數(shù)據(jù)科學(xué)”的使用越來越普遍蛙酪,但是它的確切含義是什么齐苛?您需要什么技能才能成為數(shù)據(jù)科學(xué)家? BI和數(shù)據(jù)科學(xué)之間有什么區(qū)別桂塞?數(shù)據(jù)科學(xué)如何做出決策和預(yù)測(cè)凹蜂?這些是將進(jìn)一步回答的一些問題。
首先阁危,讓我們看看什么是數(shù)據(jù)科學(xué)玛痊。數(shù)據(jù)科學(xué)融合了各種工具,算法和機(jī)器學(xué)習(xí)原理狂打,旨在從原始數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式擂煞。這與統(tǒng)計(jì)學(xué)家多年來所做的有何不同?
答案在于解釋和預(yù)測(cè)之間的差異趴乡。
從上圖可以看到对省,Data Analyst通常通過處理數(shù)據(jù)的歷史來解釋發(fā)生了什么。另一方面晾捏,數(shù)據(jù)科學(xué)家不僅進(jìn)行探索性分析以從中發(fā)現(xiàn)見解蒿涎,而且還使用各種先進(jìn)的機(jī)器學(xué)習(xí)算法來識(shí)別將來特定事件的發(fā)生。數(shù)據(jù)科學(xué)家會(huì)從多個(gè)角度(有時(shí)是以前未知的角度)查看數(shù)據(jù)惦辛。
因此劳秋,數(shù)據(jù)科學(xué)主要用于通過預(yù)測(cè)因果分析,說明性分析(預(yù)測(cè)性與決策科學(xué))和機(jī)器學(xué)習(xí)來做出決策和預(yù)測(cè)。
預(yù)測(cè)因果分析–如果您需要一個(gè)可以預(yù)測(cè)未來特定事件可能性的模型玻淑,則需要應(yīng)用預(yù)測(cè)因果分析嗽冒。假設(shè),如果您要提供信貸岁忘,那么客戶按時(shí)還款的可能性就值得您關(guān)注辛慰。在這里,您可以構(gòu)建一個(gè)模型干像,該模型可以對(duì)客戶的付款歷史記錄執(zhí)行預(yù)測(cè)分析帅腌,以預(yù)測(cè)將來的付款是否按時(shí)進(jìn)行。
規(guī)范分析:如果您想要一個(gè)具有自行決策能力并能夠使用動(dòng)態(tài)參數(shù)進(jìn)行修改的模型麻汰,那么您當(dāng)然需要對(duì)其進(jìn)行規(guī)范分析速客。這個(gè)相對(duì)較新的領(lǐng)域就是提供建議。換句話說五鲫,它不僅可以預(yù)測(cè)溺职,而且可以建議一系列規(guī)定的動(dòng)作和相關(guān)的結(jié)果。
最好的例子是Google的自動(dòng)駕駛汽車位喂,我之前也曾討論過浪耘。車輛收集的數(shù)據(jù)可用于訓(xùn)練自動(dòng)駕駛汽車。您可以在此數(shù)據(jù)上運(yùn)行算法以為其帶來智能塑崖。這將使您的汽車能夠做出決定七冲,例如何時(shí)轉(zhuǎn)彎,走哪條道路规婆,何時(shí)減速或加速澜躺。
機(jī)器學(xué)習(xí)來進(jìn)行預(yù)測(cè)-如果您擁有金融公司的交易數(shù)據(jù),并且需要建立模型來確定未來趨勢(shì)抒蚜,那么機(jī)器學(xué)習(xí)算法是最好的選擇掘鄙。這屬于監(jiān)督學(xué)習(xí)的范式。之所以稱為有監(jiān)督的嗡髓,是因?yàn)槟呀?jīng)有了可以訓(xùn)練機(jī)器的基礎(chǔ)數(shù)據(jù)操漠。例如,可以使用欺詐性購(gòu)買的歷史記錄來訓(xùn)練欺詐性檢測(cè)模型饿这。
用于模式發(fā)現(xiàn)的機(jī)器學(xué)習(xí)-如果您沒有可用于進(jìn)行預(yù)測(cè)的基礎(chǔ)參數(shù)浊伙,那么您需要找出數(shù)據(jù)集中的隱藏模式以進(jìn)行有意義的預(yù)測(cè)。這就是無人監(jiān)督的模型蛹稍,因?yàn)槟鷽]有任何用于分組的預(yù)定義標(biāo)簽吧黄。模式發(fā)現(xiàn)最常用的算法是聚類部服。
假設(shè)您在一家電話公司中工作唆姐,并且需要通過在某個(gè)區(qū)域放置信號(hào)塔來建立網(wǎng)絡(luò)。然后廓八,您可以使用聚類技術(shù)找到那些信號(hào)塔位置奉芦,以確保所有用戶都能獲得最佳信號(hào)強(qiáng)度赵抢。
讓我們看看上述方法在數(shù)據(jù)分析和數(shù)據(jù)科學(xué)中所占的比例有何不同。如下圖所示声功,數(shù)據(jù)分析在一定程度上包括描述性分析和預(yù)測(cè)烦却。另一方面,數(shù)據(jù)科學(xué)更多地涉及預(yù)測(cè)因果分析和機(jī)器學(xué)習(xí)先巴。
我相信您可能也聽說過商業(yè)智能(BI)其爵。數(shù)據(jù)科學(xué)常常與BI混淆霎槐。我將陳述兩者之間的簡(jiǎn)潔明了的對(duì)比侨歉,這將有助于您更好地理解。我們來看一下错蝴。
商業(yè)智能(BI)與數(shù)據(jù)科學(xué)
BI基本上會(huì)分析先前的數(shù)據(jù)剂邮,以找到事后的見解和見解來描述業(yè)務(wù)趨勢(shì)摇幻。 BI使您能夠從外部和內(nèi)部來源獲取數(shù)據(jù),進(jìn)行準(zhǔn)備挥萌,在其上運(yùn)行查詢以及創(chuàng)建儀表板來回答諸如季度收入分析或業(yè)務(wù)問題之類的問題绰姻。 BI可以在不久的將來評(píng)估某些事件的影響。
數(shù)據(jù)科學(xué)是一種更具前瞻性的方法引瀑,是一種探索性方法狂芋,重點(diǎn)在于分析過去或當(dāng)前數(shù)據(jù)并預(yù)測(cè)未來結(jié)果,以做出明智的決策伤疙。它回答了有關(guān)“什么”和“如何”事件發(fā)生的開放式問題银酗。
讓我們看一些對(duì)比功能。
這就是什么是數(shù)據(jù)科學(xué)徒像,現(xiàn)在讓我們了解數(shù)據(jù)科學(xué)的生命周期黍特。
數(shù)據(jù)科學(xué)項(xiàng)目中的一個(gè)常見錯(cuò)誤是在不了解需求甚至無法正確地構(gòu)架業(yè)務(wù)問題的情況下匆匆進(jìn)入數(shù)據(jù)收集和分析。因此锯蛀,對(duì)于您而言灭衷,在數(shù)據(jù)科學(xué)的整個(gè)生命周期中遵循所有階段以確保項(xiàng)目的順利運(yùn)行非常重要。
數(shù)據(jù)科學(xué)的生命周期
以下是數(shù)據(jù)科學(xué)生命周期主要階段的簡(jiǎn)要概述:
第1階段-發(fā)現(xiàn):在開始項(xiàng)目之前旁涤,了解各種規(guī)格翔曲,要求,優(yōu)先級(jí)和所需預(yù)算很重要劈愚。您必須具備提出正確問題的能力瞳遍。在這里,您可以評(píng)估您是否在人力菌羽,技術(shù)掠械,時(shí)間和數(shù)據(jù)方面都具備支持項(xiàng)目所需的資源。在此階段,您還需要確定業(yè)務(wù)問題并制定初步假設(shè)(IH)進(jìn)行測(cè)試猾蒂。
第2階段-數(shù)據(jù)準(zhǔn)備:在此階段均唉,您需要分析沙箱,您可以在其中對(duì)項(xiàng)目的整個(gè)持續(xù)時(shí)間進(jìn)行分析肚菠。您需要在建模之前瀏覽舔箭,預(yù)處理和調(diào)整數(shù)據(jù)。此外蚊逢,您將執(zhí)行ETLT(提取层扶,轉(zhuǎn)換,加載和轉(zhuǎn)換)以將數(shù)據(jù)獲取到沙箱中烙荷。讓我們看一下下面的統(tǒng)計(jì)分析流程怒医。
您可以使用R進(jìn)行數(shù)據(jù)清理,轉(zhuǎn)換和可視化奢讨。這將幫助您發(fā)現(xiàn)異常值并在變量之間建立關(guān)系稚叹。清理并準(zhǔn)備好數(shù)據(jù)后,就該對(duì)數(shù)據(jù)進(jìn)行探索性分析了拿诸。讓我們看看如何實(shí)現(xiàn)這一目標(biāo)扒袖。
第3階段-模型規(guī)劃:數(shù)據(jù)科學(xué)模型規(guī)劃-Edureka在這里,您將確定繪制變量之間關(guān)系的方法和技術(shù)亩码。這些關(guān)系將為您將在下一階段實(shí)現(xiàn)的算法奠定基礎(chǔ)季率。您將使用各種統(tǒng)計(jì)公式和可視化工具來應(yīng)用探索性數(shù)據(jù)分析(EDA)。
讓我們看一下各種模型規(guī)劃工具描沟。
R具有完整的建模功能飒泻,并為構(gòu)建解釋模型提供了良好的環(huán)境。
SQL Analysis Services可以使用常見的數(shù)據(jù)挖掘功能和基本預(yù)測(cè)模型來執(zhí)行數(shù)據(jù)庫(kù)內(nèi)分析吏廉。
SAS / ACCESS可用于從Hadoop訪問數(shù)據(jù)泞遗,并用于創(chuàng)建可重復(fù)和可重用的模型流程圖。
盡管市場(chǎng)上有很多工具席覆,但是R是最常用的工具史辙。
現(xiàn)在,您已經(jīng)洞悉了數(shù)據(jù)的性質(zhì)佩伤,并決定了要使用的算法聊倔。在下一階段,您將應(yīng)用算法并建立模型生巡。
階段4-模型構(gòu)建:在此階段中耙蔑,您將開發(fā)用于訓(xùn)練和測(cè)試目的的數(shù)據(jù)集。您將考慮您現(xiàn)有的工具是否足以運(yùn)行模型孤荣,或者是否需要更強(qiáng)大的環(huán)境(例如快速和并行處理)甸陌。您將分析各種學(xué)習(xí)技術(shù)徐鹤,例如分類,關(guān)聯(lián)和聚類以構(gòu)建模型邀层。
您可以通過以下工具實(shí)現(xiàn)模型構(gòu)建。
階段5-操作化:數(shù)據(jù)科學(xué)的操作-Edureka在此階段遂庄,您將提供最終報(bào)告寥院,簡(jiǎn)介,代碼和技術(shù)文檔涛目。此外秸谢,有時(shí)還會(huì)在實(shí)時(shí)生產(chǎn)環(huán)境中實(shí)施試點(diǎn)項(xiàng)目。在全面部署之前霹肝,這將為您提供小規(guī)模的性能和其他相關(guān)約束的清晰畫面估蹄。
數(shù)據(jù)科學(xué)中的交流-Edureka階段6-傳遞結(jié)果:現(xiàn)在,重要的是評(píng)估您是否能夠?qū)崿F(xiàn)您在第一階段中計(jì)劃的目標(biāo)沫换。因此臭蚁,在最后一個(gè)階段中,您將確定所有關(guān)鍵發(fā)現(xiàn)讯赏,與利益相關(guān)者進(jìn)行交流垮兑,并根據(jù)第1階段中制定的標(biāo)準(zhǔn)確定項(xiàng)目的結(jié)果是成功還是失敗。