大數(shù)據(jù)科技將顛覆人們現(xiàn)有的做事邏輯涮因。過(guò)去一般都是先想好目的奸汇,再去獲取相應(yīng)的信息县钥;而到大數(shù)據(jù)科技的普及秀姐,思維方式則變成了先盡可能多地占有信息,遇到問(wèn)題時(shí)再?gòu)暮A啃畔⒅刑剿鹘鉀Q方案若贮。
數(shù)據(jù)的應(yīng)用起源于17世紀(jì)
17世紀(jì)時(shí)英國(guó)約克大學(xué)學(xué)者在鼠疫期間利用教區(qū)死亡人數(shù)推斷出當(dāng)時(shí)倫敦的總?cè)丝谑∮校瑪?shù)據(jù)分析的實(shí)質(zhì)得以應(yīng)用;
二戰(zhàn)時(shí)谴麦,美國(guó)軍方通過(guò)研究飛機(jī)的受損部位蠢沿,發(fā)現(xiàn)飛機(jī)的油箱和駕駛員倉(cāng)位才是真正致命的地方,通過(guò)改進(jìn)大大提高了飛機(jī)的抗打擊力量匾效,數(shù)據(jù)分析在實(shí)戰(zhàn)中發(fā)揮了作用舷蟀;
1962年美國(guó)統(tǒng)計(jì)學(xué)家John W.Tukey在一篇文章《The Future of Data Analysis》中,正式提出了數(shù)據(jù)分析這一學(xué)科面哼,數(shù)據(jù)分析成為一門科學(xué)野宜;
步入21世紀(jì),人類進(jìn)入了互聯(lián)網(wǎng)時(shí)代魔策,同時(shí)也進(jìn)入了大數(shù)據(jù)時(shí)代匈子,以兆為單位的數(shù)據(jù)集大量涌現(xiàn),數(shù)據(jù)分析的作用日益凸顯闯袒。
傳統(tǒng)行業(yè)虎敦,如銷售(通過(guò)數(shù)據(jù)分析做銷售規(guī)劃和預(yù)測(cè))、研發(fā)(用數(shù)據(jù)分析支撐各種論點(diǎn))政敢、財(cái)務(wù)(財(cái)務(wù)分析其徙、預(yù)測(cè))、金融(風(fēng)控)喷户、物流(優(yōu)化供應(yīng)鏈)等都越來(lái)越依賴數(shù)據(jù)分析唾那。例如花旗銀行就在其旗下的財(cái)富管理產(chǎn)品中搜集并研究用戶點(diǎn)擊情況,根據(jù)用戶行為推薦特色化產(chǎn)品摩骨,大大提高了用戶體驗(yàn)效率和購(gòu)買率通贞。
新興的互聯(lián)網(wǎng)領(lǐng)域中,美國(guó)硅谷的高科技公司早在上個(gè)世紀(jì)便開(kāi)始設(shè)立數(shù)據(jù)分析的相關(guān)職位恼五,研究企業(yè)各項(xiàng)數(shù)據(jù)的變化昌罩,為企業(yè)決策提供依據(jù);國(guó)內(nèi)互聯(lián)網(wǎng)巨頭也紛紛將大數(shù)據(jù)分析作為發(fā)展重點(diǎn)灾馒,例如字節(jié)跳動(dòng)就利用從用戶的行為數(shù)據(jù)提取幾百個(gè)高維特征茎用,并經(jīng)過(guò)一系列處理包括降維、相似計(jì)算睬罗、聚類/分類轨功、LDA分析等,最終實(shí)現(xiàn)5秒計(jì)算出用戶興趣容达,吸引了大量的用戶古涧,打破了傳統(tǒng)的互聯(lián)網(wǎng)媒體格局。
隨著互聯(lián)網(wǎng)行業(yè)競(jìng)爭(zhēng)進(jìn)入紅海花盐,越來(lái)越多的公司開(kāi)始關(guān)注數(shù)據(jù)分析來(lái)挖掘前期爆發(fā)式增長(zhǎng)所帶來(lái)的剩余價(jià)值羡滑,這也是互聯(lián)網(wǎng)行業(yè)這兩年才出現(xiàn)的爆發(fā)式增長(zhǎng)的需求。百度算芯、阿里巴巴和騰訊(BAT)這樣的大公司柒昏,都在不斷囤積數(shù)據(jù),為未來(lái)發(fā)展進(jìn)行儲(chǔ)備寶貴的資源熙揍。
大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉职祷、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力届囚、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量有梆、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
多樣化(Variety):大數(shù)據(jù)中意系,數(shù)據(jù)的種類和格式多種多樣淳梦。
大量化(Volumn):數(shù)據(jù)的數(shù)量級(jí)大,通常難以用一般方法處理昔字。
快速化(Velocity):數(shù)據(jù)存在時(shí)效性爆袍,需要在短時(shí)間內(nèi)處理。
價(jià)值(Value):價(jià)值密度低作郭,大量數(shù)據(jù)中有價(jià)值的數(shù)據(jù)少陨囊。
數(shù)據(jù)研究分析的三個(gè)方面
全球知名咨詢公司麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域夹攒,成為重要的生產(chǎn)要素蜘醋。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)盈余浪潮的到來(lái)咏尝⊙褂铮”顯而易見(jiàn)啸罢,數(shù)據(jù)分析行業(yè)將伴隨著其他行業(yè)在未來(lái)中長(zhǎng)期存在并不斷發(fā)展。目前胎食,我們通常從三個(gè)層面對(duì)數(shù)據(jù)進(jìn)行研究和分析扰才。
描述性分析(Descriptive Data Analysis,DDA) —— 發(fā)生了什么厕怜?
描述性分析指采取表格衩匣、圖形或數(shù)值的形式匯總數(shù)據(jù)的統(tǒng)計(jì)方法,使得統(tǒng)計(jì)數(shù)據(jù)更加容易理解粥航。描述性數(shù)據(jù)分析屬于比較初級(jí)的數(shù)據(jù)分析琅捏,常見(jiàn)的分析方法包括對(duì)比分析法、平均分析法递雀、交叉分析法等柄延。描述性統(tǒng)計(jì)分析要對(duì)調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計(jì)性描述,主要包括數(shù)據(jù)的頻數(shù)分析缀程、數(shù)據(jù)的集中趨勢(shì)分析拦焚、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布杠输、以及一些基本的統(tǒng)計(jì)圖形赎败。例如,描述某行業(yè)去年各個(gè)季度銷售額變化蠢甲,描述某行業(yè)上市公司過(guò)去十年平均PE值變化等僵刮。
描述性統(tǒng)計(jì)量的基本分類
集中趨勢(shì)的描述性統(tǒng)計(jì)量:均值、中位數(shù)以及眾數(shù)
離散程度的描述性統(tǒng)計(jì)量:最大值和最小值鹦牛、極差搞糕、方差和標(biāo)準(zhǔn)差
分布形態(tài)的描述性統(tǒng)計(jì)量:峰度以及偏度
探索性分析(Exploratory Data Analysis,EDA)—— 為什么發(fā)生曼追?
探索性分析指通過(guò)查看數(shù)據(jù)的分布遂鹊,比較數(shù)據(jù)之間的關(guān)系驼卖,對(duì)數(shù)據(jù)的分布形態(tài)與關(guān)系進(jìn)行解讀與闡釋。探索性數(shù)據(jù)分析的步驟一般包括:提出假設(shè)、處理數(shù)據(jù)忆谓、選用模型罗丰、論證假設(shè)而芥。 探索性分析中一般會(huì)需要以下的數(shù)據(jù)處理方法:數(shù)據(jù)檢查(數(shù)據(jù)中是否有缺失值可都,是否有異常值,是否有重復(fù)值以及選擇處理這些數(shù)據(jù)的方法)婚陪、變量研究(找出數(shù)據(jù)的平均值族沃,中位數(shù),眾數(shù),最小值脆淹,最大值常空,四分位數(shù),標(biāo)準(zhǔn)差等統(tǒng)計(jì)學(xué)變量盖溺,并嘗試直方圖漓糙,箱線圖等直觀的分析數(shù)據(jù))、分析數(shù)據(jù)間關(guān)系(相關(guān)系數(shù)咐柜,皮爾遜相關(guān)系數(shù)(線性關(guān)系)兼蜈,互信息(非線性關(guān)系)等)攘残、選擇建立模型(通常利用數(shù)學(xué)模型進(jìn)行研究)拙友。
探索性數(shù)據(jù)分析的三步方法
數(shù)據(jù)分類
當(dāng)獲取數(shù)據(jù)后,第一步則是對(duì)數(shù)據(jù)進(jìn)行基本分類歼郭,然后針對(duì)不同類型的數(shù)據(jù)選擇合適的方法遗契。數(shù)據(jù)的類型分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)又可分為定性數(shù)據(jù)和定量數(shù)據(jù)病曾。
數(shù)據(jù)可視化
為了從數(shù)據(jù)中獲取洞察牍蜂,我們可以將數(shù)據(jù)進(jìn)行可視化操作,從而更好地觀察泰涂、分析數(shù)據(jù)的特點(diǎn)鲫竞。常用的可視化方法包括餅圖、曲線圖逼蒙、條形圖从绘、箱型圖等。
洞察數(shù)據(jù)
通過(guò)數(shù)據(jù)的可視化分析是牢,探尋數(shù)據(jù)之間的關(guān)系僵井、重要性以及相互的影響。
探索性數(shù)據(jù)分析就是利用各種技術(shù)手段(大部分都是利用數(shù)據(jù)可視化)探索數(shù)據(jù)內(nèi)部結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法和理念驳棱。
預(yù)測(cè)性數(shù)據(jù)分析(Predictive Data Analysis批什,PDA)—— 未來(lái)會(huì)發(fā)生什么?
預(yù)測(cè)性分析主要是通過(guò)數(shù)據(jù)預(yù)測(cè)未來(lái)可能會(huì)發(fā)生的事情社搅,隨著計(jì)算機(jī)科學(xué)和大數(shù)據(jù)的發(fā)展驻债,預(yù)測(cè)性數(shù)據(jù)分析更加依賴機(jī)器學(xué)習(xí)和時(shí)間序列等算法。 機(jī)器學(xué)習(xí)指專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為形葬,以獲取新的知識(shí)或技能却汉,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能的學(xué)科。機(jī)器學(xué)習(xí)可以分為有監(jiān)督學(xué)習(xí)荷并、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)合砂。其中有監(jiān)督學(xué)習(xí)又可以分為分類模型與回歸模型。
無(wú)監(jiān)督學(xué)習(xí)
主要模型:
1、k-平均算法
2翩伪、分層聚類分析法
3微猖、主成分分析
解釋:數(shù)據(jù)不被特別標(biāo)識(shí),學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)缘屹。
半監(jiān)督學(xué)習(xí)
主要模型:
1凛剥、圖論推理算法
2、拉普拉斯支持向量機(jī)
解釋:輸入數(shù)據(jù)部分被標(biāo)識(shí)轻姿,部分沒(méi)有被標(biāo)識(shí)犁珠,這種學(xué)習(xí)模型可以用來(lái)進(jìn)行預(yù)測(cè),但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)互亮。
監(jiān)督學(xué)習(xí)
主要模型:
1犁享、K-近鄰算法
2、線性回歸
3豹休、邏輯回歸
4炊昆、支持向量機(jī)
5、決策樹(shù)和隨機(jī)森林
解釋:每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)威根,在建立預(yù)測(cè)模型的時(shí)候凤巨,監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過(guò)程,將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較洛搀,不斷的調(diào)整預(yù)測(cè)模型敢茁,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。