數(shù)據(jù)分析(2):數(shù)據(jù)分析的方法論

我們說數(shù)據(jù)分析要有目的進(jìn)行分析,實(shí)際上我們?cè)谄匠5墓ぷ髦衅飞剑瑳]有學(xué)過數(shù)據(jù)分析也能靠直覺推斷出一些數(shù)據(jù)產(chǎn)生的原因述雾。那么為什么還要進(jìn)行數(shù)據(jù)分析的學(xué)習(xí)呢街州?也就是說,數(shù)據(jù)分析玻孟,到底在學(xué)什么唆缴?其實(shí)我認(rèn)為如果是在初創(chuàng)團(tuán)隊(duì)中,確實(shí)無需使用太專業(yè)的數(shù)據(jù)分析方法黍翎,因?yàn)橥鶖?shù)據(jù)不足面徽。但是如果你掌握了數(shù)據(jù)分析的方法,就能夠在產(chǎn)品的初期設(shè)計(jì)合理的埋點(diǎn)匣掸,要知道現(xiàn)在很多產(chǎn)品在早期是沒有這個(gè)意識(shí)的趟紊,于是等產(chǎn)品成熟了再去做這件事是極其痛苦的。所以也才催生了類如諸葛IO這樣的“無埋點(diǎn)”數(shù)據(jù)分析的產(chǎn)品碰酝≈簦“無埋點(diǎn)”只能收集到很淺層次的數(shù)據(jù),如點(diǎn)擊數(shù)據(jù)砰粹,IP/PV等唧躲,業(yè)務(wù)層面就無法統(tǒng)計(jì)。而且存在著不穩(wěn)定性碱璃,從技術(shù)上講就是說如果用戶使用了一些奇奇怪怪的瀏覽器(例如低版本的IE)的話弄痹,很可能無埋點(diǎn)的代碼就無法運(yùn)行,造成原始數(shù)據(jù)的偏差嵌器。說了這么多肛真,回到話題塑娇,學(xué)習(xí)數(shù)據(jù)分析愤兵,我們能夠:

1.培養(yǎng)數(shù)據(jù)意識(shí),提升產(chǎn)品規(guī)劃能力。
2.培養(yǎng)數(shù)據(jù)敏感性消玄,提高洞察力。
3.能夠數(shù)據(jù)中發(fā)現(xiàn)不容易通過直覺發(fā)現(xiàn)的足絲馬跡洒缀,發(fā)現(xiàn)潛在的可能米死。
4.掌握一門通用的硬技能,輔助需求挖掘趟卸、業(yè)務(wù)分析蹄葱。
等等

接下來我們進(jìn)入正題:數(shù)據(jù)分析的方法論。

一般來說數(shù)據(jù)分析可以從兩個(gè)學(xué)科出發(fā)锄列,一個(gè)是數(shù)理統(tǒng)計(jì)學(xué)图云,另一個(gè)是營銷理論。本文將主要從數(shù)理統(tǒng)計(jì)學(xué)著手介紹邻邮,因?yàn)闋I銷理論(就是我們常見的5w2h竣况,PEST分析等等方法論)的掌握,更多是思維框架的掌握筒严,而真正能夠通曉營銷理論的丹泉,需要大量的經(jīng)驗(yàn)積累。而數(shù)理統(tǒng)計(jì)學(xué)是工具萝风,可以手到擒來嘀掸,馬上就用的。

上篇文章講到规惰,數(shù)據(jù)分析大致可以分為描述性分析睬塌、診斷性分析、預(yù)測(cè)性分析歇万,同樣的數(shù)據(jù)分析的方法論也大致分為:描述性數(shù)據(jù)分析揩晴、數(shù)理統(tǒng)計(jì)分析、數(shù)據(jù)挖掘分析

本篇文章將就此展開談?wù)勥@三種數(shù)據(jù)分析方法論(方法論沒有好壞高低之分贪磺,只有合適的硫兰。根據(jù)業(yè)務(wù)場景來選擇合適的分析方法。一定要以目標(biāo)為導(dǎo)向寒锚,并不是手法越高級(jí)就越好劫映。能用簡單分析的就不需要使用大數(shù)據(jù)挖掘。)

一刹前、描述性數(shù)據(jù)分析方法

描述性數(shù)據(jù)分析可以用一言蔽之”一句話描述數(shù)據(jù)“泳赋。我們平時(shí)說的,這個(gè)月的平均訪問量是多少喇喉,環(huán)比增長了多少祖今。用戶平均付費(fèi)是多少,中位數(shù)是多少,眾位數(shù)是多少千诬,四分位數(shù)是多少都屬于描述性統(tǒng)計(jì)分析耍目。描述數(shù)據(jù)的集中趨勢(shì)還可以用方差、標(biāo)準(zhǔn)差徐绑。用一個(gè)指標(biāo)邪驮,一句話概括數(shù)據(jù)特點(diǎn)。描述數(shù)據(jù)之間的簡單關(guān)系可以用相關(guān)性分析泵三,如轉(zhuǎn)化率和用戶停留時(shí)間的正相關(guān)的(距離耕捞,以實(shí)際為準(zhǔn)衔掸。一般也是這樣烫幕。)這邊大家都比較熟悉,不過多介紹敞映。

二较曼、數(shù)理統(tǒng)計(jì)分析方法

數(shù)理統(tǒng)計(jì)涉及較多的數(shù)學(xué)知識(shí),但是其實(shí)常用的也就是概率論和微積分振愿,本科的知識(shí)稍微復(fù)習(xí)一下還是容易掌握的捷犹。微積分只需要用到一元積分,用于計(jì)算概率分布冕末。統(tǒng)計(jì)學(xué)中有許許多多的內(nèi)容萍歉,在數(shù)據(jù)分析中,并不是所有都需要掌握档桃。因?yàn)槲覀儾皇窃谧鰧?shí)驗(yàn)室里科學(xué)實(shí)驗(yàn)的數(shù)據(jù)分析枪孩。

1.方差分析

方差分析,又稱為F檢驗(yàn)藻肄。作用是研究因素對(duì)于數(shù)值型變量的影響蔑舞。例如想要知道某次改版對(duì)于轉(zhuǎn)化率是否有顯著影響,可能從宏觀上看增長的數(shù)值不大嘹屯,看不大出來影響有多大攻询,這時(shí)候就可以用方差分析做對(duì)于改版這個(gè)因素的單因素方差分析。

2.回歸分析

回歸分析比較好理解州弟,簡單的說就是尋找到一個(gè)函數(shù)來擬合自變量和因變量的關(guān)系钧栖。例如想要做一次活動(dòng),假設(shè)優(yōu)惠的價(jià)格x婆翔,銷售額為y拯杠。這兩者之間可能存在y=x+1(純舉例)這樣的函數(shù)關(guān)系式≌懵耍回歸分析就是要找出這樣的函數(shù)關(guān)系阴挣,來指導(dǎo)活動(dòng)的運(yùn)營,提升ROI纺腊。

3.因子分析

因子分析即從大量的變量中尋找共性因子的統(tǒng)計(jì)方法畔咧,因子表現(xiàn)為一種表征茎芭,通常是多個(gè)變量的集合。因子分析可以簡化數(shù)據(jù)誓沸,所以是一種降維的方式梅桩。常用的因子分析方法有重心法、最小平方法拜隧、最大似然法等宿百。

三、數(shù)據(jù)挖掘分析方法

數(shù)據(jù)挖掘源于統(tǒng)計(jì)機(jī)器學(xué)習(xí)洪添,還有人工智能的方法垦页。之前寫過的人工智能相關(guān)的文章中有提到,AI=數(shù)據(jù)+算法=模型干奢。數(shù)據(jù)挖掘也就是利用算法從數(shù)據(jù)中尋找規(guī)律痊焊。因?yàn)槲覀儾⒉荒芸偸悄苡贸R姷暮瘮?shù)去擬合所有的規(guī)律,而太復(fù)雜的規(guī)律通過人工根本就是無法進(jìn)行計(jì)算的忿峻。那么機(jī)器學(xué)習(xí)就可以做到薄啥。機(jī)器學(xué)習(xí)的原理其實(shí)就是定義一個(gè)損失函數(shù),可以把損失函數(shù)簡單理解為錯(cuò)誤率逛尚。然后枚舉所有的情況垄惧,找到錯(cuò)誤率最低的模型。用在數(shù)據(jù)挖掘中绰寞,我們可以用到的機(jī)器學(xué)習(xí)算法一般有:

1.聚類分析

俗話說到逊,物以類聚。聚類分析是一種探索性的分析方法克握,由機(jī)器無監(jiān)督地將樣本數(shù)據(jù)進(jìn)行分類蕾管,再觀察其特征,從而幫助發(fā)現(xiàn)潛在的共性菩暗。聚類分析的方式也有很多掰曾,用不同方式進(jìn)行的聚類分析結(jié)果也不盡相同。

2.分類

分類應(yīng)該是機(jī)器學(xué)習(xí)停团、人工智能中應(yīng)用最廣泛的了旷坦。例如NLP中的情感分析、文章分類佑稠,CV中的醫(yī)療影像診斷秒梅,物品識(shí)別等等。又扯遠(yuǎn)了舌胶,回到數(shù)據(jù)分析捆蜀,常用于數(shù)據(jù)挖掘的分類算法有:

1)決策樹

決策樹直觀上的理解就是從樣本建立分支規(guī)則。舉個(gè)簡單的例子,同事A有時(shí)候遲到有時(shí)候不遲到辆它,你觀察到如果下雨了誊薄。A就遲到。如果沒有下雨锰茉,A就不遲到呢蔫。主管只有在周一和周三在,如果主管在A就要挨罵了飒筑。那么用決策樹來預(yù)測(cè)A是否會(huì)挨罵(以上例子純屬YY)就是:

能夠構(gòu)造這樣的決策數(shù)據(jù)的常用算法有C4.5片吊、CART、CHAID协屡、ID3等俏脊。

決策時(shí)擅長處理離散數(shù)據(jù),并可以直觀出其中的關(guān)鍵變量著瓶。決策樹生成的規(guī)則也容易被人所理解联予。接下去要講的神經(jīng)網(wǎng)絡(luò)就不是人可以理解的了啼县。

2)人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是個(gè)黑箱模型材原,神經(jīng)網(wǎng)絡(luò)是類似于大腦神經(jīng)突觸連接的形式,僅僅是類似季眷,不能把它理解得過于玄乎余蟹,本質(zhì)上和腦神經(jīng)的運(yùn)作方式是相差很大的。人工神經(jīng)網(wǎng)絡(luò)包括輸入層子刮、輸出層威酒、隱藏層。其中隱藏層就是就是對(duì)輸入層的輸入進(jìn)行各種加權(quán)互聯(lián)挺峡,最終得出最逼近訓(xùn)練集的結(jié)果葵孤。理論上可以逼近任何非線性的關(guān)系。能夠充分考慮到數(shù)據(jù)的各種特征橱赠。

3)貝葉斯分類器

是否還記得貝葉斯公式

只要知道P(Y)尤仍、P(X)、P(X|Y)就能知道P(Y|X)的值了狭姨。前3個(gè)值可以通過歷史數(shù)據(jù)得到先驗(yàn)概率宰啦,在先驗(yàn)概率的基礎(chǔ)上就能對(duì)新的事件(數(shù)據(jù))進(jìn)行后驗(yàn)概率的計(jì)算。

4)支持向量機(jī)

SVM饼拍,是機(jī)器學(xué)習(xí)的重大成果赡模。SVM將非線性的數(shù)據(jù)將數(shù)據(jù)映射到一個(gè)高維空間,在新的維度上师抄,搜索一個(gè)線性最佳超平面漓柑,兩類數(shù)據(jù)總是能夠被超平面分開。

5)隨機(jī)森林

隨機(jī)森林有著較高的準(zhǔn)確率,魯棒性也好辆布。隨機(jī)森林運(yùn)用bootstrap方法從原始樣本中抽取樣本栋豫,對(duì)每個(gè)樣本進(jìn)行決策樹建模,然后將決策樹組合谚殊,對(duì)每個(gè)決策樹分類出來的結(jié)果進(jìn)行一種投票統(tǒng)計(jì)丧鸯,最終得出分類結(jié)果。這個(gè)方式很形象的被叫做隨機(jī)森林嫩絮。

3.關(guān)聯(lián)規(guī)則

舉個(gè)例子就能明白什么是關(guān)聯(lián)規(guī)則了丛肢。大家都知道的“啤酒與尿布”的例子,關(guān)聯(lián)規(guī)則算法能夠找出多次重復(fù)剿干、同時(shí)出現(xiàn)的關(guān)系蜂怎。

4.回歸分析

描述性分析中也有回歸分析,這邊回歸和描述性分析中回歸的區(qū)別主要是置尔,這里指的是多元線性回歸和邏輯斯蒂回歸杠步。典型的回歸問題是運(yùn)費(fèi)計(jì)算的問題, 快遞運(yùn)費(fèi)受地區(qū)榜轿、重量幽歼、物品類型、運(yùn)送方式等多種因素的影響谬盐,這時(shí)候可以使用多元線性回歸來分析他們之間的關(guān)系甸私。

本次的分享就到這里,本文大概梳理了統(tǒng)計(jì)數(shù)據(jù)分析的方法論飞傀,接下去的系列文章將會(huì)逐個(gè)對(duì)各種方式進(jìn)行介紹皇型。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市砸烦,隨后出現(xiàn)的幾起案子弃鸦,更是在濱河造成了極大的恐慌,老刑警劉巖幢痘,帶你破解...
    沈念sama閱讀 211,948評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件唬格,死亡現(xiàn)場離奇詭異,居然都是意外死亡雪隧,警方通過查閱死者的電腦和手機(jī)西轩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來脑沿,“玉大人藕畔,你說我怎么就攤上這事∽矗” “怎么了注服?”我有些...
    開封第一講書人閱讀 157,490評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵韭邓,是天一觀的道長。 經(jīng)常有香客問我溶弟,道長女淑,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,521評(píng)論 1 284
  • 正文 為了忘掉前任辜御,我火速辦了婚禮鸭你,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘擒权。我一直安慰自己袱巨,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評(píng)論 6 386
  • 文/花漫 我一把揭開白布碳抄。 她就那樣靜靜地躺著愉老,像睡著了一般。 火紅的嫁衣襯著肌膚如雪剖效。 梳的紋絲不亂的頭發(fā)上嫉入,一...
    開封第一講書人閱讀 49,842評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音璧尸,去河邊找鬼咒林。 笑死,一個(gè)胖子當(dāng)著我的面吹牛逗宁,可吹牛的內(nèi)容都是我干的映九。 我是一名探鬼主播,決...
    沈念sama閱讀 38,997評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼瞎颗,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了捌议?” 一聲冷哼從身側(cè)響起哼拔,我...
    開封第一講書人閱讀 37,741評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎瓣颅,沒想到半個(gè)月后倦逐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,203評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡宫补,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評(píng)論 2 327
  • 正文 我和宋清朗相戀三年檬姥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片粉怕。...
    茶點(diǎn)故事閱讀 38,673評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡健民,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出贫贝,到底是詐尸還是另有隱情秉犹,我是刑警寧澤蛉谜,帶...
    沈念sama閱讀 34,339評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站崇堵,受9級(jí)特大地震影響型诚,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鸳劳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評(píng)論 3 313
  • 文/蒙蒙 一狰贯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧赏廓,春花似錦暮现、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至抚太,卻和暖如春塘幅,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背尿贫。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評(píng)論 1 266
  • 我被黑心中介騙來泰國打工电媳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人庆亡。 一個(gè)月前我還...
    沈念sama閱讀 46,394評(píng)論 2 360
  • 正文 我出身青樓匾乓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親又谋。 傳聞我的和親對(duì)象是個(gè)殘疾皇子拼缝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容