數(shù)據(jù)分析方法分為四大類:
1屿脐、單純的數(shù)據(jù)加工方法
a.描述性統(tǒng)計分析(集中、離中趨勢分析和數(shù)據(jù)分布)
b.相關性分析
2、基于數(shù)理統(tǒng)計的數(shù)據(jù)分析方法
方差分析活翩、回歸分析(特指一元線性回歸)烹骨、因子分析
3、基于數(shù)據(jù)挖掘的數(shù)據(jù)分析方法
a.聚類分析
b.分類分析(決策樹纱新、人工神經網絡展氓、貝葉斯分類法、支持向量機隨機森林脸爱、關聯(lián)規(guī)則遇汞、回歸分析)
4、基于大數(shù)據(jù)的數(shù)據(jù)分析方法
與數(shù)據(jù)挖掘使用的工具不同(使用Hadoop簿废、Mathout空入、Spark、Storm)
數(shù)理統(tǒng)計與數(shù)據(jù)挖掘的聯(lián)系:都來源于統(tǒng)計基礎理論族檬,例如概率論和隨機事件歪赢。
數(shù)理統(tǒng)計與數(shù)據(jù)挖掘的區(qū)別:a.數(shù)理統(tǒng)計需要對分布和變量間的關系作假設,數(shù)據(jù)挖掘不對分布作任何假設单料;b.數(shù)理統(tǒng)計在預測中常表現(xiàn)為一組函數(shù)關系式埋凯,數(shù)據(jù)挖掘則重點在于結果,往往沒有得出明確的函數(shù)關系式扫尖。
數(shù)據(jù)分析的目的是為業(yè)務發(fā)展答疑解惑及分析層次白对,涉及公司運營的方方面面,特別是客戶與市場的數(shù)據(jù)分析换怖。
分析的層級:常規(guī)報表甩恼、即席查詢、多維分析(鉆取or OLAP)沉颂、警報条摸、統(tǒng)計分析、預報铸屉、預測型建模钉蒲、優(yōu)化
數(shù)據(jù)挖掘是一種發(fā)現(xiàn)知識的手段,通過合理的方法從數(shù)據(jù)中獲取與數(shù)據(jù)挖掘項目相關的知識抬探。
大數(shù)據(jù)(數(shù)據(jù)挖掘)是對傳統(tǒng)小數(shù)據(jù)分析的擴展:數(shù)據(jù)量(海量)子巾、數(shù)據(jù)精度(下降)、算法(特殊)小压、關注點(關注時間线梗、效率和知識發(fā)現(xiàn),關注相關分析而非因果分析)
CRISP-DM方法論:將項目生命周期分為業(yè)務理解怠益、數(shù)據(jù)理解仪搔、數(shù)據(jù)準備、建模蜻牢、模型評估烤咧、模型發(fā)布偏陪。
SEMMA方法論:定義業(yè)務問題、環(huán)境評估煮嫌、數(shù)據(jù)準備笛谦、循環(huán)挖掘、上線發(fā)布昌阿、檢視饥脑;其中的循環(huán)挖掘包括數(shù)據(jù)整理、樣本探索懦冰、變量修改灶轰、建模、模型檢驗刷钢。
描述性統(tǒng)計分析:
1笋颤、直方圖
易混淆點:常見的是頻數(shù)分布直方圖(長方形的高代表頻數(shù));統(tǒng)計意義上的是頻率分布直方圖(長方形面積=頻數(shù)/組距)内地,無縱向刻度伴澄。
注意點:有的區(qū)間分布本身就不均勻,在水平軸上要按照實際比例劃分區(qū)間阱缓。
2秉版、數(shù)據(jù)的計量尺度
包括定類尺度(性別/民族)、定序尺度(職稱/質量等級)茬祷、定距尺度(攝氏度/緯度)、定比尺度(質量/長度)并蝗。
定距與定比的區(qū)別:定比的“0“表示”沒有“祭犯。
3、數(shù)據(jù)的集中趨勢
a. 平均值
受極端值的影響
b. 分位數(shù)
要先把數(shù)據(jù)按順序排列滚停,常見的有百分位數(shù)(Xp%)沃粗、四分位數(shù)、中位數(shù)键畴。
c. 眾數(shù)
一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的值最盅;有三種情況:無眾數(shù),有一個眾數(shù)起惕,有多個眾數(shù)涡贱。
4、數(shù)據(jù)的離中趨勢
a. 極差(全距)
b. 分位距
四分位距=第三個四分位數(shù)-第一個四分位數(shù)
排除了數(shù)列中兩端各25%的數(shù)值的影響惹想。
c. 平均差
各數(shù)值與算術平均年數(shù)的離差對的絕對值的算術平均數(shù)问词。
d. 方差和標準差
方差的平方根就是標準差(s)。
標準差體現(xiàn)了平均數(shù)的代表性嘀粱,指出了數(shù)值離平均數(shù)有多遠激挪。
e. 離散系數(shù)
標準差之類的數(shù)據(jù)類型有缺點:受計量單位的影響辰狡,受變量平均水平高低的影響(例如數(shù)值的整體絕對值越高,得出的標準差也越大)垄分。
要比較平均水平不同的兩組數(shù)宛篇,就需要用離散系數(shù)。
常見的離散系數(shù):標準差系數(shù)(Vs)=標準差與算術平均數(shù)的百分比薄湿,數(shù)值越小叫倍,波動越小
5、數(shù)據(jù)分布的測定
正態(tài)分布
a. 偏態(tài)系數(shù)
SK=0 ?分布對稱
SK<0 ?負偏態(tài)嘿般,向左偏
SK>0 ?正偏態(tài)段标,向右偏
b. 數(shù)據(jù)峰度
K>0 ?尖頂峰度
K<0 ?平頂峰度
c. 偏度與峰度的作用
SK≈0、K≈3 ?可以認為是正態(tài)分布炉奴。
6逼庞、數(shù)據(jù)的展示-統(tǒng)計圖
a. 條形圖與扇形圖
b. 折線圖
c. 莖葉圖
莖(數(shù)值的高位),葉(數(shù)值的低位)
整數(shù)時瞻赶,可以把個位作為“葉”赛糟;小數(shù)時,可以把小數(shù)部分作為“葉”砸逊。
d. 箱線圖
數(shù)理統(tǒng)計基礎:
1璧南、抽樣估計基礎
a. 隨機事件
隨機現(xiàn)象:重復性、明確性师逸、隨機性司倚,需要大量的重復的隨機實驗。
樣本空間(Ω):隨機現(xiàn)象的一切可能的組合的集合篓像。
隨機事件:樣本空間的一個子集动知,也就是在樣本空間里滿足一些前提的某些結果的集合。
b.隨機事件的概率
是隨機事件出現(xiàn)的可能性的度量员辩。
事件A的概率是P(A)盒粮,事件A與B同時發(fā)生的概率是P(AB)。
條件概率:在事件B已發(fā)生的條件下奠滑,事件A發(fā)生的概率P(A│B)=P(AB)/P(B)丹皱。
在條件概率中,隨著條件的增加宋税,事件A的條件概率也在增加摊崭。
相互獨立事件:P(A)=P(A│B)即說明A關于B是獨立的。
概念延伸:有回放抽樣(獨立)杰赛,無回放抽樣(非獨立)爽室。
c. 隨機變量及其概率分布
隨機變量(大寫字母):表示隨機現(xiàn)象結果的變量。
常見的做法是把刻畫試驗結果的數(shù)值直接定義成隨機變量的取值,例如壽命阔墩、產量嘿架、次數(shù)等。
離散型隨機變量啸箫、連續(xù)型隨機變量
隨機變量的概率分布:知道了隨機變量所有值的可能性(分布)耸彪,就找到了隨機試驗的規(guī)律性。
離散隨機變量的分布:每一個取值的概率在0與1之間忘苛,所有取值的概率之和是1蝉娜。
連續(xù)隨機變量的分布:用概率密度函數(shù)來表示;可以從直方圖做出概率密度曲線(縱軸會由頻率變成概率)扎唾。
概率密度曲線與x軸所夾面積為1召川,求隨機事件的概率變成求某個區(qū)間關于概率密度曲線的積分。
d. 隨機變量的數(shù)學特征
隨機變量的數(shù)學期望:變量值按概率的加權平均胸遇,也就是所有變量值乘以對應的概率再全部相加荧呐。
表示為E(X)
隨機變量的數(shù)學期望表征的是概率分布的中心位置。
方差Var(X)大纸镊,隨機變量的取值分布寬倍阐;方差小,取值分布窄逗威。
方差的平方根是標準差STD峰搪。
對于相互獨立的隨機變量,方差可相加凯旭,標準差不能相加概耻。
2、正態(tài)分布及三大分布
a. 正態(tài)分布的概率密度函數(shù)
X~N(μ罐呼,σ2)
μ:平均值咐蚯;σ:標準差
b. 正態(tài)分布的特征
對稱性、非負性弄贿、由μ和σ完全控制
μ控制位置,σ控制離散程度矫膨。
c. 標準正態(tài)分布
μ=0差凹,且σ=1
所有的正態(tài)分布都可以通過平移和伸縮變換成標準正態(tài)分布。
查標準正態(tài)分布表的方法:
在表中查Φ(x)侧馅,先在左邊找到小數(shù)點第二位之前的數(shù)值危尿,再從頂部找到小數(shù)點第二位,兩者相交的數(shù)值即是馁痴。
Φ(x)表示總體中小于x的概率即 P(X<x)
當X≥0時谊娇,直接查Φ(x)即可得到P(X≤x)
當X<0時,由Φ(x)=1-Φ(-x)可知P(│X│≤x)=2Φ(x)-1
區(qū)間(x1罗晕,x2)的概率是Φ(x2)-Φ(x1)
如果X不是標準正態(tài)分布济欢,需要先轉化成標準正態(tài)分布后才能查表:
X~N(μ赠堵,σ2) → (X-μ)/σ~N(0,1)
標準正態(tài)分布的“3σ原則”:68.3%法褥,95.4%茫叭,99.7%
d. 基于正態(tài)分布的三大分布
χ2分布(卡方分布):用于分類變量的卡方檢驗
t分布:在信息不足的情況下,一般使用t分布
F分布:用于方差比例檢驗半等、方差分析揍愁、回歸分析和方差齊性檢驗
3、中心極限定理
在自然界與生產中杀饵,一些現(xiàn)象受到許多相互獨立的隨機因素的影響莽囤,如果每個因素所產生的影響都很微小時,總的影響可以看作是服從正態(tài)分布的切距。
a. 中心極限定理的提法
隨機變量之和:當n充分大時朽缎,獨立隨機變量(ξ)之和近似服從正態(tài)分布N(數(shù)學期望之和,方差之和)蔚舀;從均值為μ饵沧、方差為σ^2;(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時赌躺,樣本均值的抽樣分布近似服從均值為μ狼牺、方差為(σ^2)/n 的正態(tài)分布。
獨立隨機變量的規(guī)范和:如果ξ都有有窮數(shù)學期望和方差礼患,就可以把ξ之和的分布轉化為標準正態(tài)分布
b. 中心極限定理的內容
隸美弗-拉普拉斯積分定理
林德伯格定理
李亞普諾夫定理
c. 中心極限定理的意義應用
當隨機因素對總的影響均勻地小是钥,同時又是獨立的,并且總數(shù)在15個以上缅叠,可以認為其和的分布是正態(tài)的悄泥。
抽樣估計:
1、抽樣估計的基本概念
a. 總體及總體指標
總體:研究對象的全體肤粱。
個體:組成總體的每一個元素被稱為個體弹囚,它是被分析和測量的對象,特性包括同質性(有相同的觀測變量)领曼、大量性鸥鹉、差異性(值不同)。
總體指標:可以對應到數(shù)理統(tǒng)計里的平均數(shù)庶骄、方差毁渗、標準差等。
總體與隨機變量:總體是一組個體觀測數(shù)據(jù)的集合单刁,即樣本空間灸异,測量就等于隨機試驗,總體的分布也就等同于隨機變量的分布。
b. 樣本及樣本指標
樣本:因為無法測量所有個體肺樟,所以進行抽樣檐春,樣本就是用來代表總體的子集,樣本容量就是樣本中的個體數(shù)目儡嘶。
樣本個數(shù):就是總體中可以抽樣的全部次數(shù)喇聊;總體容量M,樣本容量n蹦狂,樣本個數(shù)就是M的n次方誓篱。
樣本指標:就是針對樣本內部的值做統(tǒng)計(方差、平均值之類)凯楔,可以用來推斷總體指標窜骄。
總體指標與樣本指標的區(qū)別與聯(lián)系:1. 樣本指標是一個隨機變量但通過抽樣計算可知,總體指標是一個確定的值但是未知的摆屯。2. 必須通過樣本指標來推斷總體指標邻遏,所有可能樣本指標的平均數(shù)等于總體相應指標,如果樣本單位數(shù)增大虐骑,樣本指標就會接近總體指標准验。
c. 抽樣估計的思想
抽樣估計,又叫抽樣推斷廷没,也叫參數(shù)估計糊饱,包括了調查和估計。
先按隨機原則抽樣調查颠黎,再用數(shù)理統(tǒng)計進行研究另锋。
若X1,X2狭归,...夭坪,Xn是從總體X中獲得的樣本,那么X1过椎,X2室梅,...,Xn就是獨立同分布的隨機變量疚宇,樣本的觀測值x1亡鼠,x2,...xn就是數(shù)據(jù)灰嫉。
抽樣方法:重復抽樣,不重復抽樣
d. 抽樣軌跡的理論基礎
大數(shù)定律:如果隨機變量總體存在有限的平均數(shù)和方差嗓奢,則對于充分大的抽樣單位數(shù)n讼撒,可以易趨近與1的概率來期望抽樣平均數(shù)與總體平均數(shù)的絕對差為任意小。也就是抽樣數(shù)越多,抽樣平均數(shù)就越接近總體平均數(shù)根盒。
中心極限定理:只要總體變量存在有限的平均數(shù)和方差钳幅,那么不管總體變量的分布如何,隨著抽樣單位數(shù)的增加炎滞,抽樣平均數(shù)就趨近與正態(tài)分布敢艰。
大數(shù)定律論證了抽樣平均數(shù)趨近于總體平均數(shù)的趨勢,中心極限定理說明了抽樣平均數(shù)與總體平均數(shù)對的離差不超過一定范圍的概率册赛。
e. 樣本統(tǒng)計量及分布
不含未知參數(shù)的樣本函數(shù)稱為統(tǒng)計量钠导,統(tǒng)計量的分布稱為抽樣分布。
從某種意義上講森瘪,樣本統(tǒng)計量就是樣本指標牡属。
樣本均值統(tǒng)計量,它的分布服從正態(tài)分布(總體的均值和方差)扼睬。
2逮栅、抽樣估計的方法--點估計
a. 點估計
抽樣一次,以此樣本統(tǒng)計量的值作為總體指標窗宇。
用樣本平均數(shù)來估計全體的平均數(shù)μ措伐,就是點估計。
優(yōu)良點估計要做到無偏性军俊、有效性(抽樣分布的方差要薪募印)、一致性蝇完。
b. 點估計精度和樣本容量的關系
樣本容量越大精度越高官硝。
c. 點估計的優(yōu)缺點
點估計以誤差存在為前提,且誤差大小及可靠度不可知短蜕。
3氢架、抽樣估計的誤差
a. 抽樣估計的實際誤差
凡進行抽樣就要一定會產生誤差。
實際誤差就是樣本統(tǒng)計量和總體指標之間的差距朋魔。
b. 抽樣估計的平均誤差
因為一次抽樣的實際誤差無法計算岖研,所以抽樣誤差的大小通過抽樣平均誤差來反映。
抽樣平均誤差是抽樣平均數(shù)的標準差警检,即先計算出各個樣本的平均數(shù)孙援,再計算所有平均數(shù)的標準差。
c. 抽樣估計的極限誤差
分析人員可以要求有一個允許誤差范圍Δ。
抽樣平均數(shù)以總體平均數(shù)為中心楷兽,在+-Δ之間波動折剃。
4、抽樣估計的方法--區(qū)間估計
a. 抽樣估計的精度及置信度
抽樣估計精度是抽樣估計的準確程度础淤,這與抽樣誤差相對:
估計精度=1-誤差率
誤差率等于誤差范圍除以樣本平均數(shù)崭放。
因為抽樣誤差是一個隨機變量,所以抽樣平均數(shù)落在一個區(qū)間是有概率的鸽凶。
抽樣誤差范圍與估計置信度呈反比币砂。
概率度(t)=
b. 區(qū)間估計的方法
區(qū)間估計是根據(jù)樣本指標的分布率,按照一定要求玻侥,先確定出θ1與θ2决摧,使總體指標θ的概率P(θ1≤θ≤θ2)=1-α
α被稱為顯著性水平;1-α稱為置信系數(shù)(置信概率)
置信區(qū)間表達了區(qū)間估計的準確性凑兰,置信系數(shù)表達了可靠性掌桩。
準確性與可靠性不能兼得,只能提出其中一個條件票摇,然后推導出另一個條件的變動情況拘鞋。
以95%的置信系數(shù)為例,如果做一百次獨立的抽樣統(tǒng)計矢门,會有一百個樣本平均數(shù)盆色,也會有一百個區(qū)間估計,而這一百個區(qū)間估計里有95個正確地包含全體平均數(shù)μ祟剔。我們只做一次抽樣的話隔躲,得到的這一個區(qū)間估計會包含著μ的機會是95%.
c. 區(qū)間估計的步驟
共同步驟:計算樣本指標來作為總體的估計值,再計算樣本標準差來推算抽樣平均誤差
給定誤差范圍物延,求概率保證程度:抽樣誤差除以抽樣平均誤差得出t宣旱,再查《正態(tài)分布概率表》得出置信度
給定置信度,求極限誤差的可能范圍:根據(jù)置信度查出t叛薯,再根據(jù)t求出誤差(即極限誤差)
5浑吟、抽樣的組織形式和抽樣數(shù)目的確定
a. 抽樣的組織形式
簡單隨機抽樣
分層抽樣:先分組,再按各組頻數(shù)占總體頻數(shù)的比重分配抽樣數(shù)目
等距抽樣:先排列數(shù)據(jù)耗溜,再等距抽樣
整群抽樣:例如按整箱组力、整村進行抽樣
多階段抽樣
b. 必要抽樣數(shù)目的確定
假設檢驗:
1、基本原理
假設檢驗遵循的推斷依據(jù)是小概率原理抖拴,這個小概率就是假設檢驗的顯著性水平α
α越小燎字,所做出的拒絕原假設的判斷力越強,但這與“反證法”不同阿宅。
2候衍、分析方法
設立原假設(虛無假設)H0和備擇假設H1 。
H0總包含等號洒放,H0與H1對立蛉鹿。
依據(jù)涉及的總體分布,構造一個適用于檢驗H0的統(tǒng)計量往湿,例如使統(tǒng)計量服從標準正態(tài)分布妖异。
確定小概率事件的臨界值α惨好,也就是統(tǒng)計量的分布中面積(概率)為α的區(qū)間,一般取α<0.05或α<0.01 随闺。
用α推算出統(tǒng)計量的拒絕域。
用隨機抽樣得到的值來計算出統(tǒng)計量的抽樣值蔓腐,看是否在拒絕域內矩乐。
3、P值檢驗
在分析軟件中已經取代臨界值檢驗
P值就是回论,出現(xiàn)統(tǒng)計量觀測值以及更極端值的概率散罕。
α>P,則拒絕原假設
α<P傀蓉,則接受原假設
α=P欧漱,可增加樣本容量
方差分析
單因素方差分析是指將所獲得的數(shù)據(jù)按某些項目(因子)分類后,再分析各組(兩個組以上)數(shù)據(jù)之間有無差異的方法。即變異分解過程葬燎。
適用條件:因素水平間的因變量要服從正態(tài)分布误甚、適用于分類水平為兩個以上的分類變量、總體方差相等谱净。
假設:
H0:μ1=μ2=...=μr? H1:μ1窑邦,μ2,...壕探,μr不全相等
SST(總離差平方和):反映了全部試驗數(shù)據(jù)之間的差異
SSM(組間離差平方和):反映了每組數(shù)據(jù)均值和總平均值的誤差
SSE(組內離差平方和):反映了組內數(shù)據(jù)和組內平均的隨機誤差
SST=SSE+SSM
時間序列
差分運算把非平穩(wěn)
SQL
主鍵:PRIMARY KEY
非空:NOT NULL
唯一:UNIQUE
創(chuàng)建表:CREATE TABLE
修改表:ALTER TABLE
導入外部文本:LOAD DATA[LOCAL] INFILE
查看表結構:DESC
刪除表:DROP TABLE
單表查詢和過濾:SELECT 字段列表 FROM 表名
橫向多表鏈接:
縱向多表連接:
更新字段中的內容:UPDATE
刪除記錄:DELETE FROM 表名 WHERE
創(chuàng)建視圖:CREATE VIEW
“和”:AND
“或”:OR
在集合內:IN
在范圍內:BETWEEN
相同:LIKE