五向拆、相關(guān)分析
定義:
相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系罪既,并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度,是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計方法汇在。
相關(guān)關(guān)系是一種非確定性的關(guān)系翰萨,例如,以X和Y分別記一個人的身高和體重趾疚,或分別記每公頃施肥量與每公頃小麥產(chǎn)量缨历,則X與Y顯然有關(guān)系,而又沒有確切到可由其中的一個去精確地決定另一個的程度糙麦,這就是相關(guān)關(guān)系辛孵。
應(yīng)用:
①確定現(xiàn)象之間有無相關(guān)關(guān)系以及相關(guān)關(guān)系的類型。對不熟悉的現(xiàn)象赡磅,則需收集變量之間大量的對應(yīng)資料魄缚,用繪制相關(guān)圖的方法做初步判斷。從變量之間相互關(guān)系的方向看,變量之間有時存在著同增同減的同方向變動冶匹,是正相關(guān)關(guān)系;有時變量之間存在著一增一減的反方向變動习劫,是負(fù)相關(guān)關(guān)系。從變量之間相關(guān)的表現(xiàn)形式看有直線關(guān)系和曲線相關(guān)嚼隘,從相關(guān)關(guān)系涉及到的變量的個數(shù)看诽里,有一元相關(guān)或簡單相關(guān)關(guān)系和多元相關(guān)或復(fù)相關(guān)關(guān)系。
②判定現(xiàn)象之間相關(guān)關(guān)系的密切程度飞蛹。通常是計算相關(guān)系數(shù)R及絕對值在0.8以上表明高度相關(guān)谤狡,必要時應(yīng)對R進(jìn)行顯著性檢驗。
③擬合回歸方程卧檐。如果現(xiàn)象間相關(guān)關(guān)系密切墓懂,就根據(jù)其關(guān)系的類型,建立數(shù)學(xué)模型用相應(yīng)的數(shù)學(xué)表達(dá)式-----回歸方程來反映這種數(shù)量關(guān)系霉囚,這就是回歸分析捕仔。
④判斷回歸分析的可靠性。要用數(shù)理統(tǒng)計的方法對回歸方程進(jìn)行檢驗盈罐。只有通過檢驗的回歸方程才能用于預(yù)測和控制榜跌。
⑤根據(jù)回歸方程進(jìn)行內(nèi)插外推預(yù)測和控制。
六暖呕、聚類分析
定義:聚類分析將個體或?qū)ο蠓诸愋弊觯沟猛活愔械膶ο笾g的相似性比與其他類的對象的相似性更強(qiáng)。其目的在于使類內(nèi)對象的同質(zhì)性最大化和類與類間對象的異質(zhì)性最大化湾揽。
聚類與分類的不同在于,聚類所要求劃分的類是未知的笼吟。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程库物,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性贷帮。從統(tǒng)計學(xué)的觀點看戚揭,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法撵枢、K-均值聚類法民晒、模糊聚類法、有序樣品聚類法锄禽、分解法潜必、加入法、動態(tài)聚類法和有重疊聚類等沃但。
應(yīng)用:
①在商業(yè)上磁滚,聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征,常與用戶畫像相結(jié)合垂攘。聚類分析是細(xì)分市場的有效工具维雇,同時也可用于研究消費者行為,尋找新的潛在市場晒他、選擇實驗的市場吱型,并作為多元分析的預(yù)處理。
②聚類分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個方面陨仅,通過分組聚類出具有相似瀏覽行為的客戶唁影,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客戶掂名,向客戶提供更合適的服務(wù)据沈。
③?在保險行業(yè)上,聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組饺蔑,同時根據(jù)住宅類型锌介,價值,地理位置來鑒定一個城市的房產(chǎn)分組猾警。
④在生物上孔祸,聚類分析被用來動植物分類和對基因進(jìn)行分類,獲取對種群固有結(jié)構(gòu)的認(rèn)識发皿。
七崔慧、判別分析
定義:判別分析又稱"分辨法",是在分類確定的條件下穴墅,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法惶室。
其基本原理是按照一定的判別準(zhǔn)則,建立一個或多個判別函數(shù)玄货,用研究對象的大量資料確定判別函數(shù)中的待定系數(shù)皇钞,并計算判別指標(biāo)。據(jù)此即可確定某一樣本屬于何類松捉。
當(dāng)?shù)玫揭粋€新的樣品數(shù)據(jù)夹界,要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題隘世。
應(yīng)用:
①給新用戶打標(biāo)簽可柿。在對已有用戶分群歸類的情況下,對于新進(jìn)來的用戶貼標(biāo)簽丙者,便于后續(xù)對于新用戶的運營复斥。
②信息丟失。對于丟失的數(shù)據(jù)蔓钟,可以依據(jù)整體的去判斷填充永票。
②直接的信息得不到。
③預(yù)報。
八侣集、因子分析
定義:因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術(shù)键俱。最早由英國心理學(xué)家C.E.斯皮爾曼提出。他發(fā)現(xiàn)學(xué)生的各科成績之間存在著一定的相關(guān)性世分,一科成績好的學(xué)生编振,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子臭埋,或稱某些一般智力條件影響著學(xué)生的學(xué)習(xí)成績踪央。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個因子瓢阴,可減少變量的數(shù)目畅蹂,還可檢驗變量間關(guān)系的假設(shè)。
應(yīng)用:
①通過因子得分可以得出不同因子的重要性指標(biāo)荣恐,而管理者則可根據(jù)這些指標(biāo)的重要性來決定首先要解決的市場問題或產(chǎn)品問題液斜。
②在對數(shù)據(jù)進(jìn)行處理時,可對數(shù)據(jù)進(jìn)行降維處理叠穆。
九少漆、主成分分析
定義:主成分分析將多個變量通過線性變換以選出較少個數(shù)重要變量的一種多元統(tǒng)計分析方法。又稱主分量分析硼被。
通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量示损,轉(zhuǎn)換后的這組變量叫主成分。其主要思想是降維嚷硫,將n維特征映射到k維上(k<n)检访,k維是全新的正交特征。這個k維特征稱為主元论巍,是重新構(gòu)造出來的k維特征烛谊,而不是簡單地從n維特征中去除其余n-k維特征。
主成分分析和因子分析的區(qū)別:
因子分析法與主成分分析法都屬于因素分析法嘉汰,都基于統(tǒng)計分析方法,但兩者有較大的區(qū)別:主成分分析是通過坐標(biāo)變換提取主成分状勤,也就是將一組具有相關(guān)性的變量變換為一組獨立的變量鞋怀,將主成分表示為原始觀察變量的線性組合;而因子分析法是要構(gòu)造因子模型持搜,將原始觀察變量分解為因子的線性組合密似。通過對上述內(nèi)容的學(xué)習(xí),可以看出因子分析法和主成分分析法的主要區(qū)別為:
①主成分分析是將主要成分表示為原始觀察變量的線性組合葫盼,而因子分析是將原始觀察變量表示為新因子的線性組合残腌,原始觀察變量在兩種情況下所處的位置不同。
②主成分分析中,新變量Z的坐標(biāo)維數(shù)j(或主成分的維數(shù))與原始變量維數(shù)相同抛猫,它只是將一組具有相關(guān)性的變量通過正交變換轉(zhuǎn)換成一組維數(shù)相同的獨立變量蟆盹,再按總方差誤差的允許值大小,來選定q個(q<p)主成分闺金;而因子分析法是要構(gòu)造一個模型逾滥,將問題的為數(shù)眾多的變量減少為幾個新因子,新因子變量數(shù)m小于原始變量數(shù)P败匹,從而構(gòu)造成一個結(jié)構(gòu)簡單的模型寨昙。可以認(rèn)為掀亩,因子分析法是主成分分析法的發(fā)展舔哪。
應(yīng)用:
①主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p)槽棍,而低維的Y空間代替 高維的x空間所損失的信息很少捉蚤。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變量(p個)得到的刹泄。例如要計算Yl的均值也得使用全部x的均值外里。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話特石,就可以把這個Xi刪除盅蝗,這也是一種刪除多余變量的方法。
②有時可通過因子負(fù)荷aij的結(jié)論姆蘸,弄清X變量間的某些關(guān)系墩莫。
③多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時便不能畫出幾何圖形逞敷,多元統(tǒng)計研究的問題大都多于3個變量狂秦。要把研究的問題用圖形表示出來是不可能的。然而推捐,經(jīng)過主成分分析后裂问,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分牛柒,畫出n個樣品在二維平面上的分布況堪簿,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對樣本進(jìn)行分類處理皮壁,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點的離群點椭更。
④由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析蛾魄。
⑤用主成分分析篩選回歸變量虑瀑∈遥回歸變量的選擇有著重的實際意義,為了使模型本身易于做結(jié)構(gòu)分析舌狗、控制和預(yù)報叽奥,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合把夸。用主成分分析篩選變量而线,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果恋日。
歡迎前往關(guān)注數(shù)據(jù)寶典公眾號膀篮,更多數(shù)據(jù)分析知識分享,以及案例總結(jié)分享~~
在數(shù)據(jù)分析道路上岂膳,學(xué)無止境誓竿,終身成長。