大綱:
應(yīng)用情境例子:客戶價值評估(線性回歸)媳危、貸款違約識別(邏輯回歸)、不同班級的成績差異(方差分析)冈敛、根據(jù)用戶特征進行市場細分(聚類分析)
統(tǒng)計模型可以解決:預(yù)測分類待笑、相關(guān)分析、市場細分等問題抓谴。
傳統(tǒng)數(shù)據(jù)分析與數(shù)據(jù)挖掘模型對計量方式都有自身嚴格的要求暮蹂。
樣本量越大寞缝,抽樣誤差越小。
在其它條件不變的情況下仰泻,如果希望將誤差降低50%荆陆,則需4倍的樣本。
置信區(qū)間的例子:100次獨立抽樣產(chǎn)生的區(qū)間估計集侯,會有95次正確地包含著總體平均數(shù)被啼。
在其它條件不變的情況下,提高置信水平會使置信區(qū)間變大浅悉。
沒有理論趟据、業(yè)務(wù)向?qū)Ш图僭O(shè)條件的情況下券犁,可以進行探索性數(shù)據(jù)分析术健,了解數(shù)據(jù)情況。
遵循假設(shè)檢驗步驟是一種驗證性數(shù)據(jù)分析的思路粘衬。
t檢驗統(tǒng)計量的適用條件:小樣本荞估,并且方差未知
t檢驗例子:化肥改良后的效果(配對樣本t檢驗,兩相關(guān)樣本(改良前后的樣本對應(yīng))是否來自相同均值的總體)稚新,商品質(zhì)量是否達標(單樣本t檢驗勘伺,單個變量的均值與指定的檢驗值之間是否存在顯著性差異/樣本均值與總體均值之間的差異),不同性別的成績是否有差異(獨立樣本t檢驗褂删,兩獨立樣本是否來自相同均值的總體)
方差分析同時檢驗兩組或多組均值是否存在差異飞醉。
正態(tài)分布是方差分析的前提。
方差的基本原理是方差的可加性屯阀。
方差不滿足齊性檢驗的情況下缅帘,也有可能是滿足正態(tài)分布的。
方差不滿足齊性檢驗的情況說明:不同組均值隱含的信息不同难衰;數(shù)據(jù)分析結(jié)果無法推理到總體钦无。
回歸分析之前,可以對數(shù)據(jù)做標準化處理盖袭、取對數(shù)處理
線性回歸的假設(shè):線性(因變量與自變量呈線性關(guān)系)失暂、正態(tài)性(殘差服從正態(tài)分布)、獨立同分布(殘差間相互獨立且遵循同一分布)鳄虱、正交假定(誤差項與自變量不相關(guān))
如果我們建立了y關(guān)于x的線性回歸方程弟塞,在沒有其它信息的情況下,我們只能說這兩個變量存在線性關(guān)系拙已。(不能當作因果關(guān)系)
Z-score標準化消除了量綱的影響决记。
識別異常值的方法:分位數(shù)判斷、轉(zhuǎn)化為Z-score判斷悠栓、聚類
主成分分析計算在選擇相關(guān)系數(shù)計算法時霉涨,確定主成分個數(shù)的大致原則包括:特征根值大于1按价,累計特征根值加總占總特征根值的80%以上。
主成分分析計算分為:根據(jù)相關(guān)系數(shù)和協(xié)方差矩陣兩種方式笙瑟。
變量的量綱不同時楼镐,適用相關(guān)系數(shù)計算。
主成分分析是把主成分表示成各個變量的線性組合往枷。
因子分析需要構(gòu)造因子模型:用潛在的假想變量和隨機影響變量的線性組合表示原始變量框产。
主成分法是常用的因子載荷矩陣的估計方法。
最大方差旋轉(zhuǎn)是最常用的因子旋轉(zhuǎn)方法错洁,是一種正交旋轉(zhuǎn)秉宿。
在選擇合適的因子數(shù)量時,可以適當放寬對于特征根大小的要求屯碴,大于0.7就可以描睦。
聚類模型需要事先采用因子分析對變量進行降維,分類模型需要事先對解釋變量進行因子分析导而。
將樣本按相似性的大小分成多個類的過程稱為聚類忱叭。
層次聚類可以提供聚類樹形圖。
當樣本量超過50時今艺,一般采用K均值聚類法韵丑,但是它對起始點位置敏感,也無法通過分析方法確定聚類個數(shù)虚缎,還容易受異常值的影響撵彻。
取百分位秩和分箱處理都會影響原變量的分布,標準化实牡、因子分析和變量聚類不會影響分布陌僵。
對應(yīng)分析是從主成分分析發(fā)展而來,用于兩個或多個分類變量間各分類水平相關(guān)性的比較铲掐。
多維尺度分析用于衡量樣本間相異性(距離)或相似程度拾弃,也就是尋求原始距離的一個最佳近似,使得在低維中也能表示這些距離摆霉。
Minkowski/歐式距離用于連續(xù)型數(shù)據(jù)豪椿,Jacard相似系數(shù)用于分類數(shù)據(jù),余弦相似度反映了向量之間的余弦值携栋。
通過多維尺度分析將樣本點在二維圖中進行表示搭盾,通常是根據(jù)兩個樣本間的直線距離來判斷相似度。很多時候因為不了解用戶的主觀判斷標準婉支,所以無法解讀坐標含義鸯隅。
線性回歸的5個假設(shè):1.解釋變量和被解釋變量之間存在線性關(guān)系;2.解釋變量和擾動項不能相關(guān);3.解釋變量之間不能強線性相關(guān)蝌以;4.擾動項獨立同分布炕舵;5擾動項服從正態(tài)分布
常用的分類變量預(yù)測模型是邏輯回歸模型。
p為發(fā)生概率跟畅,p/(p-1)為發(fā)生比Odds
ROC曲線下面積值越接近1咽筋,表明模型預(yù)測能力越強。
建立邏輯回歸時徊件,需要對連續(xù)變量進行分箱處理奸攻,以此捕獲原始連續(xù)變量和被解釋變量之間非線性關(guān)系、避免異常值的影響虱痕。
一般在邏輯回歸中只關(guān)注系數(shù)的正負睹耐,一般不看大小:解釋變量X的系數(shù)為負部翘,則X增大會導(dǎo)致Odds下降硝训,即被解釋變量Y=1的概率下降。
數(shù)據(jù)庫的ER圖包含了表字段信息略就、 表與表之間關(guān)系的信息捎迫、 存儲表的數(shù)據(jù)庫信息
在數(shù)據(jù)庫中調(diào)整字段位置(MODIFY)時使用的關(guān)鍵詞為 FIRST 和 AFTER 沒有 BEFORE,在使用 ALTER TABLE…MODIFY…語句更改字段屬性或位置時至少需要指定字段名+字段的數(shù)據(jù)類型
網(wǎng)絡(luò)例題:
回歸分析的第一步是 :確定解釋和被解釋變量
哪個變量可以反映客戶的忠誠度? :購買頻次
對客戶的生命周期進行分類主要使用:聚類分析
什么方法可以用于檢驗信用卡類型和支出是否有關(guān)系表牢? :方差分析
加權(quán)移動平均法遵循的一般原則是:近期數(shù)據(jù)權(quán)數(shù)大,遠期數(shù)據(jù)權(quán)數(shù)小
當所有觀測值都落在回歸直線上贝次,則這兩個變量之間的相關(guān)系數(shù)為 :+1或-1
SPSS中崔兴,定義性別變量時,假設(shè)用數(shù)值1表示男蛔翅,用數(shù)值2表示女敲茄,需要使用到的工具是 :變量名標簽
甲、乙兩生產(chǎn)小組人均月工資分別為420元和537元山析,其方差均為80元堰燎,則兩小組人均工資的代表性 :甲大于乙
區(qū)間估計依據(jù)的原理是 :樣本分布理論
excel也可以建立三維圖表
抽取樣本單位的方法:重復(fù)抽樣、不重復(fù)抽樣
在全面調(diào)查和抽樣調(diào)查中都存在的誤差是:登記性誤差笋轨、責(zé)任心誤差秆剪、技術(shù)性誤差,系統(tǒng)性誤差不是
總體線性關(guān)系的模型可以包含多個變量
回歸變差(或回歸平方和)是指:被解釋變量的回歸值與平均值的離差平方和爵政、被解釋變量的總變差與剩余變差之差仅讽、解釋變量變動所引起的被解釋變量的變差
在表格排序時,筆畫和拼音可以作為排序的依據(jù)
EXCEL中“清除”不能刪掉單元格中某些類型的數(shù)據(jù)
平均差的優(yōu)點:平均差意義明確钾挟,計算容易洁灵;較好的代表了數(shù)據(jù)分布的離散程度;反應(yīng)靈敏
常見的差異量數(shù)有:平均差掺出、方差徽千、百分位數(shù)
利用離均差求積差相關(guān)系數(shù)的方法有:減差法苫费、加差法
計算積差相關(guān)需滿足:要求成對的數(shù)據(jù)、兩列變量各自總體的分布都是正態(tài)双抽、兩相關(guān)變量都是連續(xù)變量黍衙、兩變量之間的關(guān)系應(yīng)是直線型的
計算斯皮爾曼等級相關(guān)可用:等級差數(shù)法、等級序數(shù)法
肯德爾 W 系數(shù)計算的是變量相關(guān)程度荠诬,沒有負數(shù)
質(zhì)量相關(guān)包括:點二列相關(guān)琅翻、二列相關(guān)、多列相關(guān)
品質(zhì)相關(guān)主要有:四分相關(guān)柑贞、φ相關(guān)方椎、列聯(lián)相關(guān)
相關(guān)分析:分析對象是相關(guān)關(guān)系、分析方法主要是繪制相關(guān)圖和計算相關(guān)系數(shù)钧嘶、
直線回歸方程:建立前提條件是現(xiàn)象之間具有較密切的直線相關(guān)關(guān)系棠众、關(guān)鍵在于確定方程中的參數(shù)a和b、表明兩個相關(guān)變量間的數(shù)量變動關(guān)系有决、可用來根據(jù)自變量值推算因變量值闸拿,并可進行回歸預(yù)測
相關(guān)關(guān)系的特點是:現(xiàn)象之間確實存在數(shù)量上的依存關(guān)系,但是現(xiàn)象之間的數(shù)量依存關(guān)系值是不確定的
現(xiàn)象間的相關(guān)關(guān)系按相關(guān)形式分為:直線相關(guān)书幕、曲線相關(guān)
配合一元線性回歸方程須具備下列前提條件:現(xiàn)象間確實存在數(shù)量上的相互依存關(guān)系新荤、現(xiàn)象間的關(guān)系是直線關(guān)系,這種直線關(guān)系可用散點圖來表示台汇、具備一組自變量與因變量的對應(yīng)資料苛骨,且能明確哪個是自變量,哪個是因變量苟呐、兩個變量之間不是對等關(guān)系
由直線回歸方程y=a+bx所推算出來的y值也是一個等差級數(shù)
依分布函數(shù)的來源痒芝,可把概率分布劃分為:經(jīng)驗分布、理論分布
χ2分布的特點:取值均為正值牵素、分布是正偏態(tài)分布
使用正態(tài)分布表严衬,可以進行的計算:Z 分數(shù)與概率、概率與概率密度笆呆、Z 值與概率密度
檢驗次數(shù)分布是否正態(tài)的方法有:皮爾遜偏態(tài)量數(shù)法请琳、累加次數(shù)曲線法、峰度偏度檢驗法腰奋、直方圖法
二項分布
樣本平均數(shù)的分布為正態(tài)分布的條件:總體方差已知
F 分布特點:是一個正偏態(tài)分布单起、為正值、當組間自由度為1時劣坊, F檢驗與t檢驗的結(jié)果相同
標準分數(shù)(z-score)的優(yōu)點:可比性嘀倒、可加性、明確性、穩(wěn)定性
單側(cè)檢驗與雙側(cè)檢驗的區(qū)別包括:問題的提法不同测蘑、建立假設(shè)的形式不同灌危、否定域不同
關(guān)于SQL語句,聯(lián)合查詢使用的關(guān)鍵字是:UNION
積差相關(guān)系數(shù)
趨勢方程