CDA題目

大綱:

應(yīng)用情境例子:客戶價值評估(線性回歸)媳危、貸款違約識別(邏輯回歸)、不同班級的成績差異(方差分析)冈敛、根據(jù)用戶特征進行市場細分(聚類分析)

統(tǒng)計模型可以解決:預(yù)測分類待笑、相關(guān)分析、市場細分等問題抓谴。

傳統(tǒng)數(shù)據(jù)分析與數(shù)據(jù)挖掘模型對計量方式都有自身嚴格的要求暮蹂。

樣本量越大寞缝,抽樣誤差越小。

在其它條件不變的情況下仰泻,如果希望將誤差降低50%荆陆,則需4倍的樣本。

置信區(qū)間的例子:100次獨立抽樣產(chǎn)生的區(qū)間估計集侯,會有95次正確地包含著總體平均數(shù)被啼。

在其它條件不變的情況下,提高置信水平會使置信區(qū)間變大浅悉。

沒有理論趟据、業(yè)務(wù)向?qū)Ш图僭O(shè)條件的情況下券犁,可以進行探索性數(shù)據(jù)分析术健,了解數(shù)據(jù)情況。

遵循假設(shè)檢驗步驟是一種驗證性數(shù)據(jù)分析的思路粘衬。

t檢驗統(tǒng)計量的適用條件:小樣本荞估,并且方差未知

t檢驗例子:化肥改良后的效果(配對樣本t檢驗,兩相關(guān)樣本(改良前后的樣本對應(yīng))是否來自相同均值的總體)稚新,商品質(zhì)量是否達標(單樣本t檢驗勘伺,單個變量的均值與指定的檢驗值之間是否存在顯著性差異/樣本均值與總體均值之間的差異),不同性別的成績是否有差異(獨立樣本t檢驗褂删,兩獨立樣本是否來自相同均值的總體)

方差分析同時檢驗兩組或多組均值是否存在差異飞醉。

正態(tài)分布是方差分析的前提。

方差的基本原理是方差的可加性屯阀。

方差不滿足齊性檢驗的情況下缅帘,也有可能是滿足正態(tài)分布的。

方差不滿足齊性檢驗的情況說明:不同組均值隱含的信息不同难衰;數(shù)據(jù)分析結(jié)果無法推理到總體钦无。

回歸分析之前,可以對數(shù)據(jù)做標準化處理盖袭、取對數(shù)處理

線性回歸的假設(shè):線性(因變量與自變量呈線性關(guān)系)失暂、正態(tài)性(殘差服從正態(tài)分布)、獨立同分布(殘差間相互獨立且遵循同一分布)鳄虱、正交假定(誤差項與自變量不相關(guān))

如果我們建立了y關(guān)于x的線性回歸方程弟塞,在沒有其它信息的情況下,我們只能說這兩個變量存在線性關(guān)系拙已。(不能當作因果關(guān)系)

Z-score標準化消除了量綱的影響决记。

識別異常值的方法:分位數(shù)判斷、轉(zhuǎn)化為Z-score判斷悠栓、聚類

主成分分析計算在選擇相關(guān)系數(shù)計算法時霉涨,確定主成分個數(shù)的大致原則包括:特征根值大于1按价,累計特征根值加總占總特征根值的80%以上。

主成分分析計算分為:根據(jù)相關(guān)系數(shù)和協(xié)方差矩陣兩種方式笙瑟。

變量的量綱不同時楼镐,適用相關(guān)系數(shù)計算。

主成分分析是把主成分表示成各個變量的線性組合往枷。

因子分析需要構(gòu)造因子模型:用潛在的假想變量和隨機影響變量的線性組合表示原始變量框产。

主成分法是常用的因子載荷矩陣的估計方法。

最大方差旋轉(zhuǎn)是最常用的因子旋轉(zhuǎn)方法错洁,是一種正交旋轉(zhuǎn)秉宿。

在選擇合適的因子數(shù)量時,可以適當放寬對于特征根大小的要求屯碴,大于0.7就可以描睦。

聚類模型需要事先采用因子分析對變量進行降維,分類模型需要事先對解釋變量進行因子分析导而。

將樣本按相似性的大小分成多個類的過程稱為聚類忱叭。

層次聚類可以提供聚類樹形圖。

當樣本量超過50時今艺,一般采用K均值聚類法韵丑,但是它對起始點位置敏感,也無法通過分析方法確定聚類個數(shù)虚缎,還容易受異常值的影響撵彻。

取百分位秩和分箱處理都會影響原變量的分布,標準化实牡、因子分析和變量聚類不會影響分布陌僵。

對應(yīng)分析是從主成分分析發(fā)展而來,用于兩個或多個分類變量間各分類水平相關(guān)性的比較铲掐。

多維尺度分析用于衡量樣本間相異性(距離)或相似程度拾弃,也就是尋求原始距離的一個最佳近似,使得在低維中也能表示這些距離摆霉。

Minkowski/歐式距離用于連續(xù)型數(shù)據(jù)豪椿,Jacard相似系數(shù)用于分類數(shù)據(jù),余弦相似度反映了向量之間的余弦值携栋。

通過多維尺度分析將樣本點在二維圖中進行表示搭盾,通常是根據(jù)兩個樣本間的直線距離來判斷相似度。很多時候因為不了解用戶的主觀判斷標準婉支,所以無法解讀坐標含義鸯隅。

線性回歸的5個假設(shè):1.解釋變量和被解釋變量之間存在線性關(guān)系;2.解釋變量和擾動項不能相關(guān);3.解釋變量之間不能強線性相關(guān)蝌以;4.擾動項獨立同分布炕舵;5擾動項服從正態(tài)分布

常用的分類變量預(yù)測模型是邏輯回歸模型。

p為發(fā)生概率跟畅,p/(p-1)為發(fā)生比Odds

ROC曲線下面積值越接近1咽筋,表明模型預(yù)測能力越強。

建立邏輯回歸時徊件,需要對連續(xù)變量進行分箱處理奸攻,以此捕獲原始連續(xù)變量和被解釋變量之間非線性關(guān)系、避免異常值的影響虱痕。

一般在邏輯回歸中只關(guān)注系數(shù)的正負睹耐,一般不看大小:解釋變量X的系數(shù)為負部翘,則X增大會導(dǎo)致Odds下降硝训,即被解釋變量Y=1的概率下降。

數(shù)據(jù)庫的ER圖包含了表字段信息略就、 表與表之間關(guān)系的信息捎迫、 存儲表的數(shù)據(jù)庫信息

在數(shù)據(jù)庫中調(diào)整字段位置(MODIFY)時使用的關(guān)鍵詞為 FIRST 和 AFTER 沒有 BEFORE,在使用 ALTER TABLE…MODIFY…語句更改字段屬性或位置時至少需要指定字段名+字段的數(shù)據(jù)類型

網(wǎng)絡(luò)例題:

回歸分析的第一步是 :確定解釋和被解釋變量

哪個變量可以反映客戶的忠誠度? :購買頻次

對客戶的生命周期進行分類主要使用:聚類分析

什么方法可以用于檢驗信用卡類型和支出是否有關(guān)系表牢? :方差分析

加權(quán)移動平均法遵循的一般原則是:近期數(shù)據(jù)權(quán)數(shù)大,遠期數(shù)據(jù)權(quán)數(shù)小

當所有觀測值都落在回歸直線上贝次,則這兩個變量之間的相關(guān)系數(shù)為 :+1或-1

SPSS中崔兴,定義性別變量時,假設(shè)用數(shù)值1表示男蛔翅,用數(shù)值2表示女敲茄,需要使用到的工具是 :變量名標簽

甲、乙兩生產(chǎn)小組人均月工資分別為420元和537元山析,其方差均為80元堰燎,則兩小組人均工資的代表性 :甲大于乙

區(qū)間估計依據(jù)的原理是 :樣本分布理論

excel也可以建立三維圖表

抽取樣本單位的方法:重復(fù)抽樣、不重復(fù)抽樣

在全面調(diào)查和抽樣調(diào)查中都存在的誤差是:登記性誤差笋轨、責(zé)任心誤差秆剪、技術(shù)性誤差,系統(tǒng)性誤差不是

總體線性關(guān)系的模型可以包含多個變量

回歸變差(或回歸平方和)是指:被解釋變量的回歸值與平均值的離差平方和爵政、被解釋變量的總變差與剩余變差之差仅讽、解釋變量變動所引起的被解釋變量的變差

在表格排序時,筆畫和拼音可以作為排序的依據(jù)

EXCEL中“清除”不能刪掉單元格中某些類型的數(shù)據(jù)

平均差的優(yōu)點:平均差意義明確钾挟,計算容易洁灵;較好的代表了數(shù)據(jù)分布的離散程度;反應(yīng)靈敏

常見的差異量數(shù)有:平均差掺出、方差徽千、百分位數(shù)

利用離均差求積差相關(guān)系數(shù)的方法有:減差法苫费、加差法

計算積差相關(guān)需滿足:要求成對的數(shù)據(jù)、兩列變量各自總體的分布都是正態(tài)双抽、兩相關(guān)變量都是連續(xù)變量黍衙、兩變量之間的關(guān)系應(yīng)是直線型的

計算斯皮爾曼等級相關(guān)可用:等級差數(shù)法、等級序數(shù)法

肯德爾 W 系數(shù)計算的是變量相關(guān)程度荠诬,沒有負數(shù)

質(zhì)量相關(guān)包括:點二相關(guān)琅翻、二相關(guān)、多相關(guān)

品質(zhì)相關(guān)主要有:四分相關(guān)柑贞、φ相關(guān)方椎、列聯(lián)相關(guān)

相關(guān)分析:分析對象是相關(guān)關(guān)系、分析方法主要是繪制相關(guān)圖和計算相關(guān)系數(shù)钧嘶、

直線回歸方程:建立前提條件是現(xiàn)象之間具有較密切的直線相關(guān)關(guān)系棠众、關(guān)鍵在于確定方程中的參數(shù)a和b、表明兩個相關(guān)變量間的數(shù)量變動關(guān)系有决、可用來根據(jù)自變量值推算因變量值闸拿,并可進行回歸預(yù)測

相關(guān)關(guān)系的特點是:現(xiàn)象之間確實存在數(shù)量上的依存關(guān)系,但是現(xiàn)象之間的數(shù)量依存關(guān)系值是不確定的

現(xiàn)象間的相關(guān)關(guān)系按相關(guān)形式分為:直線相關(guān)书幕、曲線相關(guān)

配合一元線性回歸方程須具備下列前提條件:現(xiàn)象間確實存在數(shù)量上的相互依存關(guān)系新荤、現(xiàn)象間的關(guān)系是直線關(guān)系,這種直線關(guān)系可用散點圖來表示台汇、具備一組自變量與因變量的對應(yīng)資料苛骨,且能明確哪個是自變量,哪個是因變量苟呐、兩個變量之間不是對等關(guān)系

由直線回歸方程y=a+bx所推算出來的y值也是一個等差級數(shù)

依分布函數(shù)的來源痒芝,可把概率分布劃分為:經(jīng)驗分布、理論分布

χ2分布的特點:取值均為正值牵素、分布是正偏態(tài)分布

使用正態(tài)分布表严衬,可以進行的計算:Z 分數(shù)與概率、概率與概率密度笆呆、Z 值與概率密度

檢驗次數(shù)分布是否正態(tài)的方法有:皮爾遜偏態(tài)量數(shù)法请琳、累加次數(shù)曲線法、峰度偏度檢驗法腰奋、直方圖法

二項分布

樣本平均數(shù)的分布為正態(tài)分布的條件:總體方差已知

F 分布特點:是一個正偏態(tài)分布单起、為正值、當組間自由度為1時劣坊, F檢驗與t檢驗的結(jié)果相同

標準分數(shù)(z-score)的優(yōu)點:可比性嘀倒、可加性、明確性、穩(wěn)定性

單側(cè)檢驗與雙側(cè)檢驗的區(qū)別包括:問題的提法不同测蘑、建立假設(shè)的形式不同灌危、否定域不同

關(guān)于SQL語句,聯(lián)合查詢使用的關(guān)鍵字是:UNION

積差相關(guān)系數(shù)

趨勢方程

時間每增加一個單位碳胳,Y平均減少1.2個單位
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末勇蝙,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子挨约,更是在濱河造成了極大的恐慌味混,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件诫惭,死亡現(xiàn)場離奇詭異翁锡,居然都是意外死亡,警方通過查閱死者的電腦和手機夕土,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門馆衔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人怨绣,你說我怎么就攤上這事角溃。” “怎么了篮撑?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵减细,是天一觀的道長。 經(jīng)常有香客問我咽扇,道長邪财,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任质欲,我火速辦了婚禮,結(jié)果婚禮上糠馆,老公的妹妹穿的比我還像新娘嘶伟。我一直安慰自己,他們只是感情好又碌,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布九昧。 她就那樣靜靜地躺著,像睡著了一般毕匀。 火紅的嫁衣襯著肌膚如雪铸鹰。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天皂岔,我揣著相機與錄音蹋笼,去河邊找鬼。 笑死,一個胖子當著我的面吹牛剖毯,可吹牛的內(nèi)容都是我干的圾笨。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼逊谋,長吁一口氣:“原來是場噩夢啊……” “哼擂达!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起胶滋,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤板鬓,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后究恤,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體俭令,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年丁溅,在試婚紗的時候發(fā)現(xiàn)自己被綠了唤蔗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡窟赏,死狀恐怖妓柜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情涯穷,我是刑警寧澤棍掐,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站拷况,受9級特大地震影響作煌,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赚瘦,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一粟誓、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧起意,春花似錦鹰服、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至亲善,卻和暖如春设易,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蛹头。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工顿肺, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留戏溺,地道東北人。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓挟冠,卻偏偏與公主長得像于购,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子知染,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容