CDA題目

大綱：

應(yīng)用情境例子：客戶價值評估（線性回歸）媳危、貸款違約識別（邏輯回歸）、不同班級的成績差異（方差分析）冈敛、根據(jù)用戶特征進行市場細分（聚類分析）

統(tǒng)計模型可以解決：預(yù)測分類待笑、相關(guān)分析、市場細分等問題抓谴。

傳統(tǒng)數(shù)據(jù)分析與數(shù)據(jù)挖掘模型對計量方式都有自身嚴格的要求暮蹂。

樣本量越大寞缝，抽樣誤差越小。

在其它條件不變的情況下仰泻，如果希望將誤差降低50%荆陆，則需4倍的樣本。

置信區(qū)間的例子：100次獨立抽樣產(chǎn)生的區(qū)間估計集侯，會有95次正確地包含著總體平均數(shù)被啼。

在其它條件不變的情況下，提高置信水平會使置信區(qū)間變大浅悉。

沒有理論趟据、業(yè)務(wù)向?qū)Ш图僭O(shè)條件的情況下券犁，可以進行探索性數(shù)據(jù)分析术健，了解數(shù)據(jù)情況。

遵循假設(shè)檢驗步驟是一種驗證性數(shù)據(jù)分析的思路粘衬。

t檢驗統(tǒng)計量的適用條件：小樣本荞估，并且方差未知

t檢驗例子：化肥改良后的效果（配對樣本t檢驗，兩相關(guān)樣本（改良前后的樣本對應(yīng)）是否來自相同均值的總體）稚新，商品質(zhì)量是否達標（單樣本t檢驗勘伺，單個變量的均值與指定的檢驗值之間是否存在顯著性差異/樣本均值與總體均值之間的差異），不同性別的成績是否有差異（獨立樣本t檢驗褂删，兩獨立樣本是否來自相同均值的總體）

方差分析同時檢驗兩組或多組均值是否存在差異飞醉。

正態(tài)分布是方差分析的前提。

方差的基本原理是方差的可加性屯阀。

方差不滿足齊性檢驗的情況下缅帘，也有可能是滿足正態(tài)分布的。

方差不滿足齊性檢驗的情況說明：不同組均值隱含的信息不同难衰；數(shù)據(jù)分析結(jié)果無法推理到總體钦无。

回歸分析之前，可以對數(shù)據(jù)做標準化處理盖袭、取對數(shù)處理

線性回歸的假設(shè)：線性（因變量與自變量呈線性關(guān)系）失暂、正態(tài)性（殘差服從正態(tài)分布）、獨立同分布（殘差間相互獨立且遵循同一分布）鳄虱、正交假定（誤差項與自變量不相關(guān)）

如果我們建立了y關(guān)于x的線性回歸方程弟塞，在沒有其它信息的情況下，我們只能說這兩個變量存在線性關(guān)系拙已。（不能當作因果關(guān)系）

Z-score標準化消除了量綱的影響决记。

識別異常值的方法：分位數(shù)判斷、轉(zhuǎn)化為Z-score判斷悠栓、聚類

主成分分析計算在選擇相關(guān)系數(shù)計算法時霉涨，確定主成分個數(shù)的大致原則包括：特征根值大于1按价，累計特征根值加總占總特征根值的80%以上。

主成分分析計算分為：根據(jù)相關(guān)系數(shù)和協(xié)方差矩陣兩種方式笙瑟。

變量的量綱不同時楼镐，適用相關(guān)系數(shù)計算。

主成分分析是把主成分表示成各個變量的線性組合往枷。

因子分析需要構(gòu)造因子模型：用潛在的假想變量和隨機影響變量的線性組合表示原始變量框产。

主成分法是常用的因子載荷矩陣的估計方法。

最大方差旋轉(zhuǎn)是最常用的因子旋轉(zhuǎn)方法错洁，是一種正交旋轉(zhuǎn)秉宿。

在選擇合適的因子數(shù)量時，可以適當放寬對于特征根大小的要求屯碴，大于0.7就可以描睦。

聚類模型需要事先采用因子分析對變量進行降維，分類模型需要事先對解釋變量進行因子分析导而。

將樣本按相似性的大小分成多個類的過程稱為聚類忱叭。

層次聚類可以提供聚類樹形圖。

當樣本量超過50時今艺，一般采用K均值聚類法韵丑，但是它對起始點位置敏感，也無法通過分析方法確定聚類個數(shù)虚缎，還容易受異常值的影響撵彻。

取百分位秩和分箱處理都會影響原變量的分布，標準化实牡、因子分析和變量聚類不會影響分布陌僵。

對應(yīng)分析是從主成分分析發(fā)展而來，用于兩個或多個分類變量間各分類水平相關(guān)性的比較铲掐。

多維尺度分析用于衡量樣本間相異性（距離）或相似程度拾弃，也就是尋求原始距離的一個最佳近似，使得在低維中也能表示這些距離摆霉。

Minkowski/歐式距離用于連續(xù)型數(shù)據(jù)豪椿，Jacard相似系數(shù)用于分類數(shù)據(jù)，余弦相似度反映了向量之間的余弦值携栋。

通過多維尺度分析將樣本點在二維圖中進行表示搭盾，通常是根據(jù)兩個樣本間的直線距離來判斷相似度。很多時候因為不了解用戶的主觀判斷標準婉支，所以無法解讀坐標含義鸯隅。

線性回歸的5個假設(shè)：1.解釋變量和被解釋變量之間存在線性關(guān)系；2.解釋變量和擾動項不能相關(guān)；3.解釋變量之間不能強線性相關(guān)蝌以；4.擾動項獨立同分布炕舵；5擾動項服從正態(tài)分布

常用的分類變量預(yù)測模型是邏輯回歸模型。

p為發(fā)生概率跟畅，p/(p-1)為發(fā)生比Odds

ROC曲線下面積值越接近1咽筋，表明模型預(yù)測能力越強。

建立邏輯回歸時徊件，需要對連續(xù)變量進行分箱處理奸攻，以此捕獲原始連續(xù)變量和被解釋變量之間非線性關(guān)系、避免異常值的影響虱痕。

一般在邏輯回歸中只關(guān)注系數(shù)的正負睹耐，一般不看大小：解釋變量X的系數(shù)為負部翘，則X增大會導(dǎo)致Odds下降硝训，即被解釋變量Y=1的概率下降。

數(shù)據(jù)庫的ER圖包含了表字段信息略就、表與表之間關(guān)系的信息捎迫、存儲表的數(shù)據(jù)庫信息

在數(shù)據(jù)庫中調(diào)整字段位置（MODIFY）時使用的關(guān)鍵詞為 FIRST 和 AFTER 沒有 BEFORE，在使用 ALTER TABLE…MODIFY…語句更改字段屬性或位置時至少需要指定字段名+字段的數(shù)據(jù)類型

網(wǎng)絡(luò)例題：

回歸分析的第一步是：確定解釋和被解釋變量

哪個變量可以反映客戶的忠誠度? ：購買頻次

對客戶的生命周期進行分類主要使用：聚類分析

什么方法可以用于檢驗信用卡類型和支出是否有關(guān)系表牢？：方差分析

加權(quán)移動平均法遵循的一般原則是：近期數(shù)據(jù)權(quán)數(shù)大，遠期數(shù)據(jù)權(quán)數(shù)小

當所有觀測值都落在回歸直線上贝次，則這兩個變量之間的相關(guān)系數(shù)為：+1或-1

SPSS中崔兴，定義性別變量時，假設(shè)用數(shù)值1表示男蛔翅，用數(shù)值2表示女敲茄，需要使用到的工具是：變量名標簽

甲、乙兩生產(chǎn)小組人均月工資分別為420元和537元山析，其方差均為80元堰燎，則兩小組人均工資的代表性：甲大于乙

區(qū)間估計依據(jù)的原理是：樣本分布理論

excel也可以建立三維圖表

抽取樣本單位的方法：重復(fù)抽樣、不重復(fù)抽樣

在全面調(diào)查和抽樣調(diào)查中都存在的誤差是：登記性誤差笋轨、責(zé)任心誤差秆剪、技術(shù)性誤差，系統(tǒng)性誤差不是

總體線性關(guān)系的模型可以包含多個變量

回歸變差（或回歸平方和）是指：被解釋變量的回歸值與平均值的離差平方和爵政、被解釋變量的總變差與剩余變差之差仅讽、解釋變量變動所引起的被解釋變量的變差

在表格排序時，筆畫和拼音可以作為排序的依據(jù)

EXCEL中“清除”不能刪掉單元格中某些類型的數(shù)據(jù)

平均差的優(yōu)點：平均差意義明確钾挟，計算容易洁灵；較好的代表了數(shù)據(jù)分布的離散程度；反應(yīng)靈敏

常見的差異量數(shù)有：平均差掺出、方差徽千、百分位數(shù)

利用離均差求積差相關(guān)系數(shù)的方法有：減差法苫费、加差法

計算積差相關(guān)需滿足：要求成對的數(shù)據(jù)、兩列變量各自總體的分布都是正態(tài)双抽、兩相關(guān)變量都是連續(xù)變量黍衙、兩變量之間的關(guān)系應(yīng)是直線型的

計算斯皮爾曼等級相關(guān)可用：等級差數(shù)法、等級序數(shù)法

肯德爾 W 系數(shù)計算的是變量相關(guān)程度荠诬，沒有負數(shù)

質(zhì)量相關(guān)包括：點二列相關(guān)琅翻、二列相關(guān)、多列相關(guān)

品質(zhì)相關(guān)主要有：四分相關(guān)柑贞、φ相關(guān)方椎、列聯(lián)相關(guān)

相關(guān)分析：分析對象是相關(guān)關(guān)系、分析方法主要是繪制相關(guān)圖和計算相關(guān)系數(shù)钧嘶、

直線回歸方程：建立前提條件是現(xiàn)象之間具有較密切的直線相關(guān)關(guān)系棠众、關(guān)鍵在于確定方程中的參數(shù)a和b、表明兩個相關(guān)變量間的數(shù)量變動關(guān)系有决、可用來根據(jù)自變量值推算因變量值闸拿，并可進行回歸預(yù)測

相關(guān)關(guān)系的特點是：現(xiàn)象之間確實存在數(shù)量上的依存關(guān)系，但是現(xiàn)象之間的數(shù)量依存關(guān)系值是不確定的

現(xiàn)象間的相關(guān)關(guān)系按相關(guān)形式分為：直線相關(guān)书幕、曲線相關(guān)

配合一元線性回歸方程須具備下列前提條件：現(xiàn)象間確實存在數(shù)量上的相互依存關(guān)系新荤、現(xiàn)象間的關(guān)系是直線關(guān)系，這種直線關(guān)系可用散點圖來表示台汇、具備一組自變量與因變量的對應(yīng)資料苛骨，且能明確哪個是自變量，哪個是因變量苟呐、兩個變量之間不是對等關(guān)系

由直線回歸方程y=a+bx所推算出來的y值也是一個等差級數(shù)

依分布函數(shù)的來源痒芝，可把概率分布劃分為：經(jīng)驗分布、理論分布

χ2分布的特點：取值均為正值牵素、分布是正偏態(tài)分布

使用正態(tài)分布表严衬，可以進行的計算：Z 分數(shù)與概率、概率與概率密度笆呆、Z 值與概率密度

檢驗次數(shù)分布是否正態(tài)的方法有：皮爾遜偏態(tài)量數(shù)法请琳、累加次數(shù)曲線法、峰度偏度檢驗法腰奋、直方圖法

二項分布

樣本平均數(shù)的分布為正態(tài)分布的條件：總體方差已知

F 分布特點：是一個正偏態(tài)分布单起、為正值、當組間自由度為1時劣坊， F檢驗與t檢驗的結(jié)果相同

標準分數(shù)（z-score）的優(yōu)點：可比性嘀倒、可加性、明確性、穩(wěn)定性

單側(cè)檢驗與雙側(cè)檢驗的區(qū)別包括：問題的提法不同测蘑、建立假設(shè)的形式不同灌危、否定域不同

關(guān)于SQL語句，聯(lián)合查詢使用的關(guān)鍵字是：UNION

積差相關(guān)系數(shù)

趨勢方程

時間每增加一個單位碳胳，Y平均減少1.2個單位

最后編輯于：2017.12.26 10:10:08

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末勇蝙，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子挨约，更是在濱河造成了極大的恐慌味混，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件诫惭，死亡現(xiàn)場離奇詭異翁锡，居然都是意外死亡，警方通過查閱死者的電腦和手機夕土，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門馆衔，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人怨绣，你說我怎么就攤上這事角溃。” “怎么了篮撑？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵减细，是天一觀的道長。經(jīng)常有香客問我咽扇，道長邪财，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任质欲，我火速辦了婚禮，結(jié)果婚禮上糠馆，老公的妹妹穿的比我還像新娘嘶伟。我一直安慰自己，他們只是感情好又碌，可當我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布九昧。她就那樣靜靜地躺著，像睡著了一般毕匀。火紅的嫁衣襯著肌膚如雪铸鹰。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天皂岔，我揣著相機與錄音蹋笼，去河邊找鬼。笑死，一個胖子當著我的面吹牛剖毯，可吹牛的內(nèi)容都是我干的圾笨。我是一名探鬼主播，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼逊谋，長吁一口氣：“原來是場噩夢啊……” “哼擂达！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起胶滋，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤板鬓，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后究恤，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體俭令，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年丁溅，在試婚紗的時候發(fā)現(xiàn)自己被綠了唤蔗。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡窟赏，死狀恐怖妓柜，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情涯穷，我是刑警寧澤棍掐，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站拷况，受9級特大地震影響作煌，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赚瘦，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一粟誓、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧起意，春花似錦鹰服、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案悲酷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至亲善，卻和暖如春设易，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背蛹头。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工顿肺，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留戏溺，地道東北人。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓挟冠，卻偏偏與公主長得像于购，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子知染，可洞房花燭夜當晚...
茶點故事閱讀 44,577評論 2贊 353

CDA題目

推薦閱讀更多精彩內(nèi)容