先這樣吧窒盐,回家用電腦修改格式辐烂。以下全是在soton學習統(tǒng)計概率第七章做的筆記。記錄了主要的文字內容
?0001統(tǒng)計概率
1-統(tǒng)計概率與數據挖掘的關系?
統(tǒng)計概率是數據挖掘的基礎镜遣,任何學數據挖掘和機器學習或者更高深的學習的時候都必須掌握統(tǒng)計學以及概率論的知識
2-統(tǒng)計學作用
統(tǒng)計更多的是教會我們如何使用一種統(tǒng)計的思維面對數據或者分析數據。統(tǒng)計學讓我們學習一些基礎的工具和方法讓我們去分析數據
3-概率
概率是描述一種不確定性
4-描述性統(tǒng)計
面對一份數據如何分析汛蝙、用哪些方法烈涮、從哪些角度去切入
5-統(tǒng)計數據分類
(主要記住第一種統(tǒng)計數據分類方法:分類數據、順序數據窖剑、數值型數據)
(1)按照所采用的計量尺度不同坚洽,可以將統(tǒng)計數據分為分類數據、順序數據和數值型數據西土。分類數據是指只能歸于某一類別的非數字型數據讶舰,比如性別中的男女就是分類數據。順序數據是只能歸于某一有序類別的非數字型數據需了,比如產品的等級跳昼。數值型數據是按數字尺度測量的觀察值,它是自然或度量衡單位對事物進行測量的結果肋乍。
(2)按照統(tǒng)計數據的收集方法鹅颊,可以將其分為觀測數據和實驗數據。觀測數據是通過調查或觀測而收集到的數據墓造,它是在沒有對事物進行人為控制的條件下得到的堪伍,有關社會經濟現象的統(tǒng)計數據幾乎都是觀測數據。在實驗中控制實驗對象而收集到的數據則稱為實驗數據觅闽。
(3)按照被描述的對象與時間的關系帝雇,可以將統(tǒng)計數據分為截面數據和時間序列數據。在相同或近似相同的時間點上收集到的數據稱為截面數據蛉拙。在不同時間上收集到的數據尸闸,稱為時間序列數據。
0002描述統(tǒng)計:表格法和圖形法
? ? ? ? ? ? ? ? ? ? ? ? ? —(分類型數據孕锄、連續(xù)型數據吮廉、數量型數據)
一、表格法和圖形法:分類型數據匯總
用文本描述的肯定是分類變量畸肆、用數值描述的不一定是連續(xù)變量(EG:星期幾一般是離散變量)宦芦。總之分類型的數據沒有大小的
數據值型的數據是有大小關系的(EG:身高恼除、電影時長)
1踪旷、 頻數分布
一般使用數據透視表進行分析。計算每個值(文本)的頻數(數量)
2豁辉、相對頻數分布
每個文本對應的數量 / 所有文本累計數量
3令野、百分數頻數分布
(每個文本對應的數量 / 所有文本累計數量)* 100%
4、柱狀圖
用柱狀圖表達頻數的分布
5徽级、餅形圖
小結:分類型數據第一步是看它的頻數分布气破。看一下條形圖餐抢、看一下餅形圖现使、看一下頻數分布。分類型數據分析的方法非常少
二旷痕、表格法和圖形法:數量型數據匯總/連續(xù)型數據分布
1碳锈、頻數分布。三步驟:
A 確定互補重疊的組數:規(guī)定數據范圍欺抗,這個范圍用于數據進行分組售碳,一般選取5—20
將連續(xù)數據進行分組(分層)
B 確定每組的寬度:每組寬度相同。近似組寬 = (最大值 – 最小值)/ 組數
C 確定組限绞呈,保證每一個數據屬于且只屬于一組
將連續(xù)的特征離散化
2贸人、直方圖hist
變量放置在橫軸上,頻數放置在縱軸上佃声。每組的頻數用一個長方形繪制
添加數據分析工具庫
(直方圖就是某種條件下的頻數分布可視化形式)
小結:統(tǒng)計連續(xù)性特征的頻數艺智,可以了解數據大致的分布
三、表格法和圖形法:雙變量—交叉分組和散點圖
1圾亏、交叉分組表是一種匯總兩個變量數據的方法十拣,兩個變量可以是分類或者是數量的。最常見的是一個變量為分類召嘶,一個變量是數量父晶。
2、散點圖是對兩個數量變量間關系的圖形描述弄跌,趨勢線是顯示相關性近似程度的一條線
0003描述統(tǒng)計:數值方法(連續(xù)型數據)
一甲喝、位置的度量
二、變異程度的度量
三铛只、分布形態(tài)埠胖、相對位置的度量以及異常值的檢測
四、五數概括法
五淳玩、兩變量關系的度量
前言1:當我們拿到一份數據是連續(xù)型數據的時候直撤,,第一時間想到我們怎么考察這個數據分析這個數據蜕着。比如老板給你一份2018年全年的銷售數據你應該怎么分析應該有這種思路從頻數分布來衡量谋竖、位置的角度來衡量红柱、從變異程度來衡量、從相對位置度量檢測是否有異常值蓖乘、包括五數概括法杭跪。這些都是我們用來分析的思路
前言:剛剛講了描述性統(tǒng)計最基礎的圖表法來描述數據特征觉啊,而我們剛剛也說了分類型數據的方法非常少兔院,但是連續(xù)型數量型榨了、數值型它的方法就非常多,剛才講的就是最基礎的圖形法圖表法些侍,這一章節(jié)主要講解數量型/連續(xù)型數據的數值計算方法隶症。
以后在面對數據的時候需要從這幾個方法切入數據,提出結論用來進行分析報告岗宣。這些方法是統(tǒng)計最簡單最常用的分析數據
一蚂会、數值方法:位置的度量(連續(xù)型數據)
1、平均數
平均數存在眾多的缺陷耗式,當你有一個極小值或者極大值存在的時候颂龙。雖然平均數存在缺陷但是我們可以通過某些計算方式克服掉
2、中位數
所有數據中間的位置纽什。不受極端值的影響措嵌。計算中位數首先要從小到大排序
3、眾數
出現次數做多的數字芦缰,相當于計算頻數
4企巢、百分位數
百分位數首先還是要排序。
百分位數提供了數據如何散布在從最小值到最大值的區(qū)間上的信息
百分位數是一個數字让蕾。
計算第P百分位數:
A 浪规、把數據從小到大排序
B 、計算指數i = (P / 100)* n
C 探孝、P是所求的百分位數笋婿,比如25%分位數,P就等于25顿颅。n 是觀測值的個數缸濒,即數據的總個數
D 、若i不是整數粱腻,向上取整庇配。大于i的下一個整數表示第P百分位數的位置(百分位數的位置是一個數)。若i是整數绍些,則第P百分位數是第i 項和i+1項的數據平均
5捞慌、四分位數
小結:位置的度量除了傳統(tǒng)的平均數和中位數。我們更多的是百分位數和四分位數
二柬批、數值方法:變異程度的度量(連續(xù)型數據)
數據的波動情況是什么樣的
1啸澡、極差
2袖订、四分位數間距
Q3 – Q2 (75% - 50%、75% - 25%)嗅虏≈牵可以克服異常值的影響,極差不能克服異常值的影響
3旋恼、方差
對數據變異程度做的一種度量,方差越大變異程度越大奄容。
在統(tǒng)計學里面一個是總體一個是樣本冰更。總體方差和樣本方差有一點點不同昂勒,不同的地方在分母上蜀细。我們一般計算方差都是樣本方差,無法取到全部的數據
方差越大變異程度越大戈盈,方差越小變異程度越小
4奠衔、標準差S
方差開根號就是標準差√寥ⅲ可以轉換為與原始數據一樣的單位
5归斤、標準差系數
標準差系數 = (標準差 / 平均數) * 100%
小結:如何要知道數值型數據的變異程度我們就要從這額幾個指標來進行計算。
三刁岸、數值方法:分布形態(tài)脏里、相對位置的度量以及異常值的檢測(連續(xù)型數據)
1、Z—分數虹曙,也叫標準分數迫横。被認為是對數據集中觀測值相對位置的度量
A、Z分數 = (觀測值 – 平均數)/ 標準差
B酝碳、觀測值 – 平均數:表示觀測值與平均數的距離矾踱。
C、得出的值描述為:觀測值比平均值小1.2個標準差疏哗,觀測值比平均值大2個標準差呛讲,如果不同觀測值的Z分數相同可以說它們的相對位置是相同的
D、Z分數可以用來檢測異常值返奉。經驗法則圣蝎,當數據符合正態(tài)分布的時候,大部分數據與平均數的距離都是3個標準差之內衡瓶;如果觀測值與平均值之間距離超過3個標準差就是異常值
E徘公、Z分數在學習模型的時候經常用到。
2哮针、切比雪夫定理
定義:與平均數的距離在Z個標準差之內的數值所占比例至少為(1 – 1/Z^2),其中Z是大于1的任意實數
Z表示Z分數关面。
3坦袍、異常值檢測(線箱圖BOXPLOX)
A 、上限:Q1 – 1.5 * IQR
Q1表示25%分位數等太,IQR表示四分位距
B 捂齐、下限:Q3 + 1.5 * IQR
Q3表示75%分位數
四、數值方法:五數概括法(連續(xù)型數據)
1缩抡、最小值奠宜、最大值、Q1(25%分位數)瞻想、Q2(50%分位數)压真、Q3(75%分位數);線箱圖是表達五數概括法數據的圖形
2蘑险、下限lower limit? 滴肿、上限upper limit
五、數值方法:兩變量關系的度量(連續(xù)型數據)
1佃迄、協方差Sxy
協方差正負代表了x和y關系的方向泼差,數值的大小代表了關系的強弱,數值越大代表關系越強呵俏,數值越小代表關系越弱
協方差會受到數據單位的計量(缺陷)
2堆缘、皮爾遜相關系數Rxy
Rxy = Sxy / Sx * Sy
Rxy:相關系數
Sx:X的標準差
Sy:Y的標準差
A、相關系數在-1到1之間普碎,正負代表了X和Y關系的方向(比如身高和體重會成正相關)套啤,數值大小代表了關系的強弱,數值越大代表相關性越強随常,數值越小代表相關性越小潜沦。如果是1代表完全一致的相關性或者說非常強的相關性。
B绪氛、皮爾遜相關系數越接近于1他們的相關性越強唆鸡,越接近于0他們的相關性越弱。0的時候代表它們沒有任何關系
C枣察、相關系數我只是提供了顯性的提供了這兩個變量之間他們是否有相關性争占,并不代表有因果關系
小結:如果拿到兩個連續(xù)性的特征進行分析,可以做散點圖序目,可以用seaborn作出那條直線臂痕、后面還會講到置信區(qū)間,可以用數值的方法皮爾遜相關系數來衡量他們之間的關系猿涨。皮爾遜相關系數是一個比較重要的概念握童,凡是想到兩個變量之間是否相關我們一般會用到皮爾遜相關系數
20181209排版更新星期天