20181128總結-統(tǒng)計概率01(數據分析思路)

先這樣吧窒盐,回家用電腦修改格式辐烂。以下全是在soton學習統(tǒng)計概率第七章做的筆記。記錄了主要的文字內容

?0001統(tǒng)計概率

1-統(tǒng)計概率與數據挖掘的關系?

統(tǒng)計概率是數據挖掘的基礎镜遣,任何學數據挖掘和機器學習或者更高深的學習的時候都必須掌握統(tǒng)計學以及概率論的知識

2-統(tǒng)計學作用

統(tǒng)計更多的是教會我們如何使用一種統(tǒng)計的思維面對數據或者分析數據。統(tǒng)計學讓我們學習一些基礎的工具和方法讓我們去分析數據

3-概率

概率是描述一種不確定性

4-描述性統(tǒng)計

面對一份數據如何分析汛蝙、用哪些方法烈涮、從哪些角度去切入

5-統(tǒng)計數據分類

(主要記住第一種統(tǒng)計數據分類方法:分類數據、順序數據窖剑、數值型數據)

(1)按照所采用的計量尺度不同坚洽,可以將統(tǒng)計數據分為分類數據、順序數據和數值型數據西土。分類數據是指只能歸于某一類別的非數字型數據讶舰,比如性別中的男女就是分類數據。順序數據是只能歸于某一有序類別的非數字型數據需了,比如產品的等級跳昼。數值型數據是按數字尺度測量的觀察值,它是自然或度量衡單位對事物進行測量的結果肋乍。

(2)按照統(tǒng)計數據的收集方法鹅颊,可以將其分為觀測數據和實驗數據。觀測數據是通過調查或觀測而收集到的數據墓造,它是在沒有對事物進行人為控制的條件下得到的堪伍,有關社會經濟現象的統(tǒng)計數據幾乎都是觀測數據。在實驗中控制實驗對象而收集到的數據則稱為實驗數據觅闽。

(3)按照被描述的對象與時間的關系帝雇,可以將統(tǒng)計數據分為截面數據和時間序列數據。在相同或近似相同的時間點上收集到的數據稱為截面數據蛉拙。在不同時間上收集到的數據尸闸,稱為時間序列數據。


0002描述統(tǒng)計:表格法和圖形法

? ? ? ? ? ? ? ? ? ? ? ? ? —(分類型數據孕锄、連續(xù)型數據吮廉、數量型數據)


一、表格法和圖形法:分類型數據匯總

用文本描述的肯定是分類變量畸肆、用數值描述的不一定是連續(xù)變量(EG:星期幾一般是離散變量)宦芦。總之分類型的數據沒有大小的

數據值型的數據是有大小關系的(EG:身高恼除、電影時長)

1踪旷、 頻數分布

一般使用數據透視表進行分析。計算每個值(文本)的頻數(數量)

2豁辉、相對頻數分布

每個文本對應的數量 / 所有文本累計數量

3令野、百分數頻數分布

(每個文本對應的數量 / 所有文本累計數量)* 100%

4、柱狀圖

用柱狀圖表達頻數的分布

5徽级、餅形圖

小結:分類型數據第一步是看它的頻數分布气破。看一下條形圖餐抢、看一下餅形圖现使、看一下頻數分布。分類型數據分析的方法非常少


二旷痕、表格法和圖形法:數量型數據匯總/連續(xù)型數據分布

1碳锈、頻數分布。三步驟:

A 確定互補重疊的組數:規(guī)定數據范圍欺抗,這個范圍用于數據進行分組售碳,一般選取5—20

將連續(xù)數據進行分組(分層)

B 確定每組的寬度:每組寬度相同。近似組寬 = (最大值 – 最小值)/ 組數

C 確定組限绞呈,保證每一個數據屬于且只屬于一組

將連續(xù)的特征離散化

2贸人、直方圖hist

變量放置在橫軸上,頻數放置在縱軸上佃声。每組的頻數用一個長方形繪制

添加數據分析工具庫

(直方圖就是某種條件下的頻數分布可視化形式)

小結:統(tǒng)計連續(xù)性特征的頻數艺智,可以了解數據大致的分布


三、表格法和圖形法:雙變量—交叉分組和散點圖

1圾亏、交叉分組表是一種匯總兩個變量數據的方法十拣,兩個變量可以是分類或者是數量的。最常見的是一個變量為分類召嘶,一個變量是數量父晶。

2、散點圖是對兩個數量變量間關系的圖形描述弄跌,趨勢線是顯示相關性近似程度的一條線


0003描述統(tǒng)計:數值方法(連續(xù)型數據)


一甲喝、位置的度量

二、變異程度的度量

三铛只、分布形態(tài)埠胖、相對位置的度量以及異常值的檢測

四、五數概括法

五淳玩、兩變量關系的度量


前言1:當我們拿到一份數據是連續(xù)型數據的時候直撤,,第一時間想到我們怎么考察這個數據分析這個數據蜕着。比如老板給你一份2018年全年的銷售數據你應該怎么分析應該有這種思路從頻數分布來衡量谋竖、位置的角度來衡量红柱、從變異程度來衡量、從相對位置度量檢測是否有異常值蓖乘、包括五數概括法杭跪。這些都是我們用來分析的思路

前言:剛剛講了描述性統(tǒng)計最基礎的圖表法來描述數據特征觉啊,而我們剛剛也說了分類型數據的方法非常少兔院,但是連續(xù)型數量型榨了、數值型它的方法就非常多,剛才講的就是最基礎的圖形法圖表法些侍,這一章節(jié)主要講解數量型/連續(xù)型數據的數值計算方法隶症。

以后在面對數據的時候需要從這幾個方法切入數據,提出結論用來進行分析報告岗宣。這些方法是統(tǒng)計最簡單最常用的分析數據


一蚂会、數值方法:位置的度量(連續(xù)型數據)

1、平均數

平均數存在眾多的缺陷耗式,當你有一個極小值或者極大值存在的時候颂龙。雖然平均數存在缺陷但是我們可以通過某些計算方式克服掉

2、中位數

所有數據中間的位置纽什。不受極端值的影響措嵌。計算中位數首先要從小到大排序

3、眾數

出現次數做多的數字芦缰,相當于計算頻數

4企巢、百分位數

百分位數首先還是要排序。

百分位數提供了數據如何散布在從最小值到最大值的區(qū)間上的信息

百分位數是一個數字让蕾。

計算第P百分位數:

A 浪规、把數據從小到大排序

B 、計算指數i = (P / 100)* n

C 探孝、P是所求的百分位數笋婿,比如25%分位數,P就等于25顿颅。n 是觀測值的個數缸濒,即數據的總個數

D 、若i不是整數粱腻,向上取整庇配。大于i的下一個整數表示第P百分位數的位置(百分位數的位置是一個數)。若i是整數绍些,則第P百分位數是第i 項和i+1項的數據平均

5捞慌、四分位數

小結:位置的度量除了傳統(tǒng)的平均數和中位數。我們更多的是百分位數和四分位數


二柬批、數值方法:變異程度的度量(連續(xù)型數據)

數據的波動情況是什么樣的

1啸澡、極差

2袖订、四分位數間距

Q3 – Q2 (75% - 50%、75% - 25%)嗅虏≈牵可以克服異常值的影響,極差不能克服異常值的影響

3旋恼、方差

對數據變異程度做的一種度量,方差越大變異程度越大奄容。

在統(tǒng)計學里面一個是總體一個是樣本冰更。總體方差和樣本方差有一點點不同昂勒,不同的地方在分母上蜀细。我們一般計算方差都是樣本方差,無法取到全部的數據

方差越大變異程度越大戈盈,方差越小變異程度越小

4奠衔、標準差S

方差開根號就是標準差√寥ⅲ可以轉換為與原始數據一樣的單位

5归斤、標準差系數

標準差系數 = (標準差 / 平均數) * 100%

小結:如何要知道數值型數據的變異程度我們就要從這額幾個指標來進行計算。


三刁岸、數值方法:分布形態(tài)脏里、相對位置的度量以及異常值的檢測(連續(xù)型數據)

1、Z—分數虹曙,也叫標準分數迫横。被認為是對數據集中觀測值相對位置的度量

A、Z分數 = (觀測值 – 平均數)/ 標準差

B酝碳、觀測值 – 平均數:表示觀測值與平均數的距離矾踱。

C、得出的值描述為:觀測值比平均值小1.2個標準差疏哗,觀測值比平均值大2個標準差呛讲,如果不同觀測值的Z分數相同可以說它們的相對位置是相同的

D、Z分數可以用來檢測異常值返奉。經驗法則圣蝎,當數據符合正態(tài)分布的時候,大部分數據與平均數的距離都是3個標準差之內衡瓶;如果觀測值與平均值之間距離超過3個標準差就是異常值

E徘公、Z分數在學習模型的時候經常用到。

2哮针、切比雪夫定理

定義:與平均數的距離在Z個標準差之內的數值所占比例至少為(1 – 1/Z^2),其中Z是大于1的任意實數

Z表示Z分數关面。


3坦袍、異常值檢測(線箱圖BOXPLOX)

A 、上限:Q1 – 1.5 * IQR

Q1表示25%分位數等太,IQR表示四分位距

B 捂齐、下限:Q3 + 1.5 * IQR

Q3表示75%分位數


四、數值方法:五數概括法(連續(xù)型數據)

1缩抡、最小值奠宜、最大值、Q1(25%分位數)瞻想、Q2(50%分位數)压真、Q3(75%分位數);線箱圖是表達五數概括法數據的圖形

2蘑险、下限lower limit? 滴肿、上限upper limit


五、數值方法:兩變量關系的度量(連續(xù)型數據)

1佃迄、協方差Sxy

協方差正負代表了x和y關系的方向泼差,數值的大小代表了關系的強弱,數值越大代表關系越強呵俏,數值越小代表關系越弱

協方差會受到數據單位的計量(缺陷)


2堆缘、皮爾遜相關系數Rxy

Rxy = Sxy / Sx * Sy

Rxy:相關系數

Sx:X的標準差

Sy:Y的標準差

A、相關系數在-1到1之間普碎,正負代表了X和Y關系的方向(比如身高和體重會成正相關)套啤,數值大小代表了關系的強弱,數值越大代表相關性越強随常,數值越小代表相關性越小潜沦。如果是1代表完全一致的相關性或者說非常強的相關性。

B绪氛、皮爾遜相關系數越接近于1他們的相關性越強唆鸡,越接近于0他們的相關性越弱。0的時候代表它們沒有任何關系

C枣察、相關系數我只是提供了顯性的提供了這兩個變量之間他們是否有相關性争占,并不代表有因果關系

小結:如果拿到兩個連續(xù)性的特征進行分析,可以做散點圖序目,可以用seaborn作出那條直線臂痕、后面還會講到置信區(qū)間,可以用數值的方法皮爾遜相關系數來衡量他們之間的關系猿涨。皮爾遜相關系數是一個比較重要的概念握童,凡是想到兩個變量之間是否相關我們一般會用到皮爾遜相關系數


20181209排版更新星期天

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市叛赚,隨后出現的幾起案子澡绩,更是在濱河造成了極大的恐慌稽揭,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,430評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肥卡,死亡現場離奇詭異溪掀,居然都是意外死亡,警方通過查閱死者的電腦和手機步鉴,發(fā)現死者居然都...
    沈念sama閱讀 94,406評論 3 398
  • 文/潘曉璐 我一進店門揪胃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人氛琢,你說我怎么就攤上這事喊递。” “怎么了艺沼?”我有些...
    開封第一講書人閱讀 167,834評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蕴掏。 經常有香客問我障般,道長,這世上最難降的妖魔是什么盛杰? 我笑而不...
    開封第一講書人閱讀 59,543評論 1 296
  • 正文 為了忘掉前任挽荡,我火速辦了婚禮,結果婚禮上即供,老公的妹妹穿的比我還像新娘定拟。我一直安慰自己,他們只是感情好逗嫡,可當我...
    茶點故事閱讀 68,547評論 6 397
  • 文/花漫 我一把揭開白布青自。 她就那樣靜靜地躺著,像睡著了一般驱证。 火紅的嫁衣襯著肌膚如雪延窜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,196評論 1 308
  • 那天抹锄,我揣著相機與錄音逆瑞,去河邊找鬼。 笑死伙单,一個胖子當著我的面吹牛获高,可吹牛的內容都是我干的。 我是一名探鬼主播吻育,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼念秧,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了布疼?” 一聲冷哼從身側響起出爹,我...
    開封第一講書人閱讀 39,671評論 0 276
  • 序言:老撾萬榮一對情侶失蹤庄吼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后严就,有當地人在樹林里發(fā)現了一具尸體总寻,經...
    沈念sama閱讀 46,221評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,303評論 3 340
  • 正文 我和宋清朗相戀三年梢为,在試婚紗的時候發(fā)現自己被綠了渐行。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,444評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡铸董,死狀恐怖祟印,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情粟害,我是刑警寧澤蕴忆,帶...
    沈念sama閱讀 36,134評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站悲幅,受9級特大地震影響套鹅,放射性物質發(fā)生泄漏。R本人自食惡果不足惜汰具,卻給世界環(huán)境...
    茶點故事閱讀 41,810評論 3 333
  • 文/蒙蒙 一卓鹿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧留荔,春花似錦吟孙、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,285評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至碘勉,卻和暖如春稚失,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背恰聘。 一陣腳步聲響...
    開封第一講書人閱讀 33,399評論 1 272
  • 我被黑心中介騙來泰國打工句各, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人晴叨。 一個月前我還...
    沈念sama閱讀 48,837評論 3 376
  • 正文 我出身青樓凿宾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親兼蕊。 傳聞我的和親對象是個殘疾皇子初厚,可洞房花燭夜當晚...
    茶點故事閱讀 45,455評論 2 359

推薦閱讀更多精彩內容