第一周 描述性統(tǒng)計(jì)

0x00 前言

參加居士的數(shù)據(jù)挖掘?qū)W習(xí)小組凹嘲,按周產(chǎn)出筆記师倔,這周的學(xué)習(xí)內(nèi)容是 【數(shù)據(jù)的描述性統(tǒng)計(jì)】,按照居士的推薦周蹭,學(xué)習(xí)資料主要是【人人都會(huì)數(shù)據(jù)分析這本書(shū)】趋艘,這周的學(xué)習(xí)內(nèi)容主要集中在第三章

0x01 數(shù)據(jù)的類(lèi)型

從方便數(shù)據(jù)處理和分析的角度,常用的數(shù)據(jù)的分類(lèi)方式有三種

1凶朗、數(shù)據(jù)的結(jié)構(gòu)屬性分類(lèi)

按照數(shù)據(jù)的結(jié)構(gòu)數(shù)據(jù)瓷胧,數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)

  • 結(jié)構(gòu)化數(shù)據(jù)

結(jié)構(gòu)化數(shù)據(jù)就是有一定結(jié)構(gòu)的數(shù)據(jù),能存儲(chǔ)在結(jié)構(gòu)化數(shù)據(jù)庫(kù)中棚愤,有字段元數(shù)據(jù)描述的數(shù)據(jù)搓萧,例如:我們常用的關(guān)系型數(shù)據(jù)庫(kù),mysql、oracle中的每張表存儲(chǔ)的就是結(jié)構(gòu)化數(shù)據(jù)

  • 非結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù)是沒(méi)有統(tǒng)一的規(guī)則的數(shù)據(jù)矛绘,例如視頻耍休、圖像、文檔等

在數(shù)據(jù)處理的過(guò)程中货矮,我們一般處理結(jié)構(gòu)化數(shù)據(jù)羊精,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)我們也會(huì)提取特征去按照處理結(jié)構(gòu)化數(shù)據(jù)的方式處理,例如人臉識(shí)別囚玫,人臉圖像是非結(jié)構(gòu)化數(shù)據(jù)喧锦,但是我們可以提取人臉圖像的特性,例如:膚色抓督、眼睛大小燃少、臉形等特征形成結(jié)構(gòu)化數(shù)據(jù)處理

2囱井、數(shù)據(jù)的連續(xù)性特征分類(lèi)

按照連續(xù)性特征嘿架,數(shù)據(jù)可分類(lèi)位連續(xù)性數(shù)據(jù)和離散性數(shù)據(jù)

  • 連續(xù)型數(shù)據(jù)

連續(xù)型數(shù)據(jù)理論上是可以在一定區(qū)間內(nèi)任意取值雕什,可以精確到任意小數(shù)位蹬癌,例如:每天的銷(xiāo)售額亏吝,這個(gè)數(shù)據(jù)就是連續(xù)的混埠,每天的銷(xiāo)售額可以精確到任意位數(shù)

  • 離散型數(shù)據(jù)

離散型數(shù)據(jù)是隔斷的霉翔,數(shù)據(jù)之間不是連續(xù)的咖为,在一定區(qū)間內(nèi)揣炕,只能取固定的數(shù)值帘皿,例如:商城每天的人流量,這個(gè)數(shù)據(jù)是固定的整數(shù)畸陡,不可能是小數(shù)

3鹰溜、數(shù)據(jù)的測(cè)量尺度分類(lèi)

測(cè)量尺度指數(shù)據(jù)按一定的標(biāo)準(zhǔn)尺度測(cè)量得到數(shù)據(jù)的特征尺度,按照尺度的不同可以分為四類(lèi)

  • 定類(lèi)數(shù)據(jù)

我們通過(guò)數(shù)據(jù)的某些特征丁恭,按照一定的尺度標(biāo)準(zhǔn)分為不同的類(lèi)別曹动,這類(lèi)數(shù)據(jù)我們可以分為定類(lèi)數(shù)據(jù),例如涩惑,按照學(xué)生的生源地仁期,我們可以按照一定的尺度(地域規(guī)則)將學(xué)生的來(lái)源分為南方和北方,活著東方和西方

  • 定序數(shù)據(jù)

定序數(shù)據(jù)指按照一定的尺度竭恬,數(shù)據(jù)之間可以按照一定的順序排列跛蛋,例如:學(xué)生成績(jī),按照班級(jí)進(jìn)行排序痊硕,這些成績(jī)數(shù)據(jù)就可以定序了

  • 定距數(shù)據(jù)

定距數(shù)據(jù)按照一定的尺度不僅能對(duì)數(shù)據(jù)進(jìn)行分類(lèi)赊级、排序還能看出數(shù)據(jù)的差距,例如:學(xué)生的成績(jī)岔绸,可以分為及格和不及格理逊,同樣可以按照名次排序橡伞,我們還可以看出未及格的學(xué)生成績(jī)距離及格線(xiàn)差多少分,及格的學(xué)生成績(jī)高于及格線(xiàn)多少分

所以定距數(shù)據(jù)比定類(lèi)和定序數(shù)據(jù)多了加減的描述

  • 定比數(shù)據(jù)

定比數(shù)據(jù)是定據(jù)數(shù)據(jù)的特殊形式晋被,除了分類(lèi)兑徘、排序、加減性質(zhì)外羡洛,還有乘除性質(zhì)挂脑,例如:學(xué)生成績(jī),我們可以按照成績(jī)區(qū)間計(jì)算成績(jī)好和差的學(xué)生比例

數(shù)據(jù)的分類(lèi)方法有很多共通的地方欲侮,下圖是書(shū)中的一張總結(jié)圖崭闲,很好的說(shuō)明了數(shù)據(jù)類(lèi)型的關(guān)系


image

0x02 數(shù)據(jù)的描述性統(tǒng)計(jì)

雖然數(shù)據(jù)的分類(lèi)方法、類(lèi)型有很多威蕉,但是所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個(gè)維度進(jìn)行描述:集中趨勢(shì)描述刁俭、離散程度描述、分布形態(tài)描述

每個(gè)描述維度包含很多描述指標(biāo)韧涨,這些指標(biāo)適用于不同的數(shù)據(jù)類(lèi)型牍戚,也就是我們這周重點(diǎn)要了解的概念

1、數(shù)據(jù)的集中趨勢(shì)

  • 眾數(shù)

眾數(shù)氓奈,從字面意思很好理解翘魄,就是最多的數(shù)鼎天,注意舀奶,如果數(shù)據(jù)集合中每個(gè)數(shù)的出現(xiàn)次數(shù)都一樣,那么這個(gè)數(shù)據(jù)集合沒(méi)有眾數(shù)

  • 中位數(shù)

中位數(shù)斋射,同樣可以從字面意思理解育勺,就是最中間的數(shù),一堆數(shù)據(jù)有序排列罗岖,中位數(shù)左邊的數(shù)和右邊的數(shù)個(gè)數(shù)一樣涧至,如果一共有偶數(shù)個(gè)數(shù),中間的數(shù)有兩個(gè)桑包,取平均值

  • 平均數(shù)

平均數(shù)包括算數(shù)平均數(shù)南蓬、加權(quán)平均數(shù)、幾何平均數(shù)

  • 算數(shù)平均數(shù)

算數(shù)平均數(shù)是最常見(jiàn)的集中趨勢(shì)指標(biāo)哑了,即:數(shù)據(jù)集之和除以數(shù)據(jù)的個(gè)數(shù)

  • 加權(quán)平均數(shù)

算數(shù)平均數(shù)是將每個(gè)數(shù)看作同樣重要赘方,有時(shí)候并不符合實(shí)際情況,所以給不同的數(shù)據(jù)賦予不同的權(quán)值計(jì)算出的平均數(shù)就是加權(quán)平均數(shù)弱左,例如:一個(gè)數(shù)據(jù)集合窄陡,有k種不同類(lèi)型,每組的算數(shù)平均數(shù)分別為x1-拆火、x2-跳夭、x3-涂圆。。币叹。xk-润歉,每組數(shù)據(jù)的個(gè)數(shù)為f1、f2颈抚、f3卡辰。。邪意。九妈,每組權(quán)重也是f1、f2雾鬼。萌朱。。,所以加權(quán)平均數(shù)為

m=\frac{f_{1} \overline{x}_{1}+f_{2} \overline{x}_{2}+\cdots+f_{k} \overline{x}_{k}}{f_{1}+f_{2}+\cdots f_{k}}
  • 幾何平均數(shù)

算數(shù)平均數(shù)和加權(quán)平均數(shù)是計(jì)算加減關(guān)系的策菜,而有的數(shù)據(jù)并不是簡(jiǎn)單的加減關(guān)系晶疼,這時(shí)候就要用到幾何平均數(shù)了,假設(shè)有n個(gè)數(shù)據(jù)分別為x1又憨、x2翠霍、x3。蠢莺。寒匙。

\overline{x}_{j}=\sqrt[n]{x_{1} x_{2} \cdots x_{n}}

例如:生產(chǎn)線(xiàn)上每部分的合格率,總的平均合格率是依賴(lài)每部分的合格率躏将,例如a部分合格率為80%锄弱,b部分合格率為90%,總的合格率為80%*90%然后開(kāi)方= 84.8%

  • 分位數(shù)

分位數(shù)是中位數(shù)概念的擴(kuò)展祸憋,除了中位數(shù)会宪,最常見(jiàn)的就是四分位數(shù),即將數(shù)據(jù)集合排序蚯窥,在四分之一位置的就是第一四分位數(shù)掸鹅,在四分之二位置的就是第二四分位數(shù),也就是中位數(shù)拦赠,在四分之三位置的是第三四分位數(shù)

2巍沙、數(shù)據(jù)的離散趨勢(shì)

這里按照參考書(shū)【人人都會(huì)數(shù)據(jù)分析】的順序記錄

  • 極差

即數(shù)據(jù)集的極大值和極小值的差值,又稱(chēng)為全距

  • 平均偏差

平均偏差是指數(shù)據(jù)集中每個(gè)數(shù)距離平均數(shù)的平均差距矛紫,即每個(gè)數(shù)據(jù)距離平均數(shù)的偏差除以數(shù)據(jù)個(gè)數(shù)赎瞎,因?yàn)樗械钠罴悠饋?lái)是0,所以我們采用絕對(duì)值來(lái)計(jì)算颊咬,也可以將偏差理解為距離的概念务甥,即每個(gè)數(shù)據(jù)到平均數(shù)的平均距離

R_{a}=\frac{\sum_{i=1}^{n}\left|x_{i}-\overline{x}\right|}{n}

  • 方差

平均偏差我們用到的是絕對(duì)值來(lái)消除負(fù)號(hào)的影響牡辽,我們還可以用到平方來(lái)消除負(fù)號(hào),這就是方差的概念敞临,即每個(gè)數(shù)據(jù)和平均數(shù)的平方和除以數(shù)據(jù)個(gè)數(shù)

\sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}

  • 標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差就是為了消除平方的影響态辛,將方差開(kāi)方

\sigma=\sqrt{\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}}

  • 四分位差

四分位差是第一四分位數(shù)和第三四分位數(shù)的差值

  • 離散系數(shù)

離散系數(shù)又稱(chēng)為變異系數(shù),指標(biāo)準(zhǔn)差比算數(shù)平均數(shù)挺尿,主要用來(lái)比較兩個(gè)數(shù)據(jù)集的離散程度奏黑,因?yàn)閿?shù)據(jù)的方差和標(biāo)準(zhǔn)差和數(shù)據(jù)本身的大小有關(guān),所以比較兩堆數(shù)據(jù)的標(biāo)準(zhǔn)差大小無(wú)法正確衡量?jī)啥褦?shù)據(jù)的離散程度大小编矾,所以閉上平均數(shù)就可以消除數(shù)據(jù)本身大小的影響來(lái)比較兩者的離散程度

  • 異眾比率

異眾比率指整個(gè)數(shù)據(jù)集中非眾數(shù)的個(gè)數(shù)比數(shù)據(jù)個(gè)數(shù)

3熟史、分布形態(tài)描述

這里只學(xué)習(xí)了最常見(jiàn)的正態(tài)分布,以及描述分布狀態(tài)的兩個(gè)指標(biāo)

  • 峰態(tài)系數(shù)

正太分布曲線(xiàn)像個(gè)山峰窄俏,峰態(tài)系數(shù)就是描述這個(gè)山峰平緩或陡峭的概念蹂匹,單峰分布可分為尖峰態(tài)、常峰態(tài)凹蜈、低峰態(tài)限寞,我們把正態(tài)分布做為標(biāo)準(zhǔn),峰度系數(shù)為3仰坦,尖峰態(tài)為峰度系數(shù)大于3履植,低峰為峰度系數(shù)小于3

  • 偏態(tài)系數(shù)

偏度系數(shù)是用來(lái)判斷數(shù)據(jù)集合的分布是否對(duì)稱(chēng),如果數(shù)據(jù)集合均勻?qū)ΨQ(chēng)悄晃,例如正態(tài)分布玫霎,偏度系數(shù)等于0,是對(duì)稱(chēng)分布传泊,當(dāng)偏度大于0時(shí)鼠渺,稱(chēng)為右偏分布,當(dāng)偏度小于0時(shí)眷细,稱(chēng)為左偏分布

0xff 參考資料

【人人都會(huì)數(shù)據(jù)分析第二章】

異眾比率百度百科

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市鹃祖,隨后出現(xiàn)的幾起案子溪椎,更是在濱河造成了極大的恐慌,老刑警劉巖恬口,帶你破解...
    沈念sama閱讀 210,978評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件校读,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡祖能,警方通過(guò)查閱死者的電腦和手機(jī)歉秫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)养铸,“玉大人雁芙,你說(shuō)我怎么就攤上這事轧膘。” “怎么了兔甘?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,623評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵谎碍,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我洞焙,道長(zhǎng)蟆淀,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,324評(píng)論 1 282
  • 正文 為了忘掉前任澡匪,我火速辦了婚禮熔任,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘唁情。我一直安慰自己笋敞,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布荠瘪。 她就那樣靜靜地躺著夯巷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪哀墓。 梳的紋絲不亂的頭發(fā)上趁餐,一...
    開(kāi)封第一講書(shū)人閱讀 49,741評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音篮绰,去河邊找鬼后雷。 笑死,一個(gè)胖子當(dāng)著我的面吹牛吠各,可吹牛的內(nèi)容都是我干的臀突。 我是一名探鬼主播,決...
    沈念sama閱讀 38,892評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼贾漏,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼候学!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起纵散,我...
    開(kāi)封第一講書(shū)人閱讀 37,655評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤梳码,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后伍掀,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體掰茶,經(jīng)...
    沈念sama閱讀 44,104評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年蜜笤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了濒蒋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,569評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡把兔,死狀恐怖沪伙,靈堂內(nèi)的尸體忽然破棺而出瓮顽,到底是詐尸還是另有隱情,我是刑警寧澤焰坪,帶...
    沈念sama閱讀 34,254評(píng)論 4 328
  • 正文 年R本政府宣布趣倾,位于F島的核電站,受9級(jí)特大地震影響某饰,放射性物質(zhì)發(fā)生泄漏儒恋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評(píng)論 3 312
  • 文/蒙蒙 一黔漂、第九天 我趴在偏房一處隱蔽的房頂上張望诫尽。 院中可真熱鬧,春花似錦炬守、人聲如沸牧嫉。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,725評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)酣藻。三九已至,卻和暖如春鳍置,著一層夾襖步出監(jiān)牢的瞬間辽剧,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,950評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工税产, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留怕轿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,260評(píng)論 2 360
  • 正文 我出身青樓辟拷,卻偏偏與公主長(zhǎng)得像撞羽,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子衫冻,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)的集中趨勢(shì) 眾數(shù) 是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值诀紊,有可能沒(méi)有也有可能有多個(gè)。 中位數(shù) 中位數(shù)羽杰,又稱(chēng)中點(diǎn)數(shù)渡紫,中值...
    當(dāng)_下閱讀 5,449評(píng)論 5 8
  • 最近加入一個(gè)數(shù)據(jù)挖掘?qū)W習(xí)小組,熱心的群主制定了一個(gè)詳細(xì)的每周學(xué)習(xí)計(jì)劃考赛,分為統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)兩大知識(shí)點(diǎn)。學(xué)習(xí)完要提交...
    諾馨閱讀 1,789評(píng)論 0 6
  • 寫(xiě)在前面的話(huà) 平靜心湖起漣漪莉测,開(kāi)始新的挑戰(zhàn)颜骤。我會(huì)根據(jù)每周工作繁忙程度來(lái)完成作業(yè),時(shí)間充裕的時(shí)候盡量高質(zhì)量完成...
    魚(yú)百里閱讀 1,188評(píng)論 0 0
  • 描述性統(tǒng)計(jì)描述性統(tǒng)計(jì)是用來(lái)概括捣卤、表述事物整體狀況以及事物間關(guān)聯(lián)忍抽、類(lèi)屬關(guān)系的統(tǒng)計(jì)方法八孝。通過(guò)統(tǒng)計(jì)處理可以簡(jiǎn)潔地用幾個(gè)統(tǒng)...
    AnthRax閱讀 25,553評(píng)論 -1 5
  • 第一篇是懶人模式... 學(xué)習(xí)內(nèi)容:數(shù)據(jù)的描述性統(tǒng)計(jì) 一、集中趨勢(shì) 1鸠项、眾數(shù) 眾數(shù)(Mode)是統(tǒng)計(jì)學(xué)名詞干跛,在統(tǒng)計(jì)分...
    沉迷學(xué)習(xí)voritoy閱讀 519評(píng)論 1 0