探索性數(shù)據(jù)分析EDA-1

1、EDA:Exploratory Data Analysis

使用tidyverse+ggplot2


2哗咆、探索性數(shù)據(jù)分析先從問題開始蜘欲,從一大串問題開始,不斷找答案:變量的variation 晌柬、變量的 covariation

區(qū)分概念:變量姥份、值 、觀測(cè)年碘、列表數(shù)據(jù)

3殿衰、variation:變量如何改變(變化趨勢(shì)),比如盛泡,同一個(gè)對(duì)象闷祥,測(cè)量?jī)纱螘?huì)有不一樣的結(jié)果

3.1先探索變零值的分布趨勢(shì)


如果是分類變量,用geom_bar()或count()

ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut))

diamonds %>% count(cut)

如果是連續(xù)變量傲诵,用geom_histogram()或count(),要設(shè)置計(jì)算的間隔:

ggplot(data =diamonds)+ geom_histogram(mapping =aes(x =carat),binwidth =0.5)

diamonds %>% count(cut_width(carat, 0.5))

如果查看多個(gè)連續(xù)變量的分布:

ggplot(data = diamonds, mapping = aes(x = carat, colour = cut)) + geom_freqpoly(binwidth = 0.1)

3.2同一變量凯砍,什么情況下分布多,什么情況下分布少(clusters)拴竹,思考什么原因?qū)е碌?/p>

比如悟衩,為什么carat(鉆石重量)大于3的值很少呢?

3.3異常值栓拜, coord_cartesian將縱坐標(biāo)壓縮座泳,可以清晰個(gè)別離群值

ggplot(diamonds) + geom_histogram(mapping = aes(x = y), binwidth = 0.5) + coord_cartesian(ylim = c(0, 50))

發(fā)現(xiàn)惠昔,異常值0,~30挑势,~60

查看異常值

unusual <- diamonds %>% filter(y < 3 | y > 20) %>% select(price, x, y, z) %>% arrange(y)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末镇防,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子潮饱,更是在濱河造成了極大的恐慌来氧,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件香拉,死亡現(xiàn)場(chǎng)離奇詭異啦扬,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)凫碌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門扑毡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人盛险,你說(shuō)我怎么就攤上這事僚楞。” “怎么了枉层?”我有些...
    開封第一講書人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵泉褐,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我鸟蜡,道長(zhǎng)膜赃,這世上最難降的妖魔是什么募舟? 我笑而不...
    開封第一講書人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任漾脂,我火速辦了婚禮瑟曲,結(jié)果婚禮上孕锄,老公的妹妹穿的比我還像新娘。我一直安慰自己真慢,他們只是感情好服爷,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開白布药薯。 她就那樣靜靜地躺著您朽,像睡著了一般狂丝。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上哗总,一...
    開封第一講書人閱讀 51,573評(píng)論 1 305
  • 那天几颜,我揣著相機(jī)與錄音,去河邊找鬼讯屈。 笑死蛋哭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的涮母。 我是一名探鬼主播谆趾,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼躁愿,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了沪蓬?” 一聲冷哼從身側(cè)響起彤钟,我...
    開封第一講書人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎怜跑,沒想到半個(gè)月后样勃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吠勘,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡性芬,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了剧防。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片植锉。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖峭拘,靈堂內(nèi)的尸體忽然破棺而出俊庇,到底是詐尸還是另有隱情,我是刑警寧澤鸡挠,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布辉饱,位于F島的核電站,受9級(jí)特大地震影響拣展,放射性物質(zhì)發(fā)生泄漏彭沼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一备埃、第九天 我趴在偏房一處隱蔽的房頂上張望姓惑。 院中可真熱鬧,春花似錦按脚、人聲如沸于毙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)唯沮。三九已至,卻和暖如春堪遂,著一層夾襖步出監(jiān)牢的瞬間烂翰,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工蚤氏, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留甘耿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓竿滨,卻偏偏與公主長(zhǎng)得像佳恬,于是被迫代替她去往敵國(guó)和親捏境。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 畢業(yè)兩年以后毁葱,母親開始給我安排相親垫言,因?yàn)槲乙粋€(gè)女朋友都沒找過。母親不相信她優(yōu)秀的兒子會(huì)找不到女朋友倾剿,那么只有一個(gè)原...
    book君閱讀 449評(píng)論 2 1
  • 1 夜已深筷频,天已涼,寂靜的村里已經(jīng)看不見什么燈火了前痘,大多數(shù)人都已經(jīng)在溫暖的被窩里凛捏,酣然入睡∏鄣蓿可是在村頭的空曠的莊稼...
    小鹿故事集閱讀 273評(píng)論 2 4
  • (σ???)σ在車上碼的字坯癣,算是完成學(xué)校的一項(xiàng)任務(wù)… 日漸發(fā)現(xiàn)隨筆觸發(fā)這種東西越寫越上癮,我可能真的中了文字的毒哈...
    仙貝baby閱讀 218評(píng)論 0 0