商業(yè)數(shù)據(jù)分析第三次課作業(yè)-0725

感謝 Dr.fish 的耐心講解和細(xì)致回答。

本次課的作業(yè)如下:

基于smoking_cancer.csv數(shù)據(jù),用描述統(tǒng)計(jì)量和統(tǒng)計(jì)圖表對(duì)其進(jìn)行分析。

備注:
STATE: 美國(guó)州名的簡(jiǎn)寫
CIG: 人均吸煙的數(shù)量
BLAD: 每10萬人中死于膀胱癌( bladder cancer)的人數(shù)
LUNG: 每10萬人中死于肺癌(lung cancer)的人數(shù)
KID: 每10萬人中死于腎癌(kidney cancer)的人數(shù)
LEUK: 每10萬人中死于白血病(leukemia)的人數(shù)

這次生病了氨鹏,本來還有些分析要做的,但是有點(diǎn)兒支持不住了压状,后面身體好了會(huì)補(bǔ)上仆抵。
不再貧了,直奔主題种冬。


結(jié)論

  1. 全美平均吸煙量為25根镣丑,極差28.4,數(shù)據(jù)分散度較大娱两;
  2. 四款癌癥發(fā)病數(shù)中莺匠,肺癌發(fā)病數(shù)遙遙領(lǐng)先,已超過全部癌癥的一半十兢,其次為白血病
  3. 分別計(jì)算四款癌癥與吸煙的相關(guān)性發(fā)現(xiàn)相關(guān)從強(qiáng)到弱分別為:膀胱癌 - 肺癌 - 腎癌 - 白血病

以下為代碼部分

#導(dǎo)入分析包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from __future__ import division # 支持精確除法
from sklearn.cluster import KMeans # 聚類分析包

%matplotlib inline
%config InlineBackend.figure_format = 'retina' # 設(shè)置圖像清晰度
# 導(dǎo)入數(shù)據(jù)表并查看

df = pd.read_csv('smoking_cancer.csv')
df.head()
數(shù)據(jù)樣式
# 查看數(shù)據(jù)表整體情況

df.info()
查看數(shù)據(jù)表整體情況
# 查看基礎(chǔ)統(tǒng)計(jì)項(xiàng)

df.describe()
查看基礎(chǔ)統(tǒng)計(jì)項(xiàng)
# 全美平均吸煙量全距

cig_range = df['CIG'].max() - df['CIG'].min() #極差

print 'cig_range:',cig_range

# 輸出結(jié)果
cig_range: 28.4
# 全美癌癥發(fā)病數(shù)

bladder = df['BLAD'].sum()
lung = df['LUNG'].sum()
kidney = df['KID'].sum()
leukemia = df['LEUK'].sum()

print 'bladder:',bladder
print 'lung:',lung
print 'kidney:',kidney
print 'leukemia:',leukemia

# 輸出結(jié)果
bladder: 181.33
lung: 864.74
kidney: 122.96
leukemia: 300.51
# 四種癌癥占比

plt.figure(figsize = (5 , 7))
labels = [u'bladder',u'lung',u'kidney',u'leukemia']
sizes = [181.33, 864.74, 122.96, 300.51]
colors = ['#FFFFCC', '#CCFFFF', '#99CCCC', '#FFCCCC']

plt.pie(sizes, labels=labels, colors=colors, labeldistance = 1.1, autopct = '%1.1f%%', shadow = False, startangle = 90, pctdistance = 0.6)
#labeldistance趣竣,文本的位置離遠(yuǎn)點(diǎn)有多遠(yuǎn)摇庙,1.1指1.1倍半徑的位置
#autopct,圓里面的文本格式期贫,%1.1f%%表示小數(shù)有1位跟匆,整數(shù)有一位的浮點(diǎn)數(shù)
#shadow异袄,餅是否有陰影
#startangle通砍,起始角度,0烤蜕,表示從0開始逆時(shí)針轉(zhuǎn)封孙,為第一塊。一般選擇從90度開始比較好看
#pctdistance讽营,百分比的text離圓心的距離

plt.axis('equal')  # 調(diào)整坐標(biāo)軸的比例
plt.show()
四種癌癥占比

**備注 **

  1. 全美平均吸煙量為25根(一天一包煙虎忌,這個(gè)量可是真不小)
  2. 極差28.4橱鹏,數(shù)據(jù)分散度較大
  3. 四項(xiàng)癌癥發(fā)病數(shù)中膜蠢,肺癌發(fā)病數(shù)遙遙領(lǐng)先,已超過全部癌癥的一半莉兰,其次為白血蔡粑А(是否有相關(guān)性待查)

綜上所述,需要查看下每個(gè)州人均吸煙量情況

# 每州人均吸煙量柱圖

state = df.STATE.value_counts()
state_name = list(state.index)
x = np.arange(len(state_name))
y = df.CIG

plt.figure(figsize=(20,4)) #設(shè)置chart長(zhǎng)寬
plt.bar(x,y,color = '#00bfff',alpha=0.5) #生成條形圖糖荒,"color"設(shè)置柱子顏色杉辙,"alpha"設(shè)置柱子透明度
plt.xticks(x, state_name,rotation=30) #設(shè)置X軸標(biāo)簽,rotation 旋轉(zhuǎn)橫坐標(biāo)標(biāo)簽

plt.xlabel('state name') #設(shè)置X軸名稱
plt.ylabel('CIG') #設(shè)置Y軸名稱
plt.title('CIG OF STATE') #設(shè)置chart標(biāo)題
plt.legend(['CIG'],loc = 'upper right',fontsize = 10) #添加圖示捶朵,fontsize 字號(hào)大小

#添加數(shù)據(jù)標(biāo)簽
#a,b+0.5 在每一柱子對(duì)應(yīng)x值蜘矢、y值上方0.5處標(biāo)注文字說明
#'%.0f' % b 標(biāo)注的文字(每個(gè)柱子對(duì)應(yīng)的y值)
#ha='center',va= 'bottom' horizontalalignment(水平對(duì)齊)、verticalalignment(垂直對(duì)齊)
for a,b in zip(x,y):
    plt.text(a, b + 0.5, '%.0f' % b, ha='center', va= 'bottom',fontsize=10)

plt.show()
每州人均吸煙量柱圖
# 每州總癌癥發(fā)病數(shù)柱圖

bladder_c = df.groupby('STATE').BLAD.sum() #計(jì)算各州 hillary 支持票數(shù)
lung_c = df.groupby('STATE').LUNG.sum() #計(jì)算各州 trump 支持票數(shù)
kidney_c = df.groupby('STATE').KID.sum()
leukemia_c =df.groupby('STATE').LEUK.sum()

states = list(bladder_c.index) #獲取各州名稱
x = np.arange(len(states))  #返回array類型對(duì)象
y = bladder_c #指定 hillary 的Y坐標(biāo)
y1 = lung_c #指定 trump 的Y坐標(biāo)
y2 = kidney_c
y3 = leukemia_c

plt.figure(figsize=(20,4)) #設(shè)置chart長(zhǎng)寬
plt.bar(x,y,width = 0.8,align = 'center',color = '#FFFFCC') #生成條形圖综看,"color='g'"設(shè)置柱子顏色品腹,"alpha=0.5"設(shè)置柱子透明度
plt.bar(x,y1,width = 0.8,align = 'center',color = '#CCFFFF',bottom = y)
plt.bar(x,y2,width = 0.8,align = 'center',color = '#99CCCC',bottom = y)
plt.bar(x,y3,width = 0.8,align = 'center',color = '#FFCCCC',bottom = y)
plt.xticks(x, states,rotation=30) #設(shè)置X軸標(biāo)簽,rotation 旋轉(zhuǎn)橫坐標(biāo)標(biāo)簽

plt.xlabel('states name') #設(shè)置X軸名稱
plt.ylabel('ticket') #設(shè)置Y軸名稱
plt.title('APPROVAL RATINGS') #設(shè)置chart標(biāo)題
plt.legend(['bladder','lung','kidney','leukemia'],loc = 'upper right',fontsize = 10) #添加圖示红碑,fontsize 字號(hào)大小

#添加數(shù)據(jù)標(biāo)簽
#a,b+0.8 在每一柱子對(duì)應(yīng)x值舞吭、y值上方0.5處標(biāo)注文字說明
#'%.0f' % b 標(biāo)注的文字(每個(gè)柱子對(duì)應(yīng)的y值)
#ha='center',va= 'bottom' horizontalalignment(水平對(duì)齊)、verticalalignment(垂直對(duì)齊)
for a,b in zip(x,y):
    plt.text(a, b - 3, '%.0f' % b, ha = 'center', va = 'bottom',fontsize = 10)

for a,b in zip(x,y1):
    plt.text(a, b + 0.8, '%.0f' % b, ha = 'center', va = 'bottom',fontsize = 10)

for a,b in zip(x,y2):
    plt.text(a, b + 1, '%.0f' % b, ha = 'center', va = 'bottom',fontsize = 10)

for a,b in zip(x,y3):
    plt.text(a, b + 0.8, '%.0f' % b, ha = 'center', va = 'bottom',fontsize = 10)

plt.show()
每州癌癥爆發(fā)柱圖

以下依據(jù)癌癥爆發(fā)人次進(jìn)行分析相關(guān)性

# 平均吸煙量與癌癥相關(guān)性 - lung

plt.scatter(df.CIG, df.LEUK, c = '#6666FF') 
plt.show()

np.corrcoef(df.CIG, df.LUNG)[0,1] # 計(jì)算相關(guān)系數(shù)

# 輸出結(jié)果
相關(guān)系數(shù) : 0.6974025049275292
吸煙與肺癌發(fā)病散點(diǎn)圖
# 加線性回歸方法(95%置信區(qū)間)

sns.lmplot(x = "CIG", y = "LUNG",data = df[['CIG','LUNG']], order = 1, ci = 95, size=4, aspect=1)
plt.show()
線性回歸驗(yàn)證相關(guān)性
# 平均吸煙量與癌癥相關(guān)性 - leukemia

plt.scatter(df.CIG, df.LEUK, c = '#FF6666') 
plt.show()

np.corrcoef(df.CIG, df.LEUK)[0,1] # 計(jì)算相關(guān)系數(shù)

# 輸出結(jié)果
相關(guān)系數(shù) : -0.068481229476638969
吸煙與白血病發(fā)病散點(diǎn)圖
# 加線性回歸方法(95%置信區(qū)間)

sns.lmplot(x = "CIG", y = "LEUK",data = df[['CIG','LEUK']], order = 1, ci = 95, size=4, aspect=1)
plt.show()
線性回歸驗(yàn)證相關(guān)性
# 平均吸煙量與癌癥相關(guān)性 - bladder

plt.scatter(df.CIG, df.BLAD, c = '#FFFF66')
plt.show()

np.corrcoef(df.CIG, df.BLAD)[0,1]  # 計(jì)算相關(guān)系數(shù)

# 輸出結(jié)果
相關(guān)系數(shù) : 0.70362185946144185
吸煙與膀胱癌發(fā)病散點(diǎn)圖

# 加線性回歸方法(95%置信區(qū)間)

sns.lmplot(x = "CIG", y = "BLAD",data = df[['CIG','BLAD']], order = 1, ci = 95, size=4, aspect=1)
plt.show()
線性回歸驗(yàn)證相關(guān)性
# 平均吸煙量與癌癥相關(guān)性 - kidney

plt.scatter(df.CIG, df.KID, c = '#336699')
plt.show()


np.corrcoef(df.CIG, df.KID)[0,1]  # 計(jì)算相關(guān)系數(shù)

# 輸出結(jié)果
相關(guān)系數(shù) :0.48738961703356476
吸煙與腎癌發(fā)病散點(diǎn)圖

# 加線性回歸方法(95%置信區(qū)間)

sns.lmplot(x = "CIG", y = "KID",data = df[['CIG','KID']], order = 1, ci = 95, size=4, aspect=1)
plt.show()
線性回歸驗(yàn)證相關(guān)性

后記

    就在寫這篇作業(yè)的時(shí)候句喷,小白也在與病魔進(jìn)行斗爭(zhēng)(生扛那種)镣典,深刻的體會(huì)到了擁有一個(gè)好身體的重要性。其實(shí)這篇作業(yè)寫得還是蠻壓抑的唾琼,隨著cancer的全球性爆發(fā)兄春,我們究竟如何才能躲過它走向生命的盡頭,真的很值得我們思考(再想想帝都的霧霾…OMG锡溯,小白好像病的更厲害了些)赶舆。

    雖然沒有證據(jù)證明肺癌是由吸煙引起的哑姚,但是依據(jù)數(shù)據(jù)可以明顯看到它們的強(qiáng)相關(guān)性。以及讓小白差異的膀胱癌芜茵?叙量!居然相關(guān)性比肺癌還高。當(dāng)然九串,這只是一份全美的數(shù)據(jù)表绞佩,給出的數(shù)據(jù)規(guī)模也并不能完全支持“吸煙更容易引起膀胱癌”這樣的結(jié)論,另外也沒有將其他疾病數(shù)據(jù)引入進(jìn)來猪钮。但即便是這樣品山,我們還是可以發(fā)現(xiàn)樣本數(shù)據(jù)中吸煙就是會(huì)和某些癌癥表現(xiàn)出異常的相關(guān)性來,這樣的結(jié)果多少值得我們重視一下烤低。

   所以肘交,愛惜生命,從戒煙開始扑馁。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末涯呻,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子腻要,更是在濱河造成了極大的恐慌复罐,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件闯第,死亡現(xiàn)場(chǎng)離奇詭異市栗,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)咳短,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門填帽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人咙好,你說我怎么就攤上這事篡腌。” “怎么了勾效?”我有些...
    開封第一講書人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵嘹悼,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我层宫,道長(zhǎng)杨伙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任萌腿,我火速辦了婚禮限匣,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘毁菱。我一直安慰自己米死,他們只是感情好锌历,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著峦筒,像睡著了一般究西。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上物喷,一...
    開封第一講書人閱讀 51,115評(píng)論 1 296
  • 那天卤材,我揣著相機(jī)與錄音,去河邊找鬼脯丝。 笑死商膊,一個(gè)胖子當(dāng)著我的面吹牛伏伐,可吹牛的內(nèi)容都是我干的宠进。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼藐翎,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼材蹬!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起吝镣,我...
    開封第一講書人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤堤器,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后末贾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體闸溃,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年拱撵,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辉川。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡拴测,死狀恐怖乓旗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情集索,我是刑警寧澤屿愚,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站务荆,受9級(jí)特大地震影響妆距,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜函匕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一娱据、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧浦箱,春花似錦吸耿、人聲如沸祠锣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽伴网。三九已至,卻和暖如春妆棒,著一層夾襖步出監(jiān)牢的瞬間澡腾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來泰國(guó)打工糕珊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留动分,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓红选,卻偏偏與公主長(zhǎng)得像澜公,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子喇肋,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 非常優(yōu)秀的研究總結(jié)坟乾,值得學(xué)習(xí)領(lǐng)會(huì)和思考。因?yàn)樽謹(jǐn)?shù)太多蝶防,可以去作者的博文地址http://www.huangshuj...
    王詩(shī)翔閱讀 4,187評(píng)論 1 24
  • 曾經(jīng)是那么的向往大學(xué)生活現(xiàn)在卻有點(diǎn)害怕了甚侣!還沒有開學(xué)呢,開學(xué)就是大一了间学,我的電子信息工程專業(yè)殷费,每天面對(duì)的都是物理和...
    healer修夏閱讀 190評(píng)論 0 0
  • 有時(shí)候覺得國(guó)外的一些節(jié)日很意義,譬如感恩節(jié)低葫。 有了這個(gè)節(jié)日详羡,使得人們會(huì)在這一天滿懷感恩的心情,停下忙碌的腳步氮采,想想...
    我來自遠(yuǎn)方閱讀 390評(píng)論 1 1
  • 最美麗的情話鹊漠, 莫過于主到, 三行情書。 作詞:阿信 作曲:阿信 演唱:阿信 沒錯(cuò)啦躯概,就是五月天阿信?登钥, 把全宇宙的情...
    想太多小姐r閱讀 1,115評(píng)論 0 2
  • *我早在中午就感覺有些不舒服了,也許是被我朋友給滲透了娶靡!他就因?yàn)閬y泊車被罰款50塊錢牧牢,就一直抱怨。 *我那時(shí)候就聽...
    午夜里的街燈閱讀 166評(píng)論 0 1