python第三課進(jìn)階作業(yè)

#老規(guī)矩蹄殃,引入吧
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
##上句的意思是mat嵌入到notebook中郭厌,如果沒(méi)有這句會(huì)怎么反應(yīng)呢袋倔?
%config InlineBackend.figure_format = 'retina'
##這句應(yīng)該是精度的意思,視網(wǎng)膜精度折柠。
df=pd.read_csv(r"C:\Users\bog\Desktop\3-python lesson\smoking_cancer.txt",sep='\t')
df.head()
###??? 為什么是read_table,為什么讀取txt格式文件宾娜,使用的是read_table,而不是read_txt呢扇售?

數(shù)據(jù)的集中趨勢(shì)
? 均值碳默、中位數(shù)贾陷、眾數(shù) ? 偏度

數(shù)據(jù)的離散程度
? 全距Range ? 四分位距IQR& 箱圖 ? 方差缘眶、標(biāo)準(zhǔn)差 ? 拇指規(guī)則& 切比雪夫定理

兩個(gè)變量的關(guān)系 ? 協(xié)方差 ? 相關(guān)系數(shù) ? 相關(guān)性 VS 因果性

現(xiàn)在的問(wèn)題是如何分析集中趨勢(shì)嘱根?

  1. 算出中位數(shù),均值等巷懈,關(guān)鍵是算出哪個(gè)變量的各種值呢该抒?
  • 不同洲之間的吸煙人數(shù),肺癌的均值等
  • 然后畫(huà)出不同洲的分布圖顶燕。
cig=df.CIG
cig.head()
0    18.20
1    25.82
2    18.24
3    28.60
4    31.10
Name: CIG, dtype: float64
cmean=np.mean(cig)
cmean
#各州吸煙者平均數(shù)
24.914090909090906
cmedian=np.median(cig)
cstd=np.std(cig)
print(cmedian)
print(cstd)
23.765
5.50958929263822
cmean>cmedian
True

均值大于中位數(shù)凑保,看來(lái)圖像右偏

plt.hist(cig,bins=50, rwidth=0.9,range=(12, 42) )
plt.show()
#### 如何設(shè)定y軸呢?
### 總覺(jué)得y軸可以設(shè)置涌攻,但不知道啊
沒(méi)有學(xué)會(huì)設(shè)置y軸

10萬(wàn)人吸煙人數(shù)集中在20-30之間欧引。

人均吸煙數(shù)的離散程度呢?

#畫(huà)箱圖
plt.boxplot(cig)
plt.show()


!conda install seaborn
!pip install seaborn
import seaborn
sns.boxplot(data=df, y='CIG', x='LUNG')
plt.show()

沒(méi)有安裝seaborn包恳谎,無(wú)反應(yīng)芝此。


相關(guān)性的一段

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
##上句的意思是mat嵌入到notebook中,如果沒(méi)有這句會(huì)怎么反應(yīng)呢因痛?
%config InlineBackend.figure_format = 'retina'
##這句應(yīng)該是精度的意思婚苹,視網(wǎng)膜精度。

df=pd.read_csv(r"C:\Users\bog\Desktop\3-python lesson\smoking_cancer.txt",sep='\t')
df.head()




#np.cov(cig鸵膏,lung)
#np.corrcoef(salary, score)[0,1]
cig=df.CIG
cig
lung=df.LUNG
lung
print('協(xié)方差是:',np.cov(cig,lung)[0,1])

print('吸煙數(shù)和肺癌數(shù)的相關(guān)性是:',np.corrcoef(cig,df.LUNG)[0,1])
#"吸煙數(shù)和肺癌數(shù)的協(xié)方差是:"
#"吸煙數(shù)和肺癌數(shù)的相關(guān)性是:"
plt.scatter(cig,df.LUNG)
plt.show()
協(xié)方差是: 16.4339634249
吸煙數(shù)和肺癌數(shù)的相關(guān)性是: 0.697402504928
output_1_1.png
##煙和膀胱癌之間的相關(guān)性呢膊升?
print('煙和膀胱癌之間的相關(guān)性:',np.corrcoef(df.CIG,df.BLAD)[0,1])
plt.scatter(df.CIG,df.BLAD)
plt.show()
煙和膀胱癌之間的相關(guān)性: 0.703621859461





<matplotlib.collections.PathCollection at 0x14cd75bd898>
output_2_2.png
###吸煙數(shù)和腎癌的相關(guān)性呢?
print('吸煙數(shù)和腎癌的相關(guān):',np.corrcoef(df.CIG,df.KID)[0,1])
plt.scatter(df.CIG,df.KID)
plt.show()

吸煙數(shù)和腎癌的相關(guān): 0.487389617034
output_3_1.png
###吸煙數(shù)和白血病的相關(guān)性呢谭企?
print('與白血病的相關(guān)系數(shù)為:',np.corrcoef(df.CIG,df.LEUK)[0,1])
plt.scatter(df.CIG,df.LEUK)
與白血病的相關(guān)系數(shù)為: -0.0684812294766





<matplotlib.collections.PathCollection at 0x14cd7622c18>
output_4_2.png

相關(guān)性結(jié)論

  • 白血病和吸煙數(shù)的相關(guān)性接近于0
  • 腎癌跟吸煙的相關(guān)性系數(shù)低于50%
  • 但是肺癌和膀胱癌跟吸煙相關(guān)性高達(dá)70%廓译。
  • 不過(guò)這個(gè)數(shù)據(jù)也有不合理的地方,假如A洲债查,吸煙人數(shù)為100非区,肺癌人數(shù)為20. 但這20人,可不一定包含于吸煙的100人中哦攀操。
  • 所以這次的分析只是在練習(xí)方法院仿,對(duì)數(shù)據(jù)的信任度,需要另當(dāng)別論速和。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末歹垫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子颠放,更是在濱河造成了極大的恐慌排惨,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,589評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件碰凶,死亡現(xiàn)場(chǎng)離奇詭異暮芭,居然都是意外死亡鹿驼,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門(mén)辕宏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)畜晰,“玉大人,你說(shuō)我怎么就攤上這事瑞筐∑啾牵” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,933評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵聚假,是天一觀的道長(zhǎng)块蚌。 經(jīng)常有香客問(wèn)我,道長(zhǎng)膘格,這世上最難降的妖魔是什么峭范? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,976評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮瘪贱,結(jié)果婚禮上纱控,老公的妹妹穿的比我還像新娘。我一直安慰自己政敢,他們只是感情好其徙,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著喷户,像睡著了一般唾那。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上褪尝,一...
    開(kāi)封第一講書(shū)人閱讀 51,775評(píng)論 1 307
  • 那天闹获,我揣著相機(jī)與錄音,去河邊找鬼河哑。 笑死避诽,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的璃谨。 我是一名探鬼主播沙庐,決...
    沈念sama閱讀 40,474評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼佳吞!你這毒婦竟也來(lái)了拱雏?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,359評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤底扳,失蹤者是張志新(化名)和其女友劉穎铸抑,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體衷模,經(jīng)...
    沈念sama閱讀 45,854評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鹊汛,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評(píng)論 3 338
  • 正文 我和宋清朗相戀三年蒲赂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片刁憋。...
    茶點(diǎn)故事閱讀 40,146評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡滥嘴,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出职祷,到底是詐尸還是另有隱情氏涩,我是刑警寧澤,帶...
    沈念sama閱讀 35,826評(píng)論 5 346
  • 正文 年R本政府宣布有梆,位于F島的核電站,受9級(jí)特大地震影響意系,放射性物質(zhì)發(fā)生泄漏泥耀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評(píng)論 3 331
  • 文/蒙蒙 一蛔添、第九天 我趴在偏房一處隱蔽的房頂上張望痰催。 院中可真熱鬧,春花似錦迎瞧、人聲如沸夸溶。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,029評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)缝裁。三九已至,卻和暖如春足绅,著一層夾襖步出監(jiān)牢的瞬間捷绑,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,153評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工氢妈, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留粹污,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,420評(píng)論 3 373
  • 正文 我出身青樓首量,卻偏偏與公主長(zhǎng)得像壮吩,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子加缘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評(píng)論 2 356

推薦閱讀更多精彩內(nèi)容

  • 1. 簡(jiǎn)述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系鸭叙。 回歸分析和相關(guān)分析都是研究?jī)蓚€(gè)或兩個(gè)以上變量之間關(guān)系的方法。 廣義上說(shuō)...
    安也也閱讀 8,694評(píng)論 0 3
  • 作者:Joel Grus讀者:鍋巴GG Joel Grus 是 Google 的一位軟件工程師,曾于數(shù)家創(chuàng)業(yè)公司擔(dān)...
    鍋巴GG閱讀 2,171評(píng)論 3 16
  • 《數(shù)據(jù)分析的統(tǒng)計(jì)基礎(chǔ)》的讀書(shū)筆記 作 者:經(jīng)管之家生百、曹正鳳 出版社:電子工業(yè)出版社 版 次:2015年2月第1...
    格式化_001閱讀 9,626評(píng)論 1 58
  • 有一段時(shí)間递雀,奚文曾經(jīng)暴怒的像是個(gè)隨時(shí)會(huì)拿刀砍人的兇殺犯,然而我問(wèn)她什么蚀浆,她只說(shuō)感情太傷人缀程,再也不肯多說(shuō)一句搜吧,我想那...
    暖萌是我高冷也是我閱讀 245評(píng)論 0 0
  • 文/小葉 既然生下來(lái),又終要死去杨凑,為何不生下來(lái)就死去滤奈? ——致只要結(jié)果不要過(guò)程的人 一 有些事情,可能你覺(jué)得很沒(méi)有...
    博土閱讀 174評(píng)論 13 2