大師兄的數(shù)據(jù)分析學(xué)習筆記(六):探索性數(shù)據(jù)分析(五)

大師兄的數(shù)據(jù)分析學(xué)習筆記(五):探索性數(shù)據(jù)分析(四)
大師兄的數(shù)據(jù)分析學(xué)習筆記(七):探索性數(shù)據(jù)分析(六)

四、多因子與復(fù)合分析

4. 相關(guān)系數(shù)
  • 相關(guān)系數(shù)是衡量兩組數(shù)據(jù)的分布趨勢和變化趨勢一致性程度的因子。
  • 相關(guān)系數(shù)有正相關(guān)、負相關(guān)和不相關(guān)之分贺奠。
  • 相關(guān)系數(shù)越大坦辟,越接近1妆距,變化趨勢越正向同步;
  • 相關(guān)系數(shù)越小晌畅,越接近-1偏形,變化趨勢越反向同步静袖;
  • 相關(guān)系數(shù)越接近0,變化趨勢越不相關(guān)俊扭;
  • 常用的相關(guān)系數(shù)有兩種:皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)斯皮爾曼相關(guān)系數(shù)(spearman correlation coefficient)
4.1 皮爾遜相關(guān)系數(shù)
  • 皮爾遜相關(guān)系數(shù)的分子是兩組數(shù)據(jù)的協(xié)方差队橙,分母是兩組數(shù)據(jù)的標準差的集。
  • r(X,Y) = \frac{Cov(X,Y)}{\sigma_x\sigma_y} = \frac{E[(X-\mu_x)(Y-\mu_y)]}{\sigma_x\sigma_y}
>>>import numpy as np
>>>import scipy.stats as ss

>>>data1 = np.random.rand(10)
>>>data2 = np.random.rand(10)
>>>pccs = ss.pearsonr(data1,data2)
>>>print(f"data1:{data1}")
>>>print(f"data2:{data2}")
>>>print(f"Pearson's correlation coefficient:{pccs[0]}")
>>>print(f"Two-tailed p-value:{pccs[1]}")
data1:[0.99837294 0.784658   0.53345186 0.59309483 0.28240823 0.66189433
 0.29580696 0.31315612 0.7754216  0.77443794]
data2:[0.48826977 0.81899969 0.77566201 0.91464751 0.05536523 0.35246479
 0.32585614 0.71434004 0.37966254 0.94915496]
Pearson's correlation coefficient:0.32409101999585543
Two-tailed p-value:0.3609398908469933
4.2 斯皮爾曼相關(guān)系數(shù)
  • 斯皮爾曼相關(guān)系數(shù)關(guān)注兩組數(shù)據(jù)的名次差萨惑。
  • \rho_s = 1 - \frac{6\sum{d^2_i}}{n(n^2-1)}
  • n:每組數(shù)據(jù)的數(shù)量捐康;
  • d:兩組數(shù)據(jù)排名后的名次差;
>>>import numpy as np
>>>import scipy.stats as ss

>>>data1 = np.random.rand(10)
>>>data2 = np.random.rand(10)
>>>pccs = ss.spearmanr(data1,data2)
>>>print(f"data1:{data1}")
>>>print(f"data2:{data2}")
>>>print(f"Spearman's correlation coefficient:{pccs[0]}")
>>>print(f"Two-tailed p-value:{pccs[1]}")
data1:[0.0085787  0.94480457 0.29985499 0.54689296 0.13564683 0.72558257
 0.83684571 0.2797848  0.58108358 0.96698258]
data2:[0.71151971 0.3121948  0.20845518 0.68793807 0.62991839 0.43235496
 0.93005684 0.64161376 0.93214243 0.06559743]
Spearman's correlation coefficient:-0.32121212121212117
Two-tailed p-value:0.3654683104386702
5. 線性回歸
  • 回歸是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法庸蔼,如果變量間的關(guān)系是線性關(guān)系解总,則稱為線性回歸
  • 線性回歸最常用的算法是最小二乘法姐仅,最小二乘法的本質(zhì)是最小化誤差的平方的方法花枫,公式如下:

\hat=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} = \frac{\sum_{i=1}^nx_iy_i-n\overline{xy}}{\sum_{i=1}^nx_i^2-n\overline{x}^2}
\hat{a}=\overline{y}-\hat掏膏\overline{x}
\hat{y} = \hat劳翰x+\hat{a}

  • 線性回歸的關(guān)鍵指標包括決定系數(shù)殘差不相關(guān)
  • 一元線性回歸決定系數(shù)公式:R^2 = \frac{SSR}{SST} = \frac{\sum_{i=1}^n(\hat{y_i}-\overline{y})^2}{\sum_{i=1}^n(y_i-\overline{y})^2}

y_i:實際值
\overline{y}:均值
\hat{y_i}:預(yù)測值
決定系數(shù)越接近1,代表線性回歸效果越好馒疹。

  • 多元線性回歸采用了校正式的決定系數(shù):adjusted R^2 = 1 - \frac{\frac{SSR}{(n-k-1)}}{\frac{SST}{(n-1)}}

k:參數(shù)的個數(shù)

  • 殘差不相關(guān)(DW檢驗)的公式:DW=\frac{\sum_{l=2}^n(e_l-{e_{l-1}})^2}{\sum_{l=1}^n{e_l}^2}

值得范圍在0-4之間佳簸;
如果值為2則殘差不相關(guān)(好的回歸);
接近4代表殘差正相關(guān);
接近0代表殘差負相關(guān)。

>>>import random
>>>import numpy as np
>>>import matplotlib.pyplot as plt
>>>from sklearn.linear_model import LinearRegression

>>>x = np.arange(10).astype(float).reshape((10,1))
>>>y = random.randint(-5,20)+np.random.rand(10,1)

>>>reg = LinearRegression()
>>>res = reg.fit(x,y) # 擬合
>>>y_pred = reg.predict(x) # 預(yù)測值
>>>print(f"coefficient:{reg.coef_}")
>>>print(f"intercept:{reg.intercept_}")

>>>plt.scatter(x,y)
>>>plt.plot(y_pred)
>>>plt.show()
coefficient:[[-0.01168797]]
intercept:[19.51730895]
6. 主成分分析
  • 主成分分析(PCA)颖变,通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量生均,轉(zhuǎn)換后的這組變量叫主成分,最重要的作用是給數(shù)據(jù)降維
  • 主成分分析的步驟:
  1. 求特征協(xié)方差矩陣悼做;
  2. 求協(xié)方差的特征值和特征向量疯特;
  3. 將特征值按照從大到小的順序排序,選擇其中最大的k個;
  4. 將樣本點投影到選取的特征向量上肛走。
>>>import numpy as np
>>>import matplotlib.pyplot as plt
>>>from sklearn.decomposition import PCA

>>>data = np.array([np.random.randint(0,5,10),np.random.randint(0,5,10),np.random.randint(0,5,10),np.random.randint(0,5,10)]).T
>>>lower_dim = PCA(n_components=1)
>>>lower_dim.fit(data)
>>>print(f"explained_variance_ratio:{lower_dim.explained_variance_ratio_}")

>>>plt.plot(lower_dim.fit_transform(data))
>>>plt.show()
explained_variance_ratio:[0.40663428]
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末漓雅,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子朽色,更是在濱河造成了極大的恐慌邻吞,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件葫男,死亡現(xiàn)場離奇詭異抱冷,居然都是意外死亡,警方通過查閱死者的電腦和手機梢褐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門旺遮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赵讯,“玉大人,你說我怎么就攤上這事耿眉”咭恚” “怎么了?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵鸣剪,是天一觀的道長组底。 經(jīng)常有香客問我,道長筐骇,這世上最難降的妖魔是什么债鸡? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮铛纬,結(jié)果婚禮上厌均,老公的妹妹穿的比我還像新娘。我一直安慰自己饺鹃,他們只是感情好莫秆,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著悔详,像睡著了一般镊屎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上茄螃,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天缝驳,我揣著相機與錄音,去河邊找鬼归苍。 笑死用狱,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的拼弃。 我是一名探鬼主播夏伊,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼吻氧!你這毒婦竟也來了溺忧?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤盯孙,失蹤者是張志新(化名)和其女友劉穎鲁森,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體振惰,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡歌溉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了骑晶。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片痛垛。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡草慧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出榜晦,到底是詐尸還是另有隱情冠蒋,我是刑警寧澤羽圃,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布乾胶,位于F島的核電站,受9級特大地震影響朽寞,放射性物質(zhì)發(fā)生泄漏识窿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一脑融、第九天 我趴在偏房一處隱蔽的房頂上張望喻频。 院中可真熱鬧,春花似錦肘迎、人聲如沸甥温。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽姻蚓。三九已至,卻和暖如春匣沼,著一層夾襖步出監(jiān)牢的瞬間狰挡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工释涛, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留加叁,地道東北人。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓唇撬,卻偏偏與公主長得像它匕,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子窖认,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容