0 相關(guān)源碼
1 基礎(chǔ)統(tǒng)計模塊及常用統(tǒng)計學(xué)知識介紹
◆ Spark 的基礎(chǔ)統(tǒng)計模塊即MLlib組件中的Basic Statistics部分
◆ Basic Statistics主要包括Correlation 與Hypothesis testing等
◆ 其大多被封裝在orq.apache spark.mllib.stat._ 中
1.1 基礎(chǔ)統(tǒng)計學(xué)知識
1.1.1 常用的統(tǒng)計學(xué)知識
◆ 描述性統(tǒng)計
平均數(shù),方差,眾數(shù),中位數(shù)...
◆ 相關(guān)性度量
spark 提供了皮爾遜和斯皮爾曼相關(guān)系數(shù),反映變量間相關(guān)關(guān)系密切程度
◆ 假設(shè)檢驗
根據(jù)一定假設(shè)條件耘柱,由樣本推斷總體的一種統(tǒng)計學(xué)方法,spark提供了皮爾森卡方檢測
2 實戰(zhàn)統(tǒng)計匯總
◆ 實戰(zhàn)的數(shù)據(jù)來源是北京市歷年降水量數(shù)據(jù)
◆ 學(xué)習(xí)使用spark對數(shù)據(jù)進描述性統(tǒng)計
◆ 在進行機器學(xué)習(xí)模型的訓(xùn)練前,可以了解數(shù)據(jù)集的總體情況
2.1 coding實戰(zhàn)
-
保存降水量文件
-
字符串值
-
實際內(nèi)容只有一行,讀取到數(shù)組的是一個超長字符串,需要進行分割.
-
導(dǎo)入
-
val data = txt.flatMap(_.split(",")).map(value => linalg.Vectors.dense(value.toDouble))
-
data.take(10)
統(tǒng)計方法
-
最大值
-
平均值
3 學(xué)習(xí)相關(guān)系數(shù)
3.1 相關(guān)性度量
◆ 是一種研究變量之間線性相關(guān)程度的量
◆ 主要學(xué)習(xí)皮爾遜相關(guān)系數(shù):
幾組(x, y)的點集,以及各個點集中x和y之間的相關(guān)系數(shù)而姐。我們可以發(fā)現(xiàn)相關(guān)系數(shù)反映的是變量之間的線性關(guān)系和相關(guān)性的方向(第一排)埃碱,而不是相關(guān)性的斜率(中間)瓤逼,也不是各種非線性關(guān)系(第三排)礼华。請注意:中間的圖中斜率為0,但相關(guān)系數(shù)是沒有意義的戏售,因為此時變量Y是0
3.2 實戰(zhàn)相關(guān)系數(shù)
我們對北京市歷年降水量進行相關(guān)性統(tǒng)計,看看年份與降水量之間的相關(guān)性有多大
-
過濾
-
相關(guān)系數(shù)值
4 學(xué)習(xí)假設(shè)檢驗
4.1 假設(shè)檢驗
◆ 根據(jù)一定假設(shè)條件侨核,由樣本推斷總體的一種統(tǒng)計學(xué)方法」嘣郑基本思路是先提出假設(shè)(虛無假設(shè)),使用統(tǒng)計學(xué)方法進行計算,根據(jù)計算結(jié)果判斷是否拒絕
假設(shè)
◆ 假設(shè)檢驗的統(tǒng)計方法有很多,如卡方檢驗搓译,T檢驗等
◆ spark實現(xiàn)的是皮爾森卡方檢驗,它可以實現(xiàn)適配度檢測和獨立性檢測
4.2 皮爾森卡方檢驗
最常用的卡方檢驗,可以分為適配度檢驗和獨立性檢驗
◆ 適配度檢驗:驗證觀察值的次數(shù)分配與理論值是否相等
◆ 獨立性檢驗:兩個變量抽樣到的觀察值是否相互獨立
4.3 實戰(zhàn) : 判斷性別與左撇子是否存在關(guān)系
-
導(dǎo)入數(shù)據(jù)
-
計算
否定了假設(shè)檢驗,所以性別與左撇子是有關(guān)的!