基于Spark的機器學(xué)習(xí)實踐 (六) - 基礎(chǔ)統(tǒng)計模塊

0 相關(guān)源碼

1 基礎(chǔ)統(tǒng)計模塊及常用統(tǒng)計學(xué)知識介紹

◆ Spark 的基礎(chǔ)統(tǒng)計模塊即MLlib組件中的Basic Statistics部分

◆ Basic Statistics主要包括Correlation 與Hypothesis testing等

◆ 其大多被封裝在orq.apache spark.mllib.stat._ 中

1.1 基礎(chǔ)統(tǒng)計學(xué)知識

1.1.1 常用的統(tǒng)計學(xué)知識

◆ 描述性統(tǒng)計
平均數(shù),方差,眾數(shù),中位數(shù)...

◆ 相關(guān)性度量
spark 提供了皮爾遜和斯皮爾曼相關(guān)系數(shù),反映變量間相關(guān)關(guān)系密切程度

◆ 假設(shè)檢驗
根據(jù)一定假設(shè)條件耘柱,由樣本推斷總體的一種統(tǒng)計學(xué)方法,spark提供了皮爾森卡方檢測

2 實戰(zhàn)統(tǒng)計匯總

◆ 實戰(zhàn)的數(shù)據(jù)來源是北京市歷年降水量數(shù)據(jù)

◆ 學(xué)習(xí)使用spark對數(shù)據(jù)進描述性統(tǒng)計

◆ 在進行機器學(xué)習(xí)模型的訓(xùn)練前,可以了解數(shù)據(jù)集的總體情況

2.1 coding實戰(zhàn)

  • 保存降水量文件


  • 字符串值



  • 實際內(nèi)容只有一行,讀取到數(shù)組的是一個超長字符串,需要進行分割.


  • 所需依賴

  • 導(dǎo)入


  • val data = txt.flatMap(_.split(",")).map(value => linalg.Vectors.dense(value.toDouble))


  • data.take(10)


  • 統(tǒng)計方法

  • 最大值


  • 平均值


3 學(xué)習(xí)相關(guān)系數(shù)

3.1 相關(guān)性度量

◆ 是一種研究變量之間線性相關(guān)程度的量

◆ 主要學(xué)習(xí)皮爾遜相關(guān)系數(shù):

幾組(x, y)的點集,以及各個點集中x和y之間的相關(guān)系數(shù)而姐。我們可以發(fā)現(xiàn)相關(guān)系數(shù)反映的是變量之間的線性關(guān)系和相關(guān)性的方向(第一排)埃碱,而不是相關(guān)性的斜率(中間)瓤逼,也不是各種非線性關(guān)系(第三排)礼华。請注意:中間的圖中斜率為0,但相關(guān)系數(shù)是沒有意義的戏售,因為此時變量Y是0

3.2 實戰(zhàn)相關(guān)系數(shù)

我們對北京市歷年降水量進行相關(guān)性統(tǒng)計,看看年份與降水量之間的相關(guān)性有多大



  • 過濾


  • 相關(guān)系數(shù)值


4 學(xué)習(xí)假設(shè)檢驗

4.1 假設(shè)檢驗

◆ 根據(jù)一定假設(shè)條件侨核,由樣本推斷總體的一種統(tǒng)計學(xué)方法」嘣郑基本思路是先提出假設(shè)(虛無假設(shè)),使用統(tǒng)計學(xué)方法進行計算,根據(jù)計算結(jié)果判斷是否拒絕假設(shè)

◆ 假設(shè)檢驗的統(tǒng)計方法有很多,如卡方檢驗搓译,T檢驗等

◆ spark實現(xiàn)的是皮爾森卡方檢驗,它可以實現(xiàn)適配度檢測和獨立性檢測

4.2 皮爾森卡方檢驗

最常用的卡方檢驗,可以分為適配度檢驗和獨立性檢驗

◆ 適配度檢驗:驗證觀察值的次數(shù)分配與理論值是否相等

◆ 獨立性檢驗:兩個變量抽樣到的觀察值是否相互獨立

4.3 實戰(zhàn) : 判斷性別與左撇子是否存在關(guān)系

  • 導(dǎo)入數(shù)據(jù)


  • 計算


否定了假設(shè)檢驗,所以性別與左撇子是有關(guān)的!

Spark機器學(xué)習(xí)實踐系列

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市锋喜,隨后出現(xiàn)的幾起案子些己,更是在濱河造成了極大的恐慌,老刑警劉巖嘿般,帶你破解...
    沈念sama閱讀 211,639評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件段标,死亡現(xiàn)場離奇詭異,居然都是意外死亡炉奴,警方通過查閱死者的電腦和手機逼庞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來盆佣,“玉大人往堡,你說我怎么就攤上這事」菜#” “怎么了虑灰?”我有些...
    開封第一講書人閱讀 157,221評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長痹兜。 經(jīng)常有香客問我穆咐,道長,這世上最難降的妖魔是什么字旭? 我笑而不...
    開封第一講書人閱讀 56,474評論 1 283
  • 正文 為了忘掉前任对湃,我火速辦了婚禮,結(jié)果婚禮上遗淳,老公的妹妹穿的比我還像新娘拍柒。我一直安慰自己,他們只是感情好屈暗,可當(dāng)我...
    茶點故事閱讀 65,570評論 6 386
  • 文/花漫 我一把揭開白布拆讯。 她就那樣靜靜地躺著脂男,像睡著了一般。 火紅的嫁衣襯著肌膚如雪种呐。 梳的紋絲不亂的頭發(fā)上宰翅,一...
    開封第一講書人閱讀 49,816評論 1 290
  • 那天,我揣著相機與錄音爽室,去河邊找鬼汁讼。 笑死,一個胖子當(dāng)著我的面吹牛阔墩,可吹牛的內(nèi)容都是我干的嘿架。 我是一名探鬼主播,決...
    沈念sama閱讀 38,957評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼戈擒,長吁一口氣:“原來是場噩夢啊……” “哼眶明!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起筐高,我...
    開封第一講書人閱讀 37,718評論 0 266
  • 序言:老撾萬榮一對情侶失蹤搜囱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后柑土,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蜀肘,經(jīng)...
    沈念sama閱讀 44,176評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,511評論 2 327
  • 正文 我和宋清朗相戀三年稽屏,在試婚紗的時候發(fā)現(xiàn)自己被綠了扮宠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,646評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡狐榔,死狀恐怖坛增,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情薄腻,我是刑警寧澤收捣,帶...
    沈念sama閱讀 34,322評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站庵楷,受9級特大地震影響罢艾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜尽纽,卻給世界環(huán)境...
    茶點故事閱讀 39,934評論 3 313
  • 文/蒙蒙 一咐蚯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧弄贿,春花似錦春锋、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽豆拨。三九已至直奋,卻和暖如春能庆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背脚线。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評論 1 266
  • 我被黑心中介騙來泰國打工搁胆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人邮绿。 一個月前我還...
    沈念sama閱讀 46,358評論 2 360
  • 正文 我出身青樓渠旁,卻偏偏與公主長得像,于是被迫代替她去往敵國和親船逮。 傳聞我的和親對象是個殘疾皇子顾腊,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,514評論 2 348

推薦閱讀更多精彩內(nèi)容