BerkeleyX: CS105x Introduction to Apache Spark 上課筆記 Week 1

前言

課程是UC Berkeley的關于Spark 的課程,地址如下:

Data Science and Engineering with Apache Spark

他們這系列課分為三門,這是最基礎的一門的課堂筆記箭窜,我在前幾天剛剛開始學,因為上課總是在印象筆記上寫堡僻,覺得拿出來可能會幫到大家整理筆記甥材。我本人對NLP 和 Deep Learning顷窒,比較感興趣常挚,以后也會自己繼續(xù)學習相關課程作谭,然后分享筆記。之前對Machine Learning 有粗略的涉及奄毡,希望以后通過積累折欠,慢慢變強。

在網上學了這門課吼过,看這個筆記才有幫助锐秦,我覺得。

第一講:先是入門介紹 什么是big data?

先粗略講一下這么多data從哪里來

User generate content

Health and Scientific Computing

data from network, computer network…)

Web server

Internet of Things

然后就是基本概念的介紹盗忱, 如data model酱床, schema

Structure Spectrum

? ? A data model is a collection of concepts for describing data.

? ? A schema is a description of a particular collection of data using a given data model.

如圖

Unstructured data, 像純文本文件 沒有schema(摘要),像什么微博啊售淡,圖片斤葱,視頻

Semi-Structured data : XML,被標注的視頻等等

Structured Data(RDB 就是一個例子)揖闸,但是只有不到20%,會越來越少料身,因為unstructured data 越來越多汤纸。

我們傾向于處理 structured or semi-structured data. 所以我們需要 ETL ,把unstructed data 轉換成我們喜歡處理的芹血。

第二講:Analysis, Big Data and Apache Spark

先介紹傳統的 分析工具贮泞, r楞慈, pandas 什么的, 但是局限性在啃擦,他只在一個機器上跑囊蓝。

大數據帶來的問題

數據成長的比計算速度快

Storage 和 相對停滯的計算速度,已經成為一個計算的瓶頸了

例如令蛉,硬盤的讀寫速度

解決方法聚霜, 分布式儲存和計算。 partition后存在內存里珠叔,是spark的關鍵

? 4.? ? Spark 的 組成結構?

當跑spark 程序時蝎宇,一個driver program, 和很多個worker program?

第三講:Apache Spark DataFrames

這一講,開始說spark中基礎的東西祷安。

首先姥芥,什么是 DataFrames

Spark 中 有兩種 operations:

transformations

actions

transformations 是 ‘lazy‘的,這些命令 直到action才真正的被執(zhí)行(executed)

第四講:Apache Spark Transformations

這節(jié)課主講Spark 中 transformation 的東西汇鞭,入什么select凉唐,drop等。 有基礎的人這部分很好理解霍骄,注意的是熊榛,這些命令沒有真正的被執(zhí)行,就像是寫了個“菜譜”

諸如一些例子腕巡,這些當自己寫的時候玄坦,再查是最好的

第五講:Apache Spark Actions

之前都是 lazy evaluation, 直到action的時候,其實什么都沒做绘沉,相當于存了個 菜譜

collect 收集所有的record煎楣,所以要注意. 建議不要用collect, 用show 和 take

注意:count() 在處理group data 時候 是transform, 在處理df時,是action

.cache() 能把你想要的存起來肚菠,這樣不用每次都算一遍

注意: 在寫spark 程序時冒滩,有些思維需要變一下,因為要處理的數據量很大概而,例如把兩張表合起來這個事情,之前的思維就是 A + B 就好了,但是在spark里不要這么做慷丽,因為內存可能會溢出,舉個例子:

這樣做就是錯的鳄哭!

正確的做法應該如下:

這就是 Spark 的第一周的課的筆記要糊。

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市妆丘,隨后出現的幾起案子锄俄,更是在濱河造成了極大的恐慌,老刑警劉巖苹丸,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件塑陵,死亡現場離奇詭異,居然都是意外死亡阻桅,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門慎王,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蜀漆,“玉大人咱旱,你說我怎么就攤上這事毯盈。” “怎么了基公?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵祷杈,是天一觀的道長但汞。 經常有香客問我,道長嗤疯,這世上最難降的妖魔是什么茂缚? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任戏罢,我火速辦了婚禮,結果婚禮上脚囊,老公的妹妹穿的比我還像新娘龟糕。我一直安慰自己,他們只是感情好悔耘,可當我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布讲岁。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪缓艳。 梳的紋絲不亂的頭發(fā)上校摩,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天,我揣著相機與錄音阶淘,去河邊找鬼衙吩。 笑死,一個胖子當著我的面吹牛溪窒,可吹牛的內容都是我干的坤塞。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼澈蚌,長吁一口氣:“原來是場噩夢啊……” “哼摹芙!你這毒婦竟也來了?” 一聲冷哼從身側響起宛瞄,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤浮禾,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后坛悉,有當地人在樹林里發(fā)現了一具尸體伐厌,經...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年裸影,在試婚紗的時候發(fā)現自己被綠了挣轨。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡轩猩,死狀恐怖卷扮,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情均践,我是刑警寧澤晤锹,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站彤委,受9級特大地震影響鞭铆,放射性物質發(fā)生泄漏。R本人自食惡果不足惜焦影,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一车遂、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧斯辰,春花似錦舶担、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽柄瑰。三九已至,卻和暖如春剪况,著一層夾襖步出監(jiān)牢的瞬間教沾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工拯欧, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留详囤,地道東北人财骨。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓镐作,卻偏偏與公主長得像,于是被迫代替她去往敵國和親隆箩。 傳聞我的和親對象是個殘疾皇子该贾,可洞房花燭夜當晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內容