Spark慢慢來(lái) - 專(zhuān)題

投稿

收錄了23篇文章 · 20人關(guān)注

Spark on Yarn集群搭建詳細(xì)過(guò)程
由于最近學(xué)習(xí)大數(shù)據(jù)開(kāi)發(fā)悼嫉，spark作為分布式內(nèi)存計(jì)算框架果录，當(dāng)前十分火熱，因此作為首選學(xué)習(xí)技術(shù)之一。Spark官方提供了三種集群部署方案： Sta...

0.2 Fang2016 3 6
Spark源碼分析：DAGScheduler
Spark源碼分析：DAGScheduler 概述在RDD一文中提到：定義RDD之后允华，程序員就可以在動(dòng)作（注：即action操作）中使用RD...

raincoffee 0 0 1

Spark排錯(cuò)與優(yōu)化
一. 運(yùn)維 1. Master掛掉,standby重啟也失效 Master默認(rèn)使用512M內(nèi)存狸涌，當(dāng)集群中運(yùn)行的任務(wù)特別多時(shí)，就會(huì)掛掉辩块，原因是ma...

0.6 breeze_lsw 2 32
HDFS機(jī)架感知功能原理（rack awareness）
HDFS NameNode對(duì)文件塊復(fù)制相關(guān)所有事物負(fù)責(zé)蛔六，它周期性接受來(lái)自于DataNode的HeartBeat和BlockReport信息，HD...

0.6 GodHehe 2 11
深入理解groupByKey废亭、reduceByKey
測(cè)試源碼下面來(lái)看看groupByKey和reduceByKey的區(qū)別：雖然兩個(gè)函數(shù)都能得出正確的結(jié)果国章，但reduceByKey函數(shù)更適合使...

0.6 jacksu在簡(jiǎn)書(shū) 1 23
Spark Streaming使用Kafka保證數(shù)據(jù)零丟失
源文件放在github，隨著理解的深入豆村，不斷更新液兽，如有謬誤之處，歡迎指正掌动。原文鏈接https://github.com/jacksu/utils...

jacksu在簡(jiǎn)書(shū) 7 21
Spark 2.0 Structured Streaming 分析
前言 Spark 2.0 將流式計(jì)算也統(tǒng)一到DataFrame里去了四啰，提出了Structured Streaming的概念，將數(shù)據(jù)源映射為一張無(wú)...

0.9 祝威廉 13 26 1

Spark新愿景：讓深度學(xué)習(xí)變得更加易于使用
前言 Spark成功的實(shí)現(xiàn)了當(dāng)年的承諾坏匪，讓數(shù)據(jù)處理變得更容易拟逮，現(xiàn)在，雄心勃勃的Databricks公司展開(kāi)了一個(gè)新的愿景：讓深度學(xué)習(xí)變得更容易适滓。...

祝威廉 1 9
Spark 內(nèi)存管理的前世今生（下）
歡迎關(guān)注我的微信公眾號(hào)：FunnyBigData 在《Spark 內(nèi)存管理的前世今生（上）》中敦迄，我們介紹了 UnifiedMemoryManag...

0.4 牛肉圓粉不加蔥 6 10
Spark SQL，DataFrame以及 Datasets 編程指南 - For 2.0
撰寫(xiě)本文時(shí) Spark 的最新版本為 2.0.0 概述 Spark SQL 是 Spark 用來(lái)處理結(jié)構(gòu)化數(shù)據(jù)的一個(gè)模塊凭迹。與基礎(chǔ)的 Spark ...

0.4 牛肉圓粉不加蔥 0 32 1