0_9f3a - 簡書

發(fā)簡信

0_9f3a

1
關(guān)注
4
粉絲
29
文章
9990

字?jǐn)?shù)
14

收獲喜歡
1

總資產(chǎn)

IP屬地：廣東

0_9f3a

Spark中Executor內(nèi)存中管理機(jī)制
分為兩種1.靜態(tài)內(nèi)存管理2.統(tǒng)一內(nèi)存管理一.靜態(tài)內(nèi)存管理首先定義內(nèi)存的大小為3G（--executor-memory 3G）定義完成后，靜態(tài)的內(nèi)存管理拔莱，管理的內(nèi)存分為三大部...

3515 0 3
0_9f3a

Spark shuffle中 reduce task是怎么拉取數(shù)據(jù)的劲适？
1.map task 執(zhí)行完畢后會(huì)將計(jì)算狀態(tài)以及磁盤小文件位置等信息分裝到mapStatue對(duì)象中，然后由本進(jìn)程中的MapOutPutTrackerWorker對(duì)象將mapS...

2795 1 3

0_9f3a

Spark shuffle
一.reduceByKey的含義reduceByKey會(huì)將上一個(gè)RDD中的每一個(gè)key對(duì)應(yīng)的所有value聚合成一個(gè)value归榕，然后生成一個(gè)新的RDD走芋，元素類型是<key,v...

699 0 1
0_9f3a

會(huì)發(fā)生shuule的算子
reduceByKeycountByKeyjoingroupByKeycogroup他們的共同特點(diǎn)都是一些聚合類的算子

471 0 0
0_9f3a

Spark中sortByKey是如何進(jìn)行全局排序的
首先有一個(gè)問題有一臺(tái)服務(wù)器:24core 128G內(nèi)存陈症，要處理一個(gè)1T的數(shù)據(jù)怎么辦漂问？要采用拆分策略赖瞒，將1T的數(shù)據(jù)拆分成128G大小的塊進(jìn)入服務(wù)器計(jì)算。1T數(shù)據(jù)拆分成了8個(gè)塊...

7745 1 2
0_9f3a

統(tǒng)計(jì)一下每一個(gè)月份中蚤假，溫度最高top2
思路首先按照月份來分組栏饮，對(duì)組內(nèi)的數(shù)據(jù)按照溫度來排序取溫度最高的前兩名，然后分組取RDD代碼關(guān)于serialVersionUIDserialVersionUID適用于Java...

879 0 0
0_9f3a

根據(jù)溫度排序磷仰，溫度相同按照濕度排序
原始數(shù)據(jù) 思路：1.將數(shù)據(jù)讀取到RDD1中2.將RDD1中的數(shù)據(jù)轉(zhuǎn)換成K-V格式的RDD23.對(duì)RDD2使用sortByKey排序代碼其中SortObj用來尋找溫度相同的元...

599 0 0

0_9f3a

map 和 mapPartitions
map:遍歷算子袍嬉，可以遍歷RDD中每一個(gè)元素，遍歷的單位是每條記錄 mapPartitions遍歷算子芒划，可以改變RDD格式冬竟，會(huì)提高RDD并行度欧穴，遍歷單位是partition民逼，...

2602 1 0
0_9f3a

reduceByKey和countByKey區(qū)別
相同點(diǎn)：兩者都會(huì)根據(jù)key來分組不同點(diǎn)：reduceByKey會(huì)根據(jù)用戶傳入的聚合邏輯對(duì)數(shù)組內(nèi)的數(shù)據(jù)進(jìn)行聚合，countByKey不需要用戶傳入聚合邏輯涮帘，他是直接對(duì)數(shù)組內(nèi)...

1769 0 0
0_9f3a

repartition 和 coalesce算子
coalesce（number拼苍，bool）第一個(gè)參數(shù)是將RDD劃分成幾個(gè)partition 第二個(gè)算子是確定是否發(fā)生shuffle，true指的是發(fā)生shuffle调缨，fals...

2151 0 0
0_9f3a

粗粒度資源調(diào)度和細(xì)粒度資源調(diào)度
一.粗粒度資源調(diào)度：典型：Spark 在Application執(zhí)行之前疮鲫，會(huì)將所有的資源(Executor)申請(qǐng)完畢，直接資源申請(qǐng)完畢后弦叶，才會(huì)進(jìn)行任務(wù)調(diào)度俊犯，直到最后一個(gè)task...

1452 0 0
0_9f3a

提交Application的兩種方式
一.提交Application的兩種方式分別是client方式和cluster方式1.client方式這種方式，Driver進(jìn)程是在client端啟動(dòng)啟動(dòng)代碼樣例 2.clu...

541 0 0

0_9f3a

Spark中的共享變量---廣播變量和累加器
一.廣播變量和累加器的作用累加器（集群規(guī)模之間的大變量）：做Spark的全局統(tǒng)計(jì)使用廣播變量（集群規(guī)模間的大常量）：在每一臺(tái)機(jī)器上緩存一個(gè)只讀的變量伤哺，而不是每個(gè)任務(wù)一份拷貝燕侠。...

943 0 0
0_9f3a

Spark集群術(shù)語&Pipeline計(jì)算模式
1.Master(standalone)：資源管理的主節(jié)點(diǎn)（進(jìn)程）管理Worker2.Cluster Manager：在集群上獲取資源的外部服務(wù)（例如：standalone ...

1061 0 0
0_9f3a

RDD依賴關(guān)系---寬依賴窄依賴
依賴關(guān)系可以方便任務(wù)調(diào)度窄依賴：對(duì)RDD執(zhí)行操作后，父RDD和子RDD對(duì)應(yīng)關(guān)系的一對(duì)一或多對(duì)一（多對(duì)一只是一個(gè)邏輯上的說法立莉，兩個(gè)合并為一個(gè)既沒有數(shù)據(jù)的傳輸也沒有發(fā)生shuf...

1566 0 0
0_9f3a

控制類算子
一.cache將數(shù)據(jù)持久化到內(nèi)存中去注意：1.cache是一個(gè)懶執(zhí)行算子绢彤，必須有一個(gè)action類算子觸發(fā)執(zhí)行。2.cache類算子的返回值必須復(fù)制給一個(gè)變量蜓耻，在接下來的jo...

1011 0 0
0_9f3a

Spark執(zhí)行流程
1.當(dāng)執(zhí)行“spark -submit --master spark......”這個(gè)命令之后茫舶，在客戶端中啟動(dòng)一個(gè)Driver進(jìn)程。2.在FTP服務(wù)器上就會(huì)產(chǎn)生這個(gè)進(jìn)程的ja...

530 0 0

0_9f3a

Spark集群不使用客戶端會(huì)出現(xiàn)的問題刹淌，以及配置客戶端要注意的問題
通過Master節(jié)點(diǎn)提交的Application到Spark集群中運(yùn)行饶氏。如果以后頻繁地使用Master節(jié)點(diǎn)來提交Application讥耗，那么會(huì)導(dǎo)致Master節(jié)點(diǎn)的性能與其它...

638 0 0
0_9f3a

算子整理
Spark中有兩類算子1.transformations（轉(zhuǎn)換算子）：延遲執(zhí)行算子返回值是一個(gè)RDD2.Action（行動(dòng)算子）：觸發(fā)執(zhí)行算子返回值是非RDD類型 trans...

657 0 0