Hadoop - 專題

投稿

Hadoop

收錄了11篇文章 · 14人關(guān)注

Flink狀態(tài)
key狀態(tài)和算子狀態(tài) key狀態(tài) key狀態(tài)總是與key有關(guān)，只能被用于keyedStream類型的函數(shù)與算子。你可以認(rèn)為key狀態(tài)是一種被分區(qū)...

0.1 單行線的旋律 0 1
Spark方法aggregate講解
大致的意思是aggregate接收兩個(gè)函數(shù)，和一個(gè)初始化值墩弯。seqOp函數(shù)用于聚集每一個(gè)分區(qū)，combOp用于聚集所有分區(qū)聚集后的結(jié)果蟀淮。每一個(gè)分...

0.1 單行線的旋律 2 1

Hive中自定義Map/Reduce示例 In Python
Hive支持自定義map與reduce script最住。接下來我用一個(gè)簡單的wordcount例子加以說明。使用Python開發(fā)(如果使用Java...

單行線的旋律 0 0
Spark Streaming WordCount
在spark官網(wǎng)講解spark streaming的時(shí)候怠惶，舉了一個(gè)word count的例子,通過監(jiān)聽一個(gè)端口的TCP連接涨缚，統(tǒng)計(jì)單詞的個(gè)數(shù)。程序...

單行線的旋律 0 0
第5章:Hadoop I/O
Hadoop有一些數(shù)據(jù)I/O方面操作的工具策治，其中一些比Hadoop使用的都更普遍脓魏。例如數(shù)據(jù)完整性和壓縮。但是當(dāng)使用這些工具處理多達(dá)幾TB數(shù)據(jù)的時(shí)...

單行線的旋律 0 2
FileSystem關(guān)鍵幾個(gè)方法的時(shí)序圖
Hadoop將底層文件系統(tǒng)抽象成FileSystem類通惫，上層用戶可以通過相同方法操作底層不同的文件系統(tǒng)茂翔。常用的方法有g(shù)et一個(gè)FileSyste...

0.1 單行線的旋律 1 1
Hive中自定義Map/Reduce示例 In Java
Hive支持自定義map與reduce script。接下來我用一個(gè)簡單的wordcount例子加以說明履腋。如果自己使用Java開發(fā)珊燎，需要處理Sy...

單行線的旋律 0 0

第4章:YARN
Apache YARN(Yet Another Resource Negotiator)是一個(gè)Hadoop集群資源管理系統(tǒng)挎峦。YARN是在Hado...

0.2 單行線的旋律 0 11
第3章:Hadoop分布式文件系統(tǒng)(2)
數(shù)據(jù)流讀取文件數(shù)據(jù)的剖析客戶端通過調(diào)用FileSystem對(duì)象的open()方法打開一個(gè)希望從中讀取數(shù)據(jù)的文件炼杖，對(duì)于HDFS來說，F(xiàn)ileS...

單行線的旋律 0 2
第2章:MapReduce
MapReduce是一個(gè)數(shù)據(jù)處理的編程模型桥言。這個(gè)模型很簡單延旧，但也不是簡單到不能夠支持一些有用的語言谋国。Hadoop能夠運(yùn)行以多種語言寫成的MapR...

0.2 單行線的旋律 0 2