Hadoop在簡書 - 專題

投稿

Hadoop在簡書

收錄了43篇文章 · 281人關(guān)注

Spark Aggregations execution
一只酥、Distinct aggregation 算法包含 distinct 關(guān)鍵字的 aggregation 由 4 個(gè)物理執(zhí)行步驟組成。我們使...

0.2 牛肉圓粉不加蔥 0 2
StreamSets：Record Header Attributes
記錄頭屬性是記錄頭中的屬性狞甚，您可以根據(jù)需要在管道邏輯中使用這些屬性。有些stage為特定目的創(chuàng)建記錄頭屬性廓旬。例如哼审，CDC-enabl...

阿貓阿狗Hakuna 0 0

Flink系統(tǒng)架構(gòu)簡介
Flink系統(tǒng)組成 Flink是一個(gè)分層系統(tǒng)，從下到上分為：系統(tǒng)部署層、任務(wù)運(yùn)行層涩盾、API層以及基于API開發(fā)的通用庫層(Libraries)十气。...

1.0 零度沸騰_yjz 0 8
Alluxio：架構(gòu)及數(shù)據(jù)流
1 架構(gòu) 1.1 概述 Alluxio作為大數(shù)據(jù)和機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中的一個(gè)新的數(shù)據(jù)訪問層，配置在任何持久性存儲系統(tǒng)(如Amazon S3春霍、...

1.6 阿貓阿狗Hakuna 0 10
Kafka Connect 概念
Kafka Connect是一個(gè)用于將數(shù)據(jù)流輸入和輸出Kafka的框架砸西。Confluent平臺附帶了幾個(gè)內(nèi)置connector，可以使用這...

0.2 阿貓阿狗Hakuna 0 3
Connector開發(fā)指南
本篇文章描述了開發(fā)人員如何為Kafka Connect編寫新的connector址儒。核心概念與API Connectors和Tasks ...

0.2 阿貓阿狗Hakuna 1 4
YARN資源調(diào)度策略之Capacity Scheduler
背景 yarn默認(rèn)使用的是最簡單的FIFO調(diào)度器芹枷，即一個(gè)default隊(duì)列，所有用戶共享离福，分配資源也是先到先得杖狼，沒有優(yōu)先級之分。有時(shí)一兩個(gè)任務(wù)就...

0.7 陽一yayi 3 12

Ambari安裝部署Hadoop
Ambari安裝部署Hadoop Apache Ambari是一種基于Web的工具妖爷，支持Apache Hadoop集群的供應(yīng)蝶涩、管理和監(jiān)控。Amb...

0.7 三杯水Plus 0 7
Spark Streaming 調(diào)優(yōu)指南
Spark Streaming是架構(gòu)在Spark Core上的一個(gè)“應(yīng)用”絮识，SparkStreaming主要由DStreamGraph绿聘、Job的...

和心數(shù)據(jù) 0 6
利用Sqoop將MySQL海量測試數(shù)據(jù)導(dǎo)入HDFS和HBase
聲明：作者原創(chuàng)，轉(zhuǎn)載注明出處次舌。作者：帥氣陳吃蘋果一熄攘、安裝Sqoop 1、下載sqoop,解壓彼念、文件夾重命名 2挪圾、配置環(huán)境變量 vim /etc...

帥氣陳吃蘋果 0 5