1. 數(shù)據(jù)倉庫 1.1. 基本概念 英文名稱為Data Warehouse燥滑,可簡寫為DW或DWH竞漾。數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境溉贿,...
什么是 Hive Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類SQL查詢功能。 其本質(zhì)是將S...
MapReduce 排序和序列化 序列化 (Serialization) 是指把結(jié)構(gòu)化對(duì)象轉(zhuǎn)化為字節(jié)流 反序列化 (Deserializatio...
1:修改hadoop的mapred-site.xml文件 在mapred-site.xml中添加以下內(nèi)容 2:將修改后的文件分發(fā)到另外兩臺(tái)主機(jī) ...
MapReduce 分區(qū) 分區(qū)概述 在 MapReduce 中, 通過我們指定分區(qū), 會(huì)將同一個(gè)分區(qū)的數(shù)據(jù)發(fā)送到同一個(gè) Reduce 當(dāng)中進(jìn)行處...
Hadoop-Mapreduce 1. MapReduce 介紹 MapReduce思想在生活中處處可見≌辏或多或少都曾接觸過這種思想。MapRe...
Hadoop 核心-HDFS 讀是并行的撰豺,寫是順序的粪般。所以寫很慢。 1:HDFS 的 API 操作 1.1 配置Windows下Hadoop環(huán)境...
Hadoop 核心-HDFS 1. HDFS概述 1.1 介紹 在現(xiàn)代的企業(yè)環(huán)境中污桦,單機(jī)容量往往無法存儲(chǔ)大量數(shù)據(jù)亩歹,需要跨機(jī)器存儲(chǔ)。統(tǒng)一管理分布在...
Hadoop 1、 Hadoop的介紹 Hadoop最早起源于Nutch小作。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎亭姥,包括網(wǎng)頁抓取、索引顾稀、...