基礎-Hadoop

◆ Hadoop簡介

◆ Hadoop核心元件

- HDFS

- Map Reduce

- YARN

◆ Hadoop生態圈

-ZooKeeper

-Hive

Hadoop是什麼?

◆ Apache軟體基金會旗下開源的分散式計算平臺

◆ 作用:

海量資料

的儲存和

海量資料

的分析計算

Hadoop核心元件

基礎-Hadoop

以分散式進行儲存的檔案系統,主要負責叢集資料的儲存與讀取。

◆ Common(基礎元件)

◆ HDFS( Hadoop Distributed File System分散式檔案系統)

基礎-Hadoop

◆ Namenode(名稱節點)

◆ DataNode(資料節點)

◆ Block(資料塊)

◆ Rack(機架)

◆ Metadata(元資料)

hdfs-site。xml檔案介紹

配置HDFS相關的屬性

例如:複製因子(即資料塊的副本數)、 NameNode和 DataNode用於儲存資料的目錄等

預設路徑:

$HADOOP HOME/etc/hadoop/hdfs-site xml

hdfs-site。xml主要引數

dfs.namenode.name.dir

NameNode在本地檔案系統中持久儲存名稱空間和事務日誌的路徑

dfs.datanode.data.dir

DataNode在本地檔案系統中存放塊的路徑

dfs.replication

資料塊副本的數量,預設為3

分散式運算程式設計框架 MapReduce

基礎-Hadoop

MapReduce(Map和Reduce分散式運算程式設計框架)

一種計算模型,用於大規模資料集(大於1TB)的平行計算

基礎-Hadoop

使用者編寫的業務邏輯程式碼和自帶預設元件 -> 完整的分散式運算程式 ->併發執行

mapred- site。xm主要引數

MapReduce的核心配置檔案,用於指定 MapReduce執行時框架

mapreduce framework.name

mapreduce使用框架(yarn)

資源排程器YARN

YARN( Yet Another Resources N運算資源排程系統)

基礎-Hadoop

YARN(Yet Another Resource Negotiator)是一個資源排程平臺,負責為運算程式提供服

務器運算資源,相當於一個分散式的作業系統平臺。

基礎-Hadoop

ResourceManager(資源排程器)

NodeManager(節點管理器)

ApplicationMaster(應用程式管理器)

Container(容器)

yarn-site。xml檔案介紹

YARN框架的核心配置檔案,用於配置YARN程序及YARN的相關屬性

指定 ResourceManager守護程序所在主機

設定 Node Manager上執行的輔助服務

hdfs。site。xml檔案介紹

yarn-resourcemanager.admin.address

ResourceManager守護程序所在主機

yarn.nodemanager.aux-services

NodeManager上執行的輔助服務

Hadoop生態圈

基礎-Hadoop

廣義上來說, Hadoop通常是指一個更廣泛的概念— Hadoop生態圈

HDFS叢集主要配置檔案

hadoop-env.sh

配置 Hadoop執行所需的環境變數

yarn-env.sh

配置YARN執行所需的環境變數

core-site.xml

Hadoop核心全域性配置檔案,可在其它配置檔案中引用該檔案

hdfs-site。 xml

HDFS配置檔案,繼承core-site。xml配置檔案

mapred-site。xmI

MapReduce配置檔案,繼承core-site。xm配置檔案

yarn-site。xml

YARN配置檔案,繼承core-site。xml配置檔案

slaves

Hadoop叢集所有從節點( DataNode和 Node Manager)列表

搭建流程

解壓安裝包,配置環境變數

配置 hadoop各元件

hadoop的各個元件的都是使用XML進行配置,這些檔案存放在hadoop的etc/ hadoop目錄下。

基礎-Hadoop

3。格式化 namenode:

hadoop namenode -format

◆開啟hadoop叢集

主節點開啟服務:start-all。sh