◆ Hadoop簡介
◆ Hadoop核心元件
- HDFS
- Map Reduce
- YARN
◆ Hadoop生態圈
-ZooKeeper
-Hive
Hadoop是什麼?
◆ Apache軟體基金會旗下開源的分散式計算平臺
◆ 作用:
海量資料
的儲存和
海量資料
的分析計算
Hadoop核心元件
以分散式進行儲存的檔案系統,主要負責叢集資料的儲存與讀取。
◆ Common(基礎元件)
◆ HDFS( Hadoop Distributed File System分散式檔案系統)
◆ Namenode(名稱節點)
◆ DataNode(資料節點)
◆ Block(資料塊)
◆ Rack(機架)
◆ Metadata(元資料)
hdfs-site。xml檔案介紹
配置HDFS相關的屬性
例如:複製因子(即資料塊的副本數)、 NameNode和 DataNode用於儲存資料的目錄等
預設路徑:
$HADOOP HOME/etc/hadoop/hdfs-site xml
hdfs-site。xml主要引數
dfs.namenode.name.dir
NameNode在本地檔案系統中持久儲存名稱空間和事務日誌的路徑
dfs.datanode.data.dir
DataNode在本地檔案系統中存放塊的路徑
dfs.replication
資料塊副本的數量,預設為3
分散式運算程式設計框架 MapReduce
MapReduce(Map和Reduce分散式運算程式設計框架)
一種計算模型,用於大規模資料集(大於1TB)的平行計算
使用者編寫的業務邏輯程式碼和自帶預設元件 -> 完整的分散式運算程式 ->併發執行
mapred- site。xm主要引數
MapReduce的核心配置檔案,用於指定 MapReduce執行時框架
mapreduce framework.name
mapreduce使用框架(yarn)
資源排程器YARN
YARN( Yet Another Resources N運算資源排程系統)
YARN(Yet Another Resource Negotiator)是一個資源排程平臺,負責為運算程式提供服
務器運算資源,相當於一個分散式的作業系統平臺。
ResourceManager(資源排程器)
NodeManager(節點管理器)
ApplicationMaster(應用程式管理器)
Container(容器)
yarn-site。xml檔案介紹
YARN框架的核心配置檔案,用於配置YARN程序及YARN的相關屬性
指定 ResourceManager守護程序所在主機
設定 Node Manager上執行的輔助服務
hdfs。site。xml檔案介紹
yarn-resourcemanager.admin.address
ResourceManager守護程序所在主機
yarn.nodemanager.aux-services
NodeManager上執行的輔助服務
Hadoop生態圈
廣義上來說, Hadoop通常是指一個更廣泛的概念— Hadoop生態圈
HDFS叢集主要配置檔案
hadoop-env.sh
配置 Hadoop執行所需的環境變數
yarn-env.sh
配置YARN執行所需的環境變數
core-site.xml
Hadoop核心全域性配置檔案,可在其它配置檔案中引用該檔案
hdfs-site。 xml
HDFS配置檔案,繼承core-site。xml配置檔案
mapred-site。xmI
MapReduce配置檔案,繼承core-site。xm配置檔案
yarn-site。xml
YARN配置檔案,繼承core-site。xml配置檔案
slaves
Hadoop叢集所有從節點( DataNode和 Node Manager)列表
搭建流程
解壓安裝包,配置環境變數
配置 hadoop各元件
hadoop的各個元件的都是使用XML進行配置,這些檔案存放在hadoop的etc/ hadoop目錄下。
3。格式化 namenode:
hadoop namenode -format
◆開啟hadoop叢集
主節點開啟服務:start-all。sh