今天小編給大家帶來的是大資料Spark大規模流式資料處理架構叢集安裝部署執行機制及原理+專案實戰,因為條件限制這裡只有影片筆記
在這裡相信有許多想要學習大資料方面的同學,大家可以關注小編頭條號,私信【學習】即可免費領取一整套系統的大資料學習教程!
有需要其他大資料內容的大家都可以在下方留言,小編會給大家發
主題:Spark
基礎:
1、瞭解MapReduce的思想
2、Linux基礎、Java基礎
實驗環境:
1、Redhat 7。4 64位
2、JDK 1。8 64位
3、Spark 2。1。0版本
注意:
1、建立虛擬機器的時候,網絡卡:僅主機模式
2、虛擬機器的IP地址設定:與VMNet1在一個網段 192。168。157。1(首選)
=============================================
一、MapReduce的不足和缺點
1、Demo例子:Hadoop WordCount
/root/training/hadoop-2。7。3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2。7。3。jar
2、不足:map、reduce、分割槽、排序、合併(combiner) ——-> 核心:shuffle(洗牌)
合併(combiner)在Map端,先進行一次合併,用於減少輸出到Reduce的資料量
3、Spark最大特點:基於記憶體
容錯機制:檢查點(1、目錄 2、HDFS)
二、什麼是Spark?Spark的特點
1、Apache Spark™ is a fast and general engine for large-scale data processing。
http://spark。apache。org/
2、特點:
(*)快
(*)易用:Java、Scala、Python
(*)生態系統:通用性: Spark Core、Spark SQL、Spark Streaming
MLLib、GraphX
(*)相容:HDFS、Hive、HBase
3、Spark的體系結構
三、實戰:安裝部署Spark(偽分佈的Standalone模式)
1、安裝Linux
2、配置Linux
(1)JDK
tar -zxvf jdk-8u144-linux-x64。tar。gz -C ~/training/
設定環境變數 vi ~/。bash_profile
JAVA_HOME=/root/training/jdk1。8。0_144
export JAVA_HOME
PATH=$JAVA_HOME/bin:$PATH
export PATH
source ~/。bash_profile
(2)主機名 vi /etc/hosts
192。168。157。71 spark71
(3)關閉防火牆
systemctl stop firewalld。service
systemctl disable firewalld。service
3、偽分佈的Standalone模式
(*) tar -zxvf spark-2。1。0-bin-hadoop2。7。tgz -C ~/training/
(*) 注意:hadoop和spark的指令碼有衝突,所以設定環境變數只能設定一個
(*) 配置檔案 conf/spark-env。sh
export JAVA_HOME=/root/training/jdk1。8。0_144
export SPARK_MASTER_HOST=spark71
export SPARK_MASTER_PORT=7077
4、啟動: sbin/start-all。sh
四、免密碼登入原理和配置
下次講
==================================================
四、使用Spark Submit和Spark Shell
五、Spark的執行原理分析