還在為學大資料煩惱嗎?這裡有大資料spark之資料處理叢集安裝!

今天小編給大家帶來的是大資料Spark大規模流式資料處理架構叢集安裝部署執行機制及原理+專案實戰,因為條件限制這裡只有影片筆記

在這裡相信有許多想要學習大資料方面的同學,大家可以關注小編頭條號,私信【學習】即可免費領取一整套系統的大資料學習教程!

有需要其他大資料內容的大家都可以在下方留言,小編會給大家發

還在為學大資料煩惱嗎?這裡有大資料spark之資料處理叢集安裝!

主題:Spark

基礎:

1、瞭解MapReduce的思想

2、Linux基礎、Java基礎

實驗環境:

1、Redhat 7。4 64位

2、JDK 1。8 64位

3、Spark 2。1。0版本

注意:

1、建立虛擬機器的時候,網絡卡:僅主機模式

2、虛擬機器的IP地址設定:與VMNet1在一個網段 192。168。157。1(首選)

=============================================

一、MapReduce的不足和缺點

1、Demo例子:Hadoop WordCount

/root/training/hadoop-2。7。3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2。7。3。jar

2、不足:map、reduce、分割槽、排序、合併(combiner) ——-> 核心:shuffle(洗牌)

合併(combiner)在Map端,先進行一次合併,用於減少輸出到Reduce的資料量

3、Spark最大特點:基於記憶體

容錯機制:檢查點(1、目錄 2、HDFS)

二、什麼是Spark?Spark的特點

1、Apache Spark™ is a fast and general engine for large-scale data processing。

http://spark。apache。org/

2、特點:

(*)快

(*)易用:Java、Scala、Python

(*)生態系統:通用性: Spark Core、Spark SQL、Spark Streaming

MLLib、GraphX

(*)相容:HDFS、Hive、HBase

3、Spark的體系結構

三、實戰:安裝部署Spark(偽分佈的Standalone模式)

1、安裝Linux

2、配置Linux

(1)JDK

tar -zxvf jdk-8u144-linux-x64。tar。gz -C ~/training/

設定環境變數 vi ~/。bash_profile

JAVA_HOME=/root/training/jdk1。8。0_144

export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH

export PATH

source ~/。bash_profile

(2)主機名 vi /etc/hosts

192。168。157。71 spark71

(3)關閉防火牆

systemctl stop firewalld。service

systemctl disable firewalld。service

3、偽分佈的Standalone模式

(*) tar -zxvf spark-2。1。0-bin-hadoop2。7。tgz -C ~/training/

(*) 注意:hadoop和spark的指令碼有衝突,所以設定環境變數只能設定一個

(*) 配置檔案 conf/spark-env。sh

export JAVA_HOME=/root/training/jdk1。8。0_144

export SPARK_MASTER_HOST=spark71

export SPARK_MASTER_PORT=7077

4、啟動: sbin/start-all。sh

四、免密碼登入原理和配置

下次講

==================================================

四、使用Spark Submit和Spark Shell

五、Spark的執行原理分析