還在為學大資料煩惱嗎？這裡有大資料spark之資料處理叢集安裝！

今天小編給大家帶來的是大資料Spark大規模流式資料處理架構叢集安裝部署執行機制及原理+專案實戰，因為條件限制這裡只有影片筆記

在這裡相信有許多想要學習大資料方面的同學，大家可以關注小編頭條號，私信【學習】即可免費領取一整套系統的大資料學習教程！

有需要其他大資料內容的大家都可以在下方留言，小編會給大家發

主題：Spark

基礎：

1、瞭解MapReduce的思想

2、Linux基礎、Java基礎

實驗環境：

1、Redhat 7。4 64位

2、JDK 1。8 64位

3、Spark 2。1。0版本

注意：

1、建立虛擬機器的時候，網絡卡：僅主機模式

2、虛擬機器的IP地址設定：與VMNet1在一個網段 192。168。157。1（首選）

=============================================

一、MapReduce的不足和缺點

1、Demo例子：Hadoop WordCount

/root/training/hadoop-2。7。3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2。7。3。jar

2、不足：map、reduce、分割槽、排序、合併（combiner） ——-> 核心：shuffle（洗牌）

合併（combiner）在Map端，先進行一次合併，用於減少輸出到Reduce的資料量

3、Spark最大特點：基於記憶體

容錯機制：檢查點（1、目錄 2、HDFS）

二、什麼是Spark？Spark的特點

1、Apache Spark™ is a fast and general engine for large-scale data processing。

http：//spark。apache。org/

2、特點：

（*）快

（*）易用：Java、Scala、Python

（*）生態系統：通用性： Spark Core、Spark SQL、Spark Streaming

MLLib、GraphX

（*）相容：HDFS、Hive、HBase

3、Spark的體系結構

三、實戰：安裝部署Spark（偽分佈的Standalone模式）

1、安裝Linux

2、配置Linux

（1）JDK

tar -zxvf jdk-8u144-linux-x64。tar。gz -C ~/training/

設定環境變數 vi ~/。bash_profile

JAVA_HOME=/root/training/jdk1。8。0_144

export JAVA_HOME

PATH=$JAVA_HOME/bin：$PATH

export PATH

source ~/。bash_profile

（2）主機名 vi /etc/hosts

192。168。157。71 spark71

（3）關閉防火牆

systemctl stop firewalld。service

systemctl disable firewalld。service

3、偽分佈的Standalone模式

（*） tar -zxvf spark-2。1。0-bin-hadoop2。7。tgz -C ~/training/

（*）注意：hadoop和spark的指令碼有衝突，所以設定環境變數只能設定一個

（*）配置檔案 conf/spark-env。sh

export JAVA_HOME=/root/training/jdk1。8。0_144

export SPARK_MASTER_HOST=spark71

export SPARK_MASTER_PORT=7077

4、啟動： sbin/start-all。sh

四、免密碼登入原理和配置

下次講

==================================================

四、使用Spark Submit和Spark Shell

五、Spark的執行原理分析

別眨眼網

還在為學大資料煩惱嗎？這裡有大資料spark之資料處理叢集安裝！

相關推薦