實時計算引擎——Spark-Streaming

Spark streaming簡介

spark streaming是spark體系中的一個流式處理框架。因此，Spark streaming相對於其他流式處理框架就更有優勢，用途更加廣泛，它能夠與spark sql、機器學習以及影象處理框架無縫連線。spark streaming還能夠從多種資料來源獲得資料，同時，能夠輸出到多種不同的資料平臺中，包括檔案系統、資料庫和實時資料展示平臺dashboards。spark streaming的流處理框架如下圖1所示：

詳細的處理流程如下圖2所示，spark streaming接收實時資料流輸入的資料流後，再將其劃分為一個個batch（小批次資料流）供後續Spark engine處理，所以實際上，Spark Streaming是按一個個batch（小批次）來處理資料流的。

spark streaming工作原理

spark streaming的大致工作流程如下：

首先，需要一個DAG的靜態模板來定義batch內的執行邏輯。

其次，如上圖2所示，針對實時的資料流來說，還需要有控制器，不間斷地將資料流分成多個batch，同時在每個batch內部應用DAG靜態模板執行處理邏輯。

再次，要生成DStream，並不能像一般的資料來源那樣從儲存介質中去讀取，而是要從多種資料推送過來的資料，包括kafka、flume以及twitter等等。

最後，由於流式處理要不斷地迴圈執行，保障任務的穩定性就顯得尤其重要了。

因此，針對上述四種需要，spark streaming的整體執行流程就是圍繞上述四個需求而設定的，其總體工作流程如下圖所示。如圖中腳註，橙色部分顯示DAG的靜態定義部分，淡藍色為控制器部分，負責流的拆分，同時執行橙色部分定義的靜態模板。綠色部分顯示了driver和executor的資料接收部分，最後的紫色部分，顯示了spark streaming中很重要的穩定性保障功能，即checkpoint。