Flink on Zeppelin 流計算處理最佳實踐

內容框架:

大資料概覽

Flink 學習框架

EMR Studio 上的流計算最佳實踐

演示

一、大資料概覽

大資料處理 ETL (Data → Data)

大資料分析 BI (Data →

Dashboard

機器學習 AI

(Data →

Model

Flink on Zeppelin 流計算處理最佳實踐

二、Flink 學習框架

Flink 要點

Stateful

Time

Flink Architecture

Flink API

Flink Configuration

Flink Log

Stateful:

Why

• 流計算的及時性

• 流計算的 unbounded

When

• Window

• Join

• Pattern

How

• statebackend

Time

Event time

Processing time

Watermark

Flink Architecture

Flink on Zeppelin 流計算處理最佳實踐

Flink API

Flink on Zeppelin 流計算處理最佳實踐

Flink Configuration

Cluster Configuration

Job Configuration

Statebackend

Resource Manager

SQL/Python

參考文件:

https://ci。apache。org/projects/flink/flink-docs-release-1。13/docs/deployment/config/

Flink Log

Flink on Zeppelin 流計算處理最佳實踐

三、EMR Studio 上的流計算最佳實踐

EMR Studio 特性:

相容開源元件

EMR Studio 在開源軟體 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基礎上優化了做了最佳化和增強。

Flink on Zeppelin 流計算處理最佳實踐

支援連線多個叢集

適配多個計算引擎

互動式開發 + 作業排程無縫銜接

適用多種大資料應用場景

計算儲存分離

Flink Clients

Flink on Zeppelin (Phase 1) - Interactive Flink Client

Flink on Zeppelin 流計算處理最佳實踐

Flink on Zeppelin (Phase 2) - Interactive JobManager

Flink on Zeppelin 流計算處理最佳實踐

Flinkon Zeppelin 主要 Feature

Flink on Zeppelin 流計算處理最佳實踐

原文連結:http://click.aliyun.com/m/1000286010/

本文為阿里雲原創內容,未經允許不得轉載。