內容框架:
大資料概覽
Flink 學習框架
EMR Studio 上的流計算最佳實踐
演示
一、大資料概覽
大資料處理 ETL (Data → Data)
大資料分析 BI (Data →
Dashboard
)
機器學習 AI
(Data →
Model
)
二、Flink 學習框架
Flink 要點
Stateful
Time
Flink Architecture
Flink API
Flink Configuration
Flink Log
Stateful:
Why
• 流計算的及時性
• 流計算的 unbounded
When
• Window
• Join
• Pattern
How
• statebackend
Time
Event time
Processing time
Watermark
Flink Architecture
Flink API
Flink Configuration
Cluster Configuration
Job Configuration
Statebackend
Resource Manager
SQL/Python
參考文件:
https://ci。apache。org/projects/flink/flink-docs-release-1。13/docs/deployment/config/
Flink Log
三、EMR Studio 上的流計算最佳實踐
EMR Studio 特性:
相容開源元件
EMR Studio 在開源軟體 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基礎上優化了做了最佳化和增強。
支援連線多個叢集
適配多個計算引擎
互動式開發 + 作業排程無縫銜接
適用多種大資料應用場景
計算儲存分離
Flink Clients
Flink on Zeppelin (Phase 1) - Interactive Flink Client
Flink on Zeppelin (Phase 2) - Interactive JobManager
Flinkon Zeppelin 主要 Feature
原文連結:http://click.aliyun.com/m/1000286010/
本文為阿里雲原創內容,未經允許不得轉載。