Spark VS Flink 大資料該怎麼選?

Spark VS Flink 大資料該怎麼選?

可執行在成千上萬的節點上Flink在JVM內部實現了自己的記憶體管理支援迭代計算支援程式自動最佳化:避免特定情況下Shuffle、排序等昂貴操作,中間結果進行快取API支援,對Streaming資料類應用,提供DataStream API,...

2023-01-11
阿里雲ADB基於Hudi構建Lakehouse的實踐

阿里雲ADB基於Hudi構建Lakehouse的實踐

為提高查詢效能,提供非同步 Clustering 能力,合併小檔案,減少掃描量,提高查詢效能基於上述訴求我們開發了基於 ADB 湖倉版的獨立 Table Service 服務,在入湖鏈路寫入完成後會進行一次排程,然後將請求寫入排程元件,供排...

2023-01-07
Flink在YARN上搭建

Flink在YARN上搭建

防火牆後在YARN執行Flink一些YARN叢集使用防火牆來控制叢集和餘下網路之間的網路傳輸,在這種配置下,Flink的job提交到YARN會話中只能透過叢集網路(在防火牆背後),如果在生產環境下不可行,Flink允許配置一定範圍的埠給相...

2022-07-16
Flink CDC 2.0 實現原理剖析

Flink CDC 2.0 實現原理剖析

FLIP-27 旨在解決SourceFunction中存在的幾個痛點:split 的發現邏輯(work discovery)和實際讀取資料的邏輯耦合在SourceFunction和DataStream介面中,導致 source 實現的複雜性...

2022-03-05