多場景下 3-11 倍效能提升,Apache Doris 1.2 新版本效能揭秘

自 Apache Doris 1。1。0 版本釋出距今已經有數月之久,在這一期間,我們重新思考並確立了社群新版本釋出的流程,正式引入了 LTS (Long-Term Support,長週期支援)版本的概念,在 1。1。x 系列版本中不再引入大的功能 Feature、僅提供問題修復和穩定性改進,力求滿足更多社群使用者在穩定性方面的高要求。值得高興的是,這一行動已經有了明顯的成效,目前 1。1。x 系列最新版本的穩定性經受了眾多使用者生產環境的考驗。

而在綜合考慮版本迭代節奏和使用者需求後,我們決定將眾多新特性在 1。2 版本中釋出,這其中既包含了在效能方面的最佳化改進,也包含了諸多社群使用者期待已久的功能。經歷了漫長的開發、測試、調優等工作後,我們很高興地告訴大家,

Apache Doris 1.2.0 版本已經進入最後的發版準備階段,預期將於 12 月的第一週與大家見面。

對於社群使用者最為關心的效能方面的提升,我們基於 1。2。0 RC(Release Candidate,候選釋出版本)進行了多個標準測試集的測試,同時選擇了 1。1。3 版本和 0。15。0 版本作為對比參照項。

經測,1。2。0 RC 版本在 SSB-Flat 寬表場景上相對 1。1。3 版本整體效能

提升了近 4 倍

、相對於 0。15。0 版本效能

提升了近 10 倍

,在 TPC-H 多表關聯場景上較 1。1。3 版本上有

近 3 倍的提升

、較 0。15。0 版本效能

提升了 11 倍

以上,多個場景效能得到飛躍性提升。

與此同時,我們將 1。2。0 RC 版本的測試資料提交到了全球知名的資料庫測試排行榜 ClickBench,在最新的排行榜中,

Apache Doris 以亮眼的效能表現登上榜單前列,取得了全球同類產品匯入效能綜合排名第一、通用機型(c6a.4xlarge, 500gb gp2)下查詢效能 Cold Run 第二和 Hot Run 第三的成績!

關於 ClickBench

ClickBench 是由知名分析型資料庫 ClickHouse 發起的效能測試排行榜,在 ClickBench 效能排行榜中,測試資料均取自真實生產環境、涵蓋資料型別多樣、覆蓋了即席查詢和統計報表等典型場景,能真實反映各大資料庫在生產環境中的效能,因此吸引了 Snowflake、Redshift、Athena、Greenplum、Druid 等國際知名資料庫的參與。所評測的指標為特定機型下匯入相同資料集的時間、所佔用的儲存空間大小以及執行 SQL 的耗時長短,分別用以衡量 資料匯入效能、資料壓縮比以及查詢效能。所有測試結果中表現最優的一條會成為基線,相同測試項的指標會與基線資料進行對比並得出比值,透過這一比值來體現與行業最優的差距。當有新的測試結果超越原有的基線後,將自動成為新的基線。

就查詢效能而言,會分別對每條 SQL 執行 Hot Run 和 Cold Run 來統計時長,即重複執行 3 次 SQL 並取其中耗時最短的一次以及啟動並清理記憶體後直接執行,最終對所有 SQL 的執行耗時與基線的比值進行幾何平均,即為最終測試結果。因此 ClickBench 更關注的是資料庫在所有測試場景下都有著優異的表現,而非某一個或某幾個場景,這使得資料庫需要全方位的能力提升。

在本次提交的測試結果中,

查詢效能方面

, Apache Doris 在未進行任何調優的情況下,

Cold Run 取得同機型所有產品第二名的優異成績

,Hot Run 位列同機型所有產品第三,共有

8 個 SQL 重新整理榜單最佳成績

、成為新的效能標杆。

匯入效能方面

,Apache Doris

資料寫入效率在同機型所有產品中位列第一

,壓縮前 70G 資料寫入

僅耗時 415s

、單節點寫入

速度超過 170 MB/s

,在實現極致查詢效能的同時也保證了高效的寫入效率!

多場景下 3-11 倍效能提升,Apache Doris 1.2 新版本效能揭秘

圖1 Cold Run

多場景下 3-11 倍效能提升,Apache Doris 1.2 新版本效能揭秘

圖2 Hot Run

多場景下 3-11 倍效能提升,Apache Doris 1.2 新版本效能揭秘

圖3 Load Time

點選連結

:https://benchmark。clickhouse。com

前往檢視

關於 SSB

Star Schema Benchmark(SSB) 是一個輕量級的數倉場景下的效能測試集。SSB 基於 TPC-H 提供了一個簡化版的星型模型資料集,主要用於測試在星型模型下多表關聯查詢的效能表現。另外,業界內通常也會將 SSB 打平為寬表模型(以下簡稱:SSB-Flat),來測試查詢引擎的效能。

在 SSB-Flat 寬表模型全部 13 個查詢上,Apache Doris 1。2。0 均優於之前版本、未發生效能回退的情況,整體效能較 1。1。3 版本有

近 4 倍的提升

,較 0。15。0 版本有

近 10 倍的提升

、單個 SQL 效能最高

提升近 13 倍

。與此同時,在 SSB 星型模型下,Apache Doris 1。2。0 整體效能較 1。1。3 版本

提升近 2 倍

、較 0。15。0 版本

提升近 31 倍

,單個 SQL 最高

提升近 60 倍

,呈現巨幅的效能進化。

多場景下 3-11 倍效能提升,Apache Doris 1.2 新版本效能揭秘

圖4 SSB-Flat 寬表模型

多場景下 3-11 倍效能提升,Apache Doris 1.2 新版本效能揭秘

圖5 SSB 星型模型

(點選連結 https://doris。apache。org/blog/ssb 前往檢視)

關於 TPC-H

TPC-H 是一個決策支援基準(Decision Support Benchmark),它由一套面向業務的特別查詢和併發資料修改組成,查詢和填充資料庫的資料具有廣泛的行業相關性。這個基準測試演示了檢查大量資料、執行高度複雜的查詢並回答關鍵業務問題的決策支援系統。TPC-H報告的效能指標稱為TPC-H每小時複合查詢效能指標(QphH@Size),反映了系統處理查詢能力的多個方面。這些方面包括執行查詢時所選擇的資料庫大小,由單個流提交查詢時的查詢處理能力,以及由多個併發使用者提交查詢時的查詢吞吐量。

在 TPC-H 標準測試資料集上的 22 個查詢上,

Apache Doris 1.2.0 版本整體效能相對 1.1.3 版本提升了將近 3 倍,相對於 0.15.0 版本提升了超 11 倍,其中單個 SQL 最高提升近 70倍!

多場景下 3-11 倍效能提升,Apache Doris 1.2 新版本效能揭秘

圖6 TPCH-100 效能測試對比

(點選連結 https://doris。apache。org/blog/tpch 前往檢視)

透過以上效能測試結果可以看出,

毫無疑問 1.2 版本已成為自 Apache Doris 開源以來效能表現最佳的版本,這同樣也使得 Apache Doris 成為全球 OLAP 資料庫效能的新標杆

。這一成績的背後離不開所有社群開發者的付出和所有使用者的信賴,正是因為有全體社群成員的努力才有了 Apache Doris 的飛速進步,在此也要向所有社群開發者和使用者表示最衷心的感激。

誠然,效能不止是資料庫追求的全部。在 1。2 新版本中,還有更多的最新特性等待揭曉,完整功能敬請期待後續釋出的 Release Note,相信會給每一位期盼已久的使用者以驚喜。最後,期待能有更多開發者與開源愛好者能夠一同加入 Apache Doris 社群,共襄盛舉,將國人開源的優秀專案推廣到全球,成為現代資料分析技術的新基石。

# 互動時刻 #

Doris Summit 2022 已經正式起航,在 Summit 上將會同步 Apache Doris 最新的開發進展與 RoadMap。在此誠摯向全體社群公開徵集演講議題,如果您有好的idea、包括但不限於業務最佳實踐、技術深度解析、行業趨勢解讀、資料生態方案等,歡迎您提交議題參與分享,與社群各領域專家深入探討和交流。

議題徵集連結:Doris Summit 2022 婕旇璁寰侀泦