手撕資料倉庫之「起始篇」

大家在做資料開發(數倉)的過程中有沒有思考過下面兩個問題:

一、為什麼要做資料倉庫?

二、做資料倉庫能為公司帶來什麼價值?

在聊之前先跟說一下在數倉行業能一些術語,以便後續大家在閱讀過程中容易理解。也同時工作當中同事閒聊提專業術語尷尬場面(聯想起剛剛入數倉行業面試官提起各種術語,但有些是面試官自己的理解)。

縮寫

英文全稱

中文全稱

備註

EDW

Enterprise Data Warehouse

企業級資料倉庫

數倉

DW

Data Warehouse

資料倉庫

數倉

BI

Business Intelligence

商業智慧

OLAP

On-Line Analysis Processing

線上分析處理

ROLAP

Relational On-Line Analysis Processing

關係線上分析處理

MOLAP

Multidimensional On-Line Analysis Processing

多維線上分析處理

HOLAP

Hybrid On-Line Analysis Processing

混合線上分析處理

ETL

Extract-Transform-Load

抽取、轉換清洗、裝載

ODS

Operational Data Store

操作資料儲存

DWD

Data Warehouse Detail

資料倉庫明細

DWS

Data Warehouse Summary

資料倉庫彙總

ADS

Application Data Store

應用資料儲存

DIM

Dimension

維度

DM

Data Mart

資料集市

SCD

Slow Changing Dimensions

緩慢變化維

總結一句:

叫什麼有的時候並不重要,重要的是通俗易懂,見字見意即可。

一、為什麼要做資料倉庫?

手撕資料倉庫之「起始篇」

(圖1)

大家看了(圖1)發現理想很豐滿,現實很骨感。上圖反應其實是非常普遍的一種現象。從資料的角度來看就是各個部門資料不能互通、相互獨立,形成資料孤堡(各自為政)。久而久之就會讓需要辦理業務(需求方)的人哀聲道怨(俗稱:“跑斷腿”)。

手撕資料倉庫之「起始篇」

(圖2)

為了徹底解決“資料孤堡”問題,資料倉庫解決方案應運而生。一站式解決“跑斷腿”問題(但想要徹底解決是一個漫長的過程)。

二、做資料倉庫能為公司帶來什麼價值?

資料倉庫價值可分為兩大類來看,一類是業務側,一類是技術側(資料將是公司未來最核心的資產,得資料者得)。

1、業務側

1。1、資料獲取、運算成本,需要同步不同系統資料和資料運算。

1。2、避免檢視資料,需要在不同系統之間來回登入檢視。

1。3、資料驅動業務,如:標籤平臺、營銷平臺、推薦系統、AB實驗平臺、使用者畫像中心、AB實驗平臺、資料探勘等等。

2、技術側

2。1、資料資產統一管理,避免企業內部各個煙囪式開發(各部門都成立資料組)。大大降低企業資料資產成本,如:開發人員、伺服器等。

2。2、資料統一形成規範化、標準化、服務化;為企業降本增效。

2。3、統一資料產品,提供面向不同物件的資料產品,如:Ad-Hoc(即席查詢、報表平臺、分析平臺)

三、讓資料產生價值才是王道

手撕資料倉庫之「起始篇」

(圖3)

資料部門存在的意義就是讓資料產生價值,讓資料資料價值最大化。