轉載/大資料肌肉猿
資料治理是企業資料建設必不可少的一個環節。
好的資料治理體系可以盤活整條資料鏈路,最大化保障企業資料的
採集
、
儲存
、
計算
和
使用
過程的可控和可追溯。
如何構建企業資料治理體系?企業資料治理過程需要注意哪些問題?總體而言,不能一口一個胖子,路要一步一步地走。
下面我將結合
企業級資料治理
經驗,詳細介紹
從0到1
搭建資料治理體系全流程,幫你梳理資料治理的主要內容以及過程中會遇到的哪些坑。
1 資料治理到底是在做什麼
1。1 一個小故事
在正文之前,我先介紹一個小故事。
年底了,企業財務管理員小張需要統計公司的金融財務情況。忙碌了一年,公司老闆亟需知道公司目前的運營狀況。
小張需要考慮哪幾個點呢:
“
公司目前有哪些財產?這些財產從哪裡來?用到了哪些地方?是否所有財產的使用均符合規範和制度?
”
幸好小張年初已經制定了一套管理標準。每筆財產的出入都有記錄且嚴格把控使用情況,過程可追溯可審查。
最後,小張得到了領導們的一致好評。
1。2 資料治理做的事情
故事中的小張監管著公司所有金融財產活動,確保財產使用的有序高效。這也是資料治理角色的類似功能。
“資料治理的核心工作: 在企業的資料建設程序中,保障企業的資料資產得到正確有效地管理。”
一般來說,資料從外部或者內部產生後,經過大資料手段處理,流轉到不同的業務端,為企業的上層應用提供資料賦能。
整個過程,如圖所示。
我們先做一些類似資料同步的工作將資料放入到大資料系統中
資料進來後需要管理和儲存,即參考建模理論和實際場景建設數倉
經過主題規劃、維度確定、標籤計算輸出等步驟處理
資料輸出到報表、應用端使用
整體流程資料治理體系將全程監管。要確認進出系統的
資料質量
怎麼樣?是否可轉化
資料資產
?
資料血緣
是否可追溯、
資料安全
等問題。
“髒亂差的資料是無法使用的,甚至嚴重埋雷。”
2 為什麼要做資料治理
有一些企業對這個問題的概念很模糊,認為目前的資料規模很小,人為可控,暫時不需要做資料治理。
但是在實際使用中還是會遇到很多問題:
資料監管力度不夠,出現髒資料
資料體系逐漸規模變大,管理混亂
資料的血緣丟失,無法回溯舊、老的資料
無論企業的資料規模如何,我認為還是提起做好資料治理的規劃。考慮到成本的問題,可以分階段進行。
“為什麼要進行資料治理:
你的資料是否真的可用,缺失和異常值怎麼辦?
資料從哪裡來到哪裡去,血緣資訊是否丟失
資料訪問是否安全,明文標識還是加密?
新的資料加工參考什麼規範,維度和標籤管理是否存在標準?”
有劍在手不用和無劍可用是兩回事
。提前做好資料治理規劃,會節省後續的改造成本,避免過程冗餘重構或者推倒重來等情況的發生。
資料治理可以有效保障資料建設過程在一個合理高效的監管體系下進行,最終提供
高質量
、
安全
、
流程可追溯
的業務資料。
3 資料治理體系
企業資料治理體系包括
資料質量管理
、
元資料管理
、
主資料管理
、
資料資產管理
、
資料安全
及
資料標準
等內容。
1)資料質量
一般採用業內常用的標準來衡量資料質量的好壞:
完整性
、
準確性
、
一致性
和
及時性
。
完整性:資料的記錄和資訊是否完整,是否存在缺失情況
準確性:資料彙總記錄的資訊和資料是否準確,是否存在異常或者錯誤
一致性:多個業務數倉間的公共資料,必須在各個資料倉庫中保持一致
及時性:資料能及時產出和預警
2)元資料管理
元資料是關於資料的組織、資料域及其關係的資訊,通俗理解,元資料就是描述資料的資料。
元資料包含
技術元資料
和
業務元資料
。可以幫助資料分析人員清楚瞭解企業擁有什麼資料,它們儲存在哪裡,如何抽取、清理、維護z這類資料,也即
資料血緣。
幫助構建業務知識體系,確立資料業務含義可解釋性
提升資料整合和溯源能力,血緣關係可維護
建立資料質量稽核體系,分類管理監控
3)主資料管理
企業主資料指企業內一致並共享的業務主體,大白話理解就是各專業公司和業務系統間共享的資料。
常見的主資料比如公司的
員工
、
客戶資料
、
機構資訊
、
供應商資訊
等。這些資料具有權威性和全域性性,可歸約至公司的企業資產。
一般主資料管理需要遵循如下幾點:
管理和監管各組織機構、子公司、部門對主資料的訪問,制定訪問規範和管理原則
定期進行主資料評估,判斷既定目標的完善程度
組織相關人員和機構,統一完善主資料建設
提供技術和業務流程支援,全集團集中統籌
4)資料資產管理
一般企業在數字化轉型時都會考慮資料資產梳理。你的資料有沒有被合理利用?如何產生最大價值?這是資料資產管理關心的核心工作。在構建企業資產時一般會考慮不同角度,即業務角度和技術角度,最後進行合併,輸出統一的
資料資產分析
,並向外提供統一的資料資產查詢服務。
如何盤活資料,形成資料資產,提供完整的資料資產全景檢視,可方便運營者全域性、宏觀地掌控企業資產動態。
5)資料安全
資料安全是企業資料建設必不可少的一環,我們的資料都儲存在大大小小的磁碟中,對外提供不同程度的查詢和計算服務。
需要定時對資料進行
核查
、
敏感欄位加密
、
訪問許可權
控制,確保資料能夠被安全地使用。
6)資料標準
大白話理解,我們需要在組織內定義一套關於資料的規範,好讓我們都能理解這些資料的含義。
今天張三說這個客戶號是辦理銀行卡的客戶,明天李四又說是借貸過的客戶。對比一看,兩者的欄位型別和長度一致,到底要採納哪個意見呢?
資料標準是保障資料的內外部使用和交換的一致性和準確性的規範性約束,透過
統一規範
,消除
二義性
。
4 企業資料治理實施過程
4。1 資料治理實施框架
資料治理體系是為了規範業務資料規範、資料標準、資料質量和資料安全中的各類管理任務活動而建立的組織、流程與工具。
透過一個常態化的資料治理組織,建立資料
集中管理
長效機制,規範資料管控流程,提升資料質量,促進資料標準一致,保障資料共享與使用安全,從而提高企業運營效率和管理水平。
4。2 資料治理組織架構
企業資料治理體系除了在技術方面的
實施架構
,還需要管理方面的
組織架構
支撐。
一般在資料治理建設初期,集團會先成立資料治理管理委員會。從上至下由
決策層
、
管理層
、
執行層
構成。決策層決策、管理層制定方案、執行層實施。層級管理、統一協調。
4。2。1 組織架構
1)決策層
提供資料標準管理的決策職能,通俗理解即拍板定方案。
2)管理層
審議資料標準管理相關制度
對跨部門難的資料標準管理爭議事項進行討論並決策
管理重大資料標準事項,提交資訊科技管理委員會審議
3)執行層
業務部門:負責業務線資料標準的制定、修改、複審,推廣落實資料標準等
科技開發:承擔治理平臺、資料標準、資料質量等實施工作;系統設計和開發工作中遵循資料標準
科技運營:負責技術標準的制定和技術推廣
4。2。2 管理層職責
1)專案經理
確定專案目標、範圍和計劃
制定專案里程碑
管理跨專案協同
2)專家評審組
評審專案方案,確定方案的合理性
3)PMO
確保專案按計劃執行
管理專案重大風險
執行跨專案協同、溝通
組織專案關鍵評審
3)資料治理專項組
執行各專案的落地實施和運營推廣,推動執行層的實施資料治理技術落地和專案進展。
4。2。3 執行層職責
資料架構師、資料治理專家和業務專員形成資料治理“鐵三角”,緊密協作,推進資料治理與資料架構落地。
1)業務專員
業務專員作為業務部門資料治理的介面人,在
標準
、
質量
、
應用
等領域組織業務人員開展工作
定義資料規則
保障資料質量
提出資料需求
2)資料治理專家
資料治理專家作為資料治理組成員,負責設計資料架構,運營資料資產;牽頭組織業務、IT達成資料治理目標。
構建資料邏輯模型
監控資料質量
運營資料資產
3)資料架構師
資料架構師作為IT開發部門的專家,承擔資料標準落地、模型落地的重任,協助解決資料質量問題。
資料標準落地
邏輯模型落地
物理模型落地
4。3 資料治理平臺
在確定了技術實施方案和組織管理架構,下面需要進行資料治理體系的落地實施。
在大型企業中一般會開發一個完整的
資料治理平臺
,囊括所有資料治理功能,對外提供平臺服務。
1)核心功能
資料治理平臺作為資料治理的產品體系,旨在保障資料平臺的資料是安全、可靠的、標準的、有價值的。
資料資產管理
:提供面向使用者的場景化搜素,提供全景資料資產地圖,方便快速查詢資產和資產分析
資料標準管理
:統一定製資料標準,提高包括欄位、碼值、資料字典管理,保障業務資料和中臺資料的統一標準
資料質量監控
:提供事前、事中、事後的資料質量體系,支援資料質量監控規則配置、告警管理等功能
資料安全
:提供資料安全脫敏、安全分級和監控
資料建模中心
:統一建模,提供業務系統建模和模型管理
2)元資料管理
元資料管理系統作為資料治理平臺的前端展示門戶,幫助實現對資料資產的
快速檢索
能力,提高資料使用有效性和效率。
透過建立完整且一致的元資料管理策略,提供集中、統一、規範的元資料資訊訪問、查詢和呼叫功能。
3)資料質量
資料質量監控:支援所有使用者進行資料質量監控規則配置
規則阻斷:配置資料質量監控阻斷規則,資料質量出現差異可實時阻斷下游作業執行,遮蔽錯誤結果鏈路擴散。
告警:資料質量出現預設偏差,及時發出預警通知及時修復
4)資料標準
支援定製統一的資料標準平臺,包括欄位標準管理,碼值標準管理以及字典管理,業務源資料和中臺資料統一標準。
5)資料安全
基於集團資料資產實現資料安全分級管理,自動識別安全資訊;提供資料訪問安全行為監測,及時識別訪問風險。
4。4 資料治理評估
資料治理平臺開發完成並執行,需要對整體資料治理體系的效果進行驗證和評估。
“1)資料是否可以消除“髒、亂、差”的現象
2)資料資產是否最大價值化
3)所有資料的血緣是否完整可追溯。。。”
1)資料資產
透過構建資料資產管理體系,實現資產全覆蓋,並支援全域性搜尋和精準定位目標資產。
實現全域性搜尋,面向使用者提供場景化檢索服務
支援標籤、資料地圖、表名和欄位名等多種檢索維度
支援進行資料地圖,源業務資料字典的結果篩選
比如支援PV/UV使用者搜尋和資產展示,明確服務目標
2)資料標準
新舊資料標準沉澱,打通了資料建模工具、資料標準庫和詞根標準庫,落地資料標準和詞根。
實現資料標準庫100%拉通
智慧識別資料標準和引用
客戶端同步更新資料標準、詞根
3)資料安全
保持
事前制度建設
、
事中技術管控
、
事後監控審計
的原則建立全流程資料安全管控體系。
基於以上資料安全管控體系,支援資料安全定級,構建靈活的資料安全共享流程。
4)資料質量
透過資料質量雷達圖,定期進行資料和任務質量打分,綜合考察資料質量效果。
資料完整性:檢視資料項資訊是否全面、完整無缺失
告警響應程度:日常管理、應急響應、降低影響;避免資料損毀和丟失
監控覆蓋程度:確保資料遵循統一的資料標準和規範要求
作業穩定性:監控作業穩定性,是否存在作業異常等問題
作業時效性:檢查任務對應的資料項資訊獲取是否滿足預期要求
5 資料治理的幾點誤區
1)資料治理是否要做得大而全
“這是一個經典問題,一般對於不同階段和規模的企業,資料治理的實施程度會有所不同。一般建議先根據自身的資料狀況分階段進行,避免盲目鋪開規模,過程中可調整。”
2)資料治理只是技術考慮的事情
“正如文中所說,資料治理不僅僅是技術團隊的事情,而是整個集團一起協作完成。其中就包括各業務線以及其他管理組織,沒有一個好的實施方案和協作機制,往往事倍功半。”
3)資料治理可以短期見效
“資料治理是個長期過程,會跟隨著企業資料的規模和數倉規劃的變更同步調整,部分功能可能會在短期內卓有成效,完整體系搭建短期很難實現。”
4)必須得有工具平臺,才能開展資料治理
“俗話說工欲善其事必先利其器,有好的工具當然是更好,前提是已經有了成熟的資料治理體系規劃和策略。工具和技術手段目前市面上很成熟,先把理論給鋪墊好。”
5)資料治理感覺很模糊?不知道最後的落地結果
“資料治理是一個長期工作,需要相關從業者根據企業的資料現狀和管理模式去構建和調整,建議邊做實踐邊總結歸納,小步慢跑是一個很好的方式。”
最後給大家分享一個大資料決策平臺構建方案,需要領取。