導讀:隨著大數據的深入發(fā)展,數據越來越成為公司的重要資產,但圍繞數據流的全鏈路管理工作細致且技術復雜,數據的治理越來越成為DT時代數據資產化、價值化的關鍵核心,該如何成體系地構建數據治理框架?今天將介紹阿里巴巴在數據治理上的一些實踐和總結。主要包括以下兩方面內容:
01
數據治理概念和需求層次
1. 數據治理的理論參考
數據以及數據領域經過多年的發(fā)展,行業(yè)已經沉淀了較為完善的理論體系,比如數據管理協(xié)會DAMA推出的數據十大職能領域、DCMM推出的數據管理能力成熟度評估,以及國內信通院推出的數據資產管理實踐白皮書。這些指導標準,不但有利于產業(yè)發(fā)展的高度,同時也使得行業(yè)朝著更加規(guī)范、健康的方向發(fā)展。
國際上的標準更加側重于對完整的數據生命周期進行管理,而國內則更加注重從組織、制度、流程、技能角度,對數據進行不同視角下的解讀和處理。
2. 數據治理的概念和需求層次
在數據的管理過程中,要保證一個組織已經將數據轉換成有用的信息,在這個過程中所需要的流程、工具就是數據治理的主要內容。
隨著數據行業(yè)的發(fā)展,數據治理的內涵也逐步泛化,涵蓋了更多的方面和層次,比如數據發(fā)現可用,數據及時穩(wěn)定產出,數據質量保障,數據安全合規(guī),數據生產的經濟性等。對于企業(yè)的不同發(fā)展階段,數據治理的需求也存在著差異。
- 時效:對于自有數據產生系統(tǒng),數據生產的時效問題,決定了后續(xù)所有的數據處理的及時和數據的價值。比如理財方面,股市開放時間內,每天都會計算營收情況,如果數據產生不及時,會造成用戶的困擾和可能的利益損失。
- 質量:主要從數據自身屬性和特點的角度,來衡量數據可靠的一些標準,包含了準確性、完備性、唯一性、一致性、有效性等。
- 可用:數據的接入和加工完成后,就是數據發(fā)揮價值的環(huán)節(jié),即數據要容易被查詢到,并且能夠被理解。另外一個比較重要的點是可復用,復用可以放大數據價值。
- 安全:談到數據,就會涉及安全性,主要包括數據權限的管理,敏感數據的處理與應用,以及滿足各種數據政策和法規(guī)的要求。
- 經濟:在數據的生產、處理,以及價值挖掘等環(huán)節(jié)相對完善之后,圍繞數據體系的經濟特性,將會是企業(yè)的重點考慮方向。
—
02
企業(yè)數據治理痛點、阿里巴巴數據治理實踐
1. 企業(yè)數據治理的典型痛點
隨著國家數字化政策的引導和推動,企業(yè)越來越重視數據,但企業(yè)的數據治理成效方面依然進展緩慢,數據問題依舊存在,其中缺少系統(tǒng)化的工具平臺支撐治理落地和效果展現是關鍵原因之一。
- 數據治理咨詢成果落地不足:數據治理產出成果,比如各類規(guī)范和管理辦法,包括數據字典,多以“紙面文件”的形式流轉與企業(yè)中,與實際業(yè)務和數據沒有緊耦合,能滿足“我有”,但是沒能做到“我執(zhí)行”。
- 自動化服務程度不高:業(yè)務人員使用數據更多需要數據和技術人員的貼身服務,按照IT建設的模式提出數據加工需求或者取數需求,以被動支持的方式滿足業(yè)務需求,沒有形成數據資產目錄、數據服務目錄。
- 數據治理在線管理能力不足:依賴貼身服務,業(yè)務人員難以借助工具自行完成。缺少靈活友好的數據治理在線管理工具來支持數據治理全流程工作,數據治理與數據原倉之間沒有打通“數據的描述”和“數據的記錄”兩張皮。
- 數據治理成效可視度低:缺少量化方式來評估數據治理成熟度水平,數據治理工作的推動成效無法體現,變成了純手動的臟活累活,嚴重影響數據治理工作的開展推進。
治理中的痛點有很多,往往是由于認識不足導致的,尤其是思維方式。信息技術的飛速發(fā)展,使得信息的架構已經從傳統(tǒng)基于需求的IT架構發(fā)展為基于數據的DT架構,思維方式也需要相應地升級到圍繞數據資產化、數據價值釋放為核心的新模式。
2. 阿里巴巴數據治理新模式
不同模式下思考和解決問題的方式存在著很大的區(qū)別,模式的改變主要包括以下三個方面:
- 變思維:轉變傳統(tǒng)思維定式,從IT思維向DT思維轉型
- 變模式:工具和技術是生產工具,數據才是核心,IT流程不是核心
- 變定位:擺脫成本中心泥潭,通過運營數據資產,探索如何成為利潤中心
基于DT架構的思維模式,結合數據發(fā)展的階段不同,阿里巴巴形成了一套自己的數據治理模式:
- 數據穩(wěn)定性與質量治理:解決數據產出及時性和準確性問題
- 數據規(guī)范治理:解決數據口徑一致性問題
- 數據安全治理:解決數據權限控制與數據共享交換問題
- 數據成本治理:解決數據計算和存儲成本高昂問題
① 數據穩(wěn)定性
阿里巴巴每天有千萬級大數據計算任務產生海量數據,千萬級任務的調度情況下,調度依賴關系復雜程度遠超過人工處理程度,阿里推出了智能基線監(jiān)控機制確保高優(yōu)先任務高保障產出。
- 智能識別(DAG)關鍵路徑,合理設定告警閾值
- 任務異常產生事件,自動評估事件影響范圍,通知相應人員
- 靈活告警方式配置,支持釘釘群機器人、電話
② 數據質量治理
數據質量直接影響數據價值和加工效率,高質量的數據對完整性、有效性、準確性、唯一性、一致性、合理性等特性有很高的要求。阿里巴巴將這些特性封裝成靈活的規(guī)則,然后將規(guī)則應用到具體的任務,通過調度平臺,進行規(guī)則巡檢和規(guī)則執(zhí)行,并對有問題的任務進行告警或者阻塞處理。其關鍵特點如下:
- 質量監(jiān)控與調度掛鉤,第一時間發(fā)現問題,避免上游臟數據污染下游數據,大大減小影響面。
- 40+規(guī)則&自定義規(guī)則,精細化質量控制。
- 無需設定閾值,算法自動判斷異常值。
- 故障快速恢復。
③ 數據規(guī)范治理
數據在實現層面以表為單位進行,阿里巴巴圍繞數據生產使用全生命周期,在指標體系設計、數據模型設計、數據處理任務開發(fā)、數據服務開放等環(huán)節(jié)的每個關鍵階段都設計具體標準、流程及規(guī)范,同時抽象核心公共層,進行強管控:架構評審,發(fā)布管控,建設評估,持續(xù)改進。而對核心以外的部分,采取輕約束的方式推進。
④ 數據標準管理
數據的標準,主要是落實到開發(fā)層面的具體規(guī)范約束,比如制定各類數據實體(元素、碼表、模型分層、模型等)的設計約束,規(guī)范每類業(yè)務實體包含的屬性,屬性是否必須,屬性內容約束等規(guī)則。
具體如圖所示:
⑤ 數據安全治理
隨著數據安全問題頻發(fā),人們對數據的安全意識越來越強烈,數據安全治理也越來越關鍵。阿里巴巴通過基礎的數據分級、權限控制來達到規(guī)范安全使用數據的目的,并通過敏感數據發(fā)現與脫敏,與第三方協(xié)作時構建可信計算環(huán)境(即聯(lián)邦建模),以及數據的風險審計來搭建數據安全的完整體系。
其中對數據的分類,面向阿里龐大的數據體量,使用人工的方式很不現實,阿里自建了一套自動的數據打標工具,集合人工調整的方式,更合理地管理數據的分類分級體系。
⑥ 數據成本治理
通過設立組織大的成本目標,然后通過培養(yǎng)個人的成本意識,在數據的計算與存儲、治理與運營層面建立具體目標去細化和落地,來推進數據治理方面的成本管理。比如阿里巴巴2020年成本治理的目標:數據成本增速不能超過業(yè)務增速。
3. 阿里巴巴數據治理的成功關鍵
數據治理是一個非常龐大且細致的工作,阿里數據治理方面的成功主要源于上圖三個方面。
DT時代的核心思維就是數據的資產化,阿里將數據的資產化以及圍繞數據資產的價值的挖掘作為治理的核心目標。
從自上而下來看,站在全公司的高度來頂層設計,著手解決數據的管理問題,提供足夠的授權和支持。
從下而上來看,通過構建強大的技術平臺支撐和完善的運營體系兩個方面促進治理的切實落地。
- 一套組織體系與制度
阿里構建了以數據管理團隊負責人、業(yè)務線數據負責人、數據平臺負責人為核心的虛擬數據治理小組,從組織上劃分清洗數據治理的權責邊界, 并且從管理辦法、管理流程、技術規(guī)范及模板等建立起完整的數據治理制度保障。
- 一部數據資產管理方法論:按照數據運營思想貫穿數據建設的全過程。
- 一組平臺工具支撐
強大的平臺能力支撐是治理落地的核心保障,技術的創(chuàng)新和演進是數據治理落地的堅實基礎。阿里自研了DataWorks和MaxCompute兩個平臺,支撐全司的數據治理落地。
DataWorks:阿里自研的一站式大數據開發(fā)和治理平臺,各類存儲和計算引擎的上層操作系統(tǒng),提供數據集成、數據開發(fā)、數據地圖、數據質量、數據安全和數據服務等全方位的產品服務,幫助企業(yè)專注于數據價值的挖掘和探索。
MaxCompute:自研、全托管、EB級大數據存儲和計算引擎,阿里自研的安全可靠、高效能、低成本、從GB到EB級別按需彈性伸縮的在線大數據計算服務,致力于海量結構化、半結構化數據的存儲和計算服務,提供數據倉庫的解決方案及分析建模服。
- 運營落地
組織、制度、平臺有了之后,推動數據治理落地最后一公里的治理運營是成功的關鍵因素。阿里巴巴構建了量化的治理的評價體系(健康分)、日常治理運營推送和專項整治活動密切結合。
構建量化的數據治理評價體系,日常治理運營和專項整治相結合,促進治理工作持續(xù)落地改進。
今天的分享就到這里,謝謝大家。
分享嘉賓:吳永明 阿里云 高級技術專家
編輯整理:Taylor 東南數據實驗室
出品平臺:DataFunTalk
分享嘉賓:
活動推薦:
關于我們:
DataFun:專注于大數據、人工智能技術應用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創(chuàng)文章700+,百萬+閱讀,14萬+精準粉絲。
歡迎轉載分享評論,轉載請私信。