讀而思
正在興起的新一代數據智能平臺需要具備云原生、AI增強、敏捷開發與應用、實時數據處理與分析四大核心能力。同時,在平臺架構層面,數據智能平臺的底層基礎設施、存儲與計算引擎、數據集成與開發、數據資產管理、數據應用與數據服務等模塊相比傳統數據平臺提出了更具體和更復雜的建模等要求。
北京愛分析科技有限公司
本文發表于《中國工業和信息化》雜志2022年6月刊總第46期
數據平臺是企業進行數據分析和數據應用,從而實現數字化轉型的核心基礎設施。通常,數據平臺包含數據采集與接入、數據存儲與計算、數據管理、數據分析與挖掘、數據服務等功能。
從業務的角度,數據平臺支撐了企業數字化轉型的各項需求,企業因此能夠實現精細化運營,從而降低運營成本、提高運營效率、提升創新能力。具體而言,通過數據平臺的應用,企業可以在業務中實現數據驅動,從而達成準確洞察用戶畫像和用戶需求、及時感知市場趨勢、降低管理和生產成本、設計和生產出更符合用戶需求的產品、更快地推出和迭代產品等目標。
近年來,面對市場環境的快速變化,以及政府對發展數字經濟的促進舉措,企業對數字化的價值的理解愈加深刻。在各行業企業或政府部門紛紛加快數據基礎設施建設的同時,數據在企業經營管理中的應用廣度和深度也隨之極大地擴展,由此帶來數據管理與應用的一系列問題和挑戰。如,數據規模持續膨脹,數據資產管理重要性提升;數據應用場景持續擴展,敏捷性、易用性、實時性、智能化要求提升;數據安全合規要求趨嚴。
數據基礎設施經過數十年的發展,已經依次經歷了三個階段:數據庫、數據倉庫、大數據平臺。
2019年之后,數字化轉型進入新階段,企業對數據應用的范圍從之前的管理層和部分業務人員擴展到了跨部門、跨企業的數據共享,需要進行大量面向業務、實時和智能決策的探索式、自助式分析,并且需要處理超大規模的多源異構和實時數據。變化帶來的新挑戰和新需求,傳統的數據平臺已經無法滿足,新一代的數據基礎設施就是要解決這些問題。
新一代的數據基礎設施——數據智能平臺,可以被定義為企業數字化運營深入階段的統一數據能力平臺,能夠對數據資產按統一標準進行管理以便數據可用,并滿足企業對數據應用的敏捷開發、實時響應、簡單易用、智能分析等需求,同時具備完善的數據安全機制。
基于對數字化轉型深入階段,企業在數據管理和應用中需要面對和解決的問題的理解,以及對一些行業領先企業在搭建數據智能平臺中的實踐案例的調研和經驗總結,正在興起的新一代數據智能平臺需要具備云原生、AI增強、敏捷開發與應用、實時數據處理與分析四大核心能力。
云原生是指在應用的設計階段就為了云的運行環境而設計,包含微服務、容器化、DevOps、持續交付等特征。云原生架構能夠為數據平臺帶來以下主要能力優勢:
一是云原生架構下大數據組件都是以容器化的形式來部署,企業因此能夠快速的開發、測試、迭代和上線大數據應用,并且方便了數據的共享和復用。
二是快速集成新的開發工具。企業經常需要在數據平臺中嘗試新的功能組件,由于主流的開源軟件基本都提供了容器化部署,因此能夠快速集成到云原生架構的數據平臺中。
三是降低系統復雜性和運維成本。在云原生架構的數據平臺中,Kubernetes、Mesos等工具能夠實現統一的資源管理和調度,這極大提高了系統復雜性,提高了運行效率,并且在數據平臺中部署和運行分布式系統也更加便捷。
四是輕松實現存算分離和彈性伸縮,降低使用成本。云原生架構能夠輕松實現計算和存儲資源的分離,企業因此可以按照需求分別使用存儲和計算資源,這降低了使用成本,也簡化了多云和混合云部署。
AI增強是指利用機器學習和人工智能技術使數據清洗與準備、數據分析與可視化、機器學習等分析過程中實現部分環節的自動化,從而節省大量的人力成本。AI增強的自動化能力主要體現在數據智能平臺運營過程中的以下環節:
第一個環節是數據清洗與準備:自動匹配、聯接、分析、標記和注釋數據,推薦用于連接、豐富、清洗數據的最佳方法,自動執行重復的轉換和集成,自動識別數據沿襲和元數據。
第二個環節是數據分析與可視化:自動查找和描述數據中的相關性、異常、聚類、關鍵驅動因素和預測等,自動生成圖表或報表,可視化或對話界面(NLQ&NLG)查找和分析數據。
第三個環節是機器學習:自動特征工程、自動模型選擇和參數調整、自動模型部署和監控。
數字化的核心目標之一是要能夠支撐企業的商業創新,尤其是當數據和數據應用的規模和復雜性越來越大的時候,企業要去嘗試各種新的數據應用,就需要數據平臺具備相應的敏捷響應能力。數據智能平臺的敏捷性主要包括了工具集成的敏捷性、數據開發的敏捷性、數據分析和應用的敏捷性。
工具集成的敏捷性。當企業需要嘗試新的數據應用時,經常需要用到一些新的分析框架,前面提到,云原生架構能夠為企業提供快速接入和部署新的工具或組件的敏捷化能力。
數據開發的敏捷性。數據開發的目的是使用各種工具,包括數據建模、數據探索、數據查詢、機器學習、數據可視化等,來完成數據分析。要實現敏捷的數據開發,通常需要企業構建一站式的數據集成和開發平臺,提供大數 據的匯聚、加工、服務、資產管理等全流程能力,并降低其使用門檻。
數據分析和應用的敏捷性。實現數據分析和應用的敏捷性數據平臺在底層數據管理和數據分析工具上有相應的功能設計,比如,通過建立標簽體系方便用戶將數據快速應用于業務,通過提供可視化的分析工具靈活地滿足用戶的分析需求,通過AI增強能力自動識別有價值的數據并推送給用戶等。
為了應對企業愈來愈多的實時性數據分析需求,數據平臺需要在以下層面具備實時性的數據處理能力:
實時的數據接入和數據采集。應用Kafkas RocketMQ等工具實現數據的實時采集。同時,對于核心業務系統數據,進行被動采集;對于用戶訪問行為習慣等數據,則會進行主動采集。
實時的數據計算與查詢?;贔link等實時計算引擎,以及指標計算、規則計算、模型計算等多種計算處理能力,構建數據平臺的實時計算和查詢能力。
實時的數據分發。通過Kafka實現靈活的數據分發,以承載不同用戶的實時業務。
流批一體。由于企業在業務分析中使用的數據范圍越來愈多地橫跨歷史數據和實時數據,需要數據平臺具備流批一體的能力,用一套邏輯描述流與批業務,用一個引擎也能處理實時和離線數據。
數據智能平臺主要由數據服務平臺、數據應用平臺、BI平臺、數據可視化平臺與Paas應用云平臺構成。
新一代的數據智能平臺的架構至少在離線數據處理、多租戶管理、存儲引擎、數據應用搜索與AI增強等五個層面具有區別于傳統數據平臺架構的特征。
數據智能平臺與傳統數據平臺的主要區別,如表1所示。
數據智能平臺建設涉及的核心環節主要包括頂層戰略規劃、應用場景規劃、基礎架構設計、數據規范與數據架構設計、組織與人員規劃等方面。
數據智能平臺是支撐企業數字化轉型的新一代數據基礎設施,是企業各部門各業務線共同的數據平臺和數據服務體系,因此,數據智能平臺的建設的核心目的是服務于企業的整體戰略目標和業務目標。
同時,數據智能平臺的建設不僅僅涉及技術架構,還會涉及企業的業務模式和組織架構,因此企業應當以頂層戰略為起點,根據業務目標規劃數據智能平臺的建設藍圖與路徑。
此外,傳統企業的部門墻問題明顯,要實現各部門間的溝通協作,共建數據智能平臺,需要企業決策層在組織架構和資源方面給予統一的調配和支持。
數據智能平臺的價值最終需要通過業務場景中的數據應用來體現,因此,平臺建設必須應用場景規劃先行,數據智能平臺應用場景規劃需要考慮以下關鍵因素:
評估企業業務需求和數據現狀。從具體的業務需求場景厘清相關的業務線、相關崗位和業務流程,梳理其中的業務需求。同時,對企業的數據資產進行評估,厘清企業有哪些數據、需要補充哪些數據等。
明確場景實現優先級。企業需要基于企業戰略與業務目標,針對可實現的業務價值、數據應用的實現成本、數據應用的可行性等方面進行評估,確定哪些優先級和緊急度比較高的場景可以應用數據平臺解決業務問題。
調研和參考外部案例。企業在建設數據平臺前應當盡可能多地進行相關調研,并參考同行實踐案例,總結相關經驗。同時,可以借助有成熟經驗的數據平臺建設廠商幫助企業解決相關問題。
好的基礎架構設計能夠讓項目快速落地,并支持在現有系統上快速開發新功能、引入新數據,而一旦選擇某個技術架構并開始實施,后面出現問題再來修改的成本很高。構建新一代的數據智能平臺需要在基礎架構設計上考慮以下要 點:
第一,引入云原生架構,以便快速開發、測試、上線和迭代數據應用,同時滿足在工具集成、系統運維、以及存儲和計算資源上的各種敏捷性要求。
第二,應用多種數據處理引擎應對多樣化的數據分析場景需求,重點是為平臺構建智能化和實時化的數據處理能力。
第三,對數據和數據應用資產進行統一的管理,避免數據資產不明確、使用復雜、效益低下等問題,方便數據資產的使用、共享和復用。
為了保證用戶能夠在數據平臺中快速找到自己所需的數據,企業需要對數據架構,即數據的組織方式,以及數據規范,即數據平臺中輸入和輸出數據的規范,進行合理的設計。
一方面,企業需要根據業務目標及業務流程設計平臺的數據架構,包括平臺提供的明細數據、匯總數據、數據分析結果、 數據服務等。
另一方面,對數據平臺的輸入數據和輸出數據進行統一規范,如在所有業務系統中使用統一的全局ID,用原子指標、統計顆粒度、業務限定等維度來派生指標名稱,構建指標體系。
數據智能平臺的能力與業務高度相關,因為平臺的搭建需要IT部門、數據部門、以及各業務部門溝通協調,對人員進行統籌安排。根據企業數據能力現狀,在集中式和去中心化兩種人員模式中選其一。
集中式模式:組建一個專門的數據智能平臺團隊,由該團隊負責所有數據能力的規劃和開發。該模式的好處在于數據能力的規劃和實現比較直接,能夠快速落地,難點在于需要團隊理解業務。該模式適合公司業務體系相對簡單,且軟件在企業內部只是輔助工具的傳統型企業。
去中心化模式:由傳統的數據平臺團隊搭建底層的平臺,各業務部門在平臺上開發和使用所需的數據應用。該模式好處在于業務部門對業務最理解,能夠開發出最滿足業務需求的數據應用,且后續迭代也更方便;難點在于需要處理好部門分工和協調的問題。該模式適合業務線龐雜、業務定制化需求較多的大型企業。
轉載自:中國工業和信息化