來源?| 大數據技術標準推進委員會
近年來,我國大數據產業一直處于持續向上向好的態勢。中國信通院作為行業智庫和產業創新發展平臺,始終通過行業研究與各位同仁同頻共振,梳理和總結發展的趨勢、面臨的挑戰,形成體系化的觀察。
今年上半年,中國信通院圍繞技術、管理、安全、應用、數據要素、流通交易等環節開展研究。在2023大數據產業發展大會主論壇上,中國信通院云計算與大數據研究所大數據與區塊鏈部主任姜春宇進行了題為大數據產業發展觀察的演講。
上圖為我國大數據相關政策演進趨勢:2014年,大數據首次被寫入中國政府工作報告。2015年,國務院印發《促進大數據發展行動綱要》,這是中央政府在數據政策領域的第一槍。2016年,工信部《大數據產業發展規劃》發布,標志著這一產業首次擁有了自己的五年發展規劃。時至2020年,我們可以看到,大數據產業蓬勃發展,尤其是其技術、產品和服務能力均得以不斷提升。
這五年的時間是夯實基礎的五年,大數據連續六年寫入政府工作報告,這是非常獨特的經歷,相比之下,云計算、AI等技術均沒有像大數據一樣得到如此多的關注。2019年,十九屆四中全會《決定》首次將“數據”列為生產要素,這是一個重要的里程碑事件。
如果說在過去的六七年時間里觀察數據都是以技術思維和技術視角看待,那么從2019年開始則將其真正作為數字世界和數字經濟的核心生產要素以及數字世界的承載加以對待。
圍繞數據要素還有一系列相關文件發布,2022年,國務院發布“數據二十條”,構建數據基礎制度體系,并將其作為系統部署數據制度的“四梁八柱”。
過去的十年,我們對數據有了不同的認識,發現數據相比于土地、勞動、資本等其它生產要素具有自己獨特的特點。由于其獨特的特性,現有的很多制度體系都無法匹配,我們對它不能像對待傳統的知識產權、軟件、土地等生產要素一樣。去年的“數據二十條”主要是構建適應數據的基礎制度體系,其中包括四點:
數據產權制度,在“數據二十條”中提到了三權分立,雖然我們對數據擁有所有權,但它卻并不被我們控制,那么如果企業需要使用的話怎么區分?所以就要有三權分立的產權制度體系。
流通交易制度,其實這種體系一直在運轉,包括廣告和征信。數據交易所誕生以前,數據已經在流轉,中央提出流通交易機制就是構建場內和場外結合的流通機制。
收益分配制度,如何讓人民享受到數據紅利,這里提到了分配制度如何傾斜的問題。
安全治理制度,所有一切數據利用的前提都是安全的保護,所以數據在一個企業內部流轉時保護起來相對容易,但在多個跨主體、跨領域、跨行業流動時,安全治理體系如何構建?可以說這是一個很艱巨的任務,因為信任很難實現。
大數據產業經過多年的發展,現在已經進入“十四五”發展階段,整個態勢非常好、動力非常充足,產業規模達到1.57萬億,數據產量是ZB級別,很多企業數據規模都是PB,國家層面是ZB級別,論文專利也是在全球處于領先地位,和數據有關的市場主體超18萬家,高校數據領域的課程也逐漸豐富起來。
圍繞以上五個方面,我們都有一些認識。數據計算與存儲就是數據基礎設施,管理也是一個新的方向,頭部行業實現數據管理,再向各個行業全域轉型,點對點流通路徑已經初步探索完成,全社會范圍的規范化流通正在探索,支撐高層領導的應用體系已經初步完成,但很多企業和機構探索的都是如何賦能整個企業各級別的人員,尤其是一線人員,以及如何讓數據更加平民化、貼近前端,這最早是由法規推動,現在是雙驅動,也就是內生安全需求和外部合規要求,如何將安全體系嵌入業務治理也十分重要。
數據基礎設施發展了十多年,從2006年算起已經將近二十年,大的基礎設施創新已經完成,還有一些點狀創新,整個產業前景持續向好,安全穩定已經成為焦點。
當前整個基礎設施呈現三個特點:云化改造全面加速,尤其是國際視角,這是因為國際公有云占有率非常高,并且云原生和Serverless均極具彈性和云化的能力。融合一體持續加深,如何把數據技術紛繁復雜的體系規劃到一個比較簡單的、容易運維的體系?我們經常講融合,這是為了簡化我們的運維負擔。內生安全快速補強,這里包括全密態數據庫、內置敏感識別和內置防火墻。
最近兩年非常明確的一個發展趨勢就是降本增效,互聯網大廠都在這樣做,地主家里也沒有余糧了,大家都在想著如何降低成本。我們跟很多大型互聯網企業聊,他們的主題也都是降本增效。以前很多基礎設施都是各個業務團隊自己維護,現在大型央企國企都想打造統一的基礎設施來降低成本。院里正在進行《湖倉一體成熟度模型》和《批流一體成熟度模型》,指導大家實現多個平面、多個計算引擎向統一的基礎設施演化。
在精細化運營方面,很多機構建立統一基礎設施以后就要想著成本分攤,利用資源就應該記帳,不然的話資源還會進一步浪費,云原生提升資源利用率的技術正在發生,這些舉措都是為了提升閑置資源的利用率。
AI賦能的相關技術正在蓬勃發展,向量數據庫、圖智能和面向數據要素流通的一系列加密數據庫都在發力。
我們除了降本增效之外還關注穩定和安全,數據容災、備份、多個層面的數據冗余非常關鍵,這其中包括的全敏隱私計算也非常重要。
數據管理從2019年以來迎來了新的熱潮,通信、制造和金融都有大量數據治理、數據管理相關的政策。數據管理確實很辛苦,也確實很漫長,很多機構做著做著就不想做了,投入太長,見效太慢。但有幸的是,現在國家層面DCMM數據管理成熟度模型的貫標體系促進了很多行業對數據管理的認知,增強大家在這方面的工作力度投入,目前已經完成了1000多家企業的貫標和評估。頭部企業數據治理和數據管理工作進入深水區,低垂的果實已經被摘完,剩下的都是老大難的活,可能動一下就會對企業有很大影響的問題。
企業管理包括幾個特點:成立專職團隊,數據管理部門在大型央行已經獨立,跟IT部門、科技部門并列,運營商領域也是一個很大的團隊,其中有上百人甚至上千人支持,所以數據團隊的職業化和專業化是一個大的趨勢。數據戰略從IT分化出來,尤其是DCMM明確提出具備獨立數據戰略相關工作,很多機構都在開展自己獨立的數據戰略。開展專項行動,進一步提升數據供給質量。建立統一技術平臺,消除協同難點。
在數據管理發展趨勢方面,DCMM已經發展成為中國數據管理方法論,共有1100多家機構完成DCMM貫標,74%的企業都是二級水平,這說明大家的提升空間還比較大,三級到四級占到25%左右,四級以上只有5%,優秀的數據管理機構還是鳳毛麟角。銀行、證券、保險和大型運營商、央國企都是數據管理的主力軍,大家紛紛開展了相關的工作。
DataOps數據開發治理一體化能力會重塑整個數據開發范式,前幾年主要是理念,從今年開始,參與整個標準和實踐的機構越來越多,可能有上百家機構都在踐行DataOps的相關理念和實踐。我們自己推出的標準框架已經在農行、工行、中國移動做了相應的驗證。
數據治理向數據資產化躍進,從資產的角度思考,這能夠讓高層認識到數據除了一些問題之外還有很多價值。我們通過七年的時間構建《數據資產管理實踐白皮書(6.0版)》、提出數據資產運營的標準,就是為了讓業務甚至外部機構都能感知到,我們不光側重于治理,還關注持續運營。我們還要建立數據資產估值體系,目前這套標準我們雖然具備,但是很難標準化,因為數據對于每個企業而言都是個性化方案,只能通過評估更多案例來優化評估指標。
數據流通要素市場構建已經進入高速發展階段,隨著數據局的成立,相信會有很多相關基礎制度得以逐一落實。流通規則就是四梁八柱,我們需要知道該干哪些事情。流通技術體系也在不斷完善,包括很多控制技術、加密技術也都會逐步完善起來。之前我們認為隱私計算是足夠的,現在發現其實并不夠,需要一攬子的數據流通生命周期體系。
供需對接在向多行業擴展,很多央國企都有加入數據要素流通的探索環節,我們大家一起來探索數據流轉和產品對外賦能。整個數據產品形態正在轉變,最早提供的都是標準化產品,后來慢慢地有了大量定制化需求。我們相信這只是一個過程,未來的走向肯定還是標準化,從標準到定制再到標準的整個過程都是要有旅程的。
在數據流通發展趨勢方面,公共數據是一個很大的前景,政府端一定會盤活公共數據的授權運營工作,北京、成都、海南都在積極探索公共數據的授權運營,其中存在一系列的挑戰和問題,授權的規則和流程、價格機制,收益分配、安全保障等仍需繼續探索。我們在TC601成立公共數據運營工作組,探討相應的標準問題。
廣告、征信是當前最大的商業數據流通場景,國內個人征信涉及大概400多億,而美國在這方面則擁有1000多億美金的市場。企業查詢核驗也有很多,現在還有一類就是將AI用于大模型訓練數據,接下來將會熱起來。場外流通體系不依靠交易所,場內數據交易所正在構建自己的發展體系。
我們認為,信任與合規體系是整個商業數據流通和交易的核心,數據采購方需要構建外部數據引入和管理的能力,數據輸出方需要構建數據產品上線合規審計機制,其中包括對數據合作方的安全能力要求,這可能是數據泄露的短板,以及包括數據API治理能力要求。
個人數據的主要想法是把散落在各個APP的數據讓一個統一的賬號號管理,這個想法相當于把個人數據使用授權的能力歸還給個人。我們使用數據的過程中要把隱私要求嵌入進去,落實Privacy By Design,考慮到隱私合規的要求,這套理念非常重要。
我們可以看到,逐漸形成了一整套可信數據流通技術體系,包括數據接入、傳輸、計算、銷毀,隱私計算只是其中的一小部分,還需要一系列技術配合。
目前我們也在暢想,未來數據流通會不會形成一個網絡,現在看到的都是點對點和中心化的,未來會不會變成自來水一樣連通?因此,我們提出可信數據流通網絡的暢想和倡議。
數據應用發展需要經歷三個階段:圖表統計屬于基本分析方法,起輔助決策的作用;數倉常態化和體系化主要需要借用數據挖掘和BI分析,起增強決策的作用;自動決策的實現則是通過BI+AI的方法,以及全域、敏捷、嵌入式的數據湖+外部數據的能力。
當前,第二階段仍是數據應用的主流,最近兩年,尤其是今年,頭部機構普遍提到數據業務化賦能。大家都認為自己的管理體系包括數據平臺能力已經具備,但業務感知、數據賦能的要求卻還是差強人意,所以這是當前一段時間很重要的環節,即數據應用的進一步提升。
在數據應用發展趨勢方面,AI技術帶來了新的分析變革,以ChatGPT為例,只要我們把論文輸進去便可以將其核心思想和要點都歸納出來,因此,AI增強分析可能是接下來會顛覆傳統BI的方向。與此同時,企業組織架構也在發生變化,無論是一汽的數據管家還是交通銀行的數據經理BP模式,都需要考慮如何讓業務更加理解數據的問題。此外,數據分析的平民化一定要賦能到企業的每個小細胞,同時還要注重數據倫理體系建設,這樣大家才可以形成比較普遍的道德規范。
在數據安全方面,發展基礎不斷夯實,當前呈現三大特點:建設思路走向體系化治理,一站式解決方案成為數據安全主流服務形態,數據分類分級成為全行業的關注焦點和落地難點。并且,我們可以看到,與數據分類分級相關的政策標準在業界中最多,同時也最難,一旦分級便會出現很多問題。
數據安全發展趨勢包括三個方面:數據安全治理能力建設需求迫切,治理框架初步搭建,供大家參考。數據分類分級進入大范圍落地,這是我們梳理的七步方法論,雖然數據分類分級工具逐漸成熟,但是大家要認識到分類分級的體系、規則和效果并不是一蹴而就,而是迭代、緩慢的過程。隨著國標發布,數據安全風險治理提上日程,為防范數據泄露、數據篡改等安全事件的發生,落實數據安全風險的源頭管控成為重點。因此,我們提出數據安全風險治理體系,涵蓋風險準則建立、風險要素識別,風險評估分析,風險處置解決,風險治理改進等環節。
總結來說,在數據基礎設施方面,整體創新已經完成,接下來是圍繞降本增效、面向大模型、數據要素和安全能力的點狀創新。
在數據管理方面,隨著整體意識的激活,DataOps已經成為迫切需求。在數據流通方面,由于公共數據是當前熱點,地方實踐集中在這個部分;商業數據需要構建場內外結合體系,個人數據使用之道需要個人數據賬號與隱私工程探索,可信數據流通技術體系目前已經初步形成。在數據應用方面,AI技術的增強會帶來一個新的變化,企業組織架構需要圍繞數據進行新的調整,數據分析能力在向平民化演進。在數據安全方面,數據安全防線評估和治理提上日程,體系化的數據安全治理能力成為大多數企業的選擇,數據分類分級開始大范圍落地,方法論和工具逐漸成熟,但仍需大量的迭代和優化工作。
來源:大數據技術標準推進委員會