快訊:梅宏院士等:大數(shù)據(jù)技術(shù)的四大挑戰(zhàn)與十大趨勢(shì)

發(fā)布時(shí)間:2023-01-31 11:38:23  |  來(lái)源:通信世界全媒體”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于通信世界網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來(lái)源。
2、凡本網(wǎng)注明“來(lái)源:XXX(非通信世界網(wǎng))”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3、如因作品內(nèi)容、版權(quán)和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)進(jìn)行。
  

(CWW)日前,中科院院士梅宏聯(lián)合中國(guó)人民大學(xué)、華中科技大學(xué)、中科院計(jì)算技術(shù)研究所、中國(guó)科學(xué)院大學(xué)、北京理工大學(xué)多位專(zhuān)家,發(fā)布最新論文《大數(shù)據(jù)技術(shù)前瞻》。該文在計(jì)算體系重構(gòu)的背景下,指出了大數(shù)據(jù)技術(shù)發(fā)展的四大技術(shù)挑戰(zhàn)和十大發(fā)展趨勢(shì)。


(資料圖)

新型大數(shù)據(jù)系統(tǒng)技術(shù)的四大挑戰(zhàn)

挑戰(zhàn)一:如何構(gòu)建數(shù)據(jù)為中心的計(jì)算體系

全球大數(shù)據(jù)規(guī)模增長(zhǎng)快速,2020年全球新增數(shù)據(jù)規(guī)模為64ZB,是2016年的400%,2035年新增數(shù)據(jù)將高達(dá)2140ZB1,大數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。隨著數(shù)字經(jīng)濟(jì)的發(fā)展和數(shù)字化轉(zhuǎn)型的深入,愈來(lái)愈多的數(shù)據(jù)資源正以數(shù)據(jù)要素的形態(tài)獨(dú)立存在并參與數(shù)字經(jīng)濟(jì)活動(dòng)全過(guò)程。因此構(gòu)建以數(shù)據(jù)為中心的新型計(jì)算體系,以適用新的應(yīng)用環(huán)境。如何組織和管理超大規(guī)模的數(shù)據(jù)要素已經(jīng)成為一項(xiàng)難題:例如,針對(duì)大數(shù)據(jù)管理,面臨數(shù)據(jù)跨域訪(fǎng)問(wèn)帶來(lái)的各種問(wèn)題、系統(tǒng)規(guī)模持續(xù)增大帶來(lái)的可用性下降、維護(hù)大規(guī)模數(shù)據(jù)帶來(lái)的成本和能耗持續(xù)增高等嚴(yán)峻挑戰(zhàn)。

挑戰(zhàn)二:如何滿(mǎn)足大數(shù)據(jù)高效處理的需求

數(shù)據(jù)規(guī)模呈指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)動(dòng)態(tài)傾斜、稀疏關(guān)聯(lián)、應(yīng)用復(fù)雜,傳統(tǒng)大數(shù)據(jù)處理架構(gòu)數(shù)據(jù)處理成本高企、時(shí)效性差,如何滿(mǎn)足規(guī)模海量、格式復(fù)雜、需求多變的大數(shù)據(jù)高效處理需求是大數(shù)據(jù)處理面臨的重要挑戰(zhàn)。

挑戰(zhàn)三:如何實(shí)現(xiàn)多源異構(gòu)大數(shù)據(jù)的可解釋性分析

隨著數(shù)據(jù)量持續(xù)地爆炸式增長(zhǎng)和各類(lèi)應(yīng)用的不斷拓展與深化,基于深度學(xué)習(xí)的主流方法因其僅關(guān)注單源單模態(tài)數(shù)據(jù)且模型只知其然不知其所以然的特性已無(wú)法滿(mǎn)足發(fā)展需求。如何打破數(shù)據(jù)多源異構(gòu)造成的隔閡,融合多域甚至全域數(shù)據(jù)中蘊(yùn)含的知識(shí),實(shí)現(xiàn)分析結(jié)果的可解釋?zhuān)瑥亩嵘淇捎眯?,是?dāng)前大數(shù)據(jù)分析面臨的主要挑戰(zhàn)。

挑戰(zhàn)四:如何形成系統(tǒng)化大數(shù)據(jù)治理框架與關(guān)鍵技

針對(duì)大數(shù)據(jù)應(yīng)用過(guò)程中的對(duì)數(shù)據(jù)匯聚融合、質(zhì)量保障、開(kāi)放流通、標(biāo)準(zhǔn)化和生態(tài)系統(tǒng)建設(shè)的需求,大數(shù)據(jù)治理技術(shù)逐漸成為發(fā)展熱點(diǎn),然而當(dāng)前系統(tǒng)化的大數(shù)據(jù)治理框架尚未形成,開(kāi)放共享、質(zhì)量評(píng)估、價(jià)值預(yù)測(cè)等關(guān)鍵技術(shù)遠(yuǎn)未成熟,成為制約大數(shù)據(jù)發(fā)展的主要瓶頸。

大數(shù)據(jù)技術(shù)十大未來(lái)發(fā)展趨勢(shì)

趨勢(shì)一:數(shù)據(jù)與應(yīng)用進(jìn)一步分離,實(shí)現(xiàn)數(shù)據(jù)要素化

數(shù)據(jù)從一開(kāi)始是依附于具體應(yīng)用的。數(shù)據(jù)庫(kù)技術(shù)的出現(xiàn)使得數(shù)據(jù)與應(yīng)用實(shí)現(xiàn)了第一次分離。數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,不再依賴(lài)具體的應(yīng)用而存在。數(shù)據(jù)要素化的需求將推動(dòng)數(shù)據(jù)與應(yīng)用進(jìn)一步分離,數(shù)據(jù)不再依賴(lài)于具體的業(yè)務(wù)場(chǎng)景,數(shù)據(jù)以獨(dú)立的形態(tài)而存在于數(shù)據(jù)庫(kù)中,并通過(guò)數(shù)據(jù)服務(wù)向不同的業(yè)務(wù)場(chǎng)景提供服務(wù)。例如,人口數(shù)據(jù)庫(kù),可以向全部的涉及人口信息的業(yè)務(wù)場(chǎng)景提供服務(wù)。

趨勢(shì)二:數(shù)聯(lián)網(wǎng)作為數(shù)字化時(shí)代的新型信息基礎(chǔ)設(shè)施

將形成一套完整的數(shù)聯(lián)網(wǎng)基礎(chǔ)軟件理論、系統(tǒng)軟件架構(gòu)、關(guān)鍵技術(shù)體系,包括:針對(duì)數(shù)聯(lián)網(wǎng)軟件以數(shù)據(jù)為中心的特點(diǎn),需要從復(fù)雜網(wǎng)絡(luò)和復(fù)雜系統(tǒng)等復(fù)雜性理論出發(fā),研究數(shù)聯(lián)網(wǎng)軟件的結(jié)構(gòu)組成、行為模式和外在性質(zhì);針對(duì)數(shù)聯(lián)網(wǎng)軟件的數(shù)據(jù)傳存算一體化需求,需要采用數(shù)據(jù)互操作技術(shù)和軟件定義思想,研究數(shù)聯(lián)網(wǎng)軟件運(yùn)行機(jī)理、體系結(jié)構(gòu)與關(guān)鍵機(jī)制;針對(duì)數(shù)聯(lián)網(wǎng)軟件跨層級(jí)、跨地域、跨系統(tǒng)運(yùn)行帶來(lái)的可靠性、可用性、安全性等質(zhì)量挑戰(zhàn),需要以數(shù)據(jù)驅(qū)動(dòng)為手段,研究數(shù)聯(lián)網(wǎng)環(huán)境下保障服務(wù)質(zhì)量與保護(hù)質(zhì)量的原理、機(jī)制與方法。

趨勢(shì)三:從單域到跨域數(shù)據(jù)管理,促進(jìn)數(shù)據(jù)要素的共享與協(xié)同

數(shù)據(jù)為中心計(jì)算的核心目標(biāo)是數(shù)據(jù)價(jià)值的最大化,關(guān)鍵要打破“數(shù)據(jù)孤島”,實(shí)現(xiàn)數(shù)據(jù)要素的高效共享與協(xié)同。傳統(tǒng)數(shù)據(jù)管理局限在單一企業(yè)、業(yè)務(wù)、數(shù)據(jù)中心等內(nèi)部,未來(lái)大數(shù)據(jù)管理將從傳統(tǒng)的單域模式發(fā)展到跨域模式,跨越空間域、管轄域和信任域。但跨空間域造成網(wǎng)絡(luò)時(shí)延較高且不穩(wěn)定;跨管轄域造成數(shù)據(jù)與應(yīng)用異構(gòu),數(shù)據(jù)管理復(fù)雜度大大提升;跨信任域則要求具備容忍各類(lèi)惡意錯(cuò)誤的能力,跨域帶來(lái)的這些變化將為大數(shù)據(jù)技術(shù)帶來(lái)了新的機(jī)遇和挑戰(zhàn)。

趨勢(shì)四:大數(shù)據(jù)管理與處理系統(tǒng)體系結(jié)構(gòu)異構(gòu)化日趨明顯

體系結(jié)構(gòu)創(chuàng)新進(jìn)入“黃金十年”,圍繞不同數(shù)據(jù)處理特征的新型加速器(GPU、TPU、APU 等各種xPU)層出不窮,存儲(chǔ)器件快速發(fā)展,高速SSD、新型非易失內(nèi)存、新型計(jì)算網(wǎng)絡(luò)等成為大數(shù)據(jù)處理系統(tǒng)的重要硬件配置,計(jì)算與存儲(chǔ)的融合趨勢(shì)明顯。為極大程度發(fā)揮數(shù)據(jù)管理能力,大數(shù)據(jù)管理系統(tǒng)在存儲(chǔ)、網(wǎng)絡(luò)、計(jì)算等硬件上最大化挖掘新型硬件的處理能力。在處理上針對(duì)不同數(shù)據(jù)處理需求,配置不同計(jì)算與存儲(chǔ)硬件成為大數(shù)據(jù)處理系統(tǒng)的主流架構(gòu)。數(shù)據(jù)驅(qū)動(dòng)的計(jì)算架構(gòu)快速發(fā)展,從控制流到數(shù)據(jù)流到系統(tǒng)設(shè)計(jì)切換成為大數(shù)據(jù)處理系統(tǒng)從微觀(guān)到宏觀(guān)的重要體系結(jié)構(gòu)設(shè)計(jì)理念。

趨勢(shì)五:擴(kuò)展性?xún)?yōu)先設(shè)計(jì)到性能優(yōu)先設(shè)計(jì)

數(shù)據(jù)規(guī)模急劇增長(zhǎng),大數(shù)據(jù)處理需求越來(lái)越走向深度價(jià)值挖掘,數(shù)據(jù)處理計(jì)算愈發(fā)密集,數(shù)據(jù)管理與處理的成本成為大數(shù)據(jù)管理與處理系統(tǒng)的重要考量因素,傳統(tǒng)“以擴(kuò)展性?xún)?yōu)先”的大數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)將會(huì)被“以性能優(yōu)先”的系統(tǒng)設(shè)計(jì)所替代。Spark、Flink 等系統(tǒng)在大數(shù)據(jù)處理生態(tài)系統(tǒng)中的占有率明顯體現(xiàn)了這一趨勢(shì),圖計(jì)算(圖加速器、圖計(jì)算框架等)、深度學(xué)習(xí)框架(Tensorflow、PyTorch 等)等領(lǐng)域?qū)S么髷?shù)據(jù)處理系統(tǒng)的崛起也是這一系統(tǒng)設(shè)計(jì)理念在技術(shù)生態(tài)上的表現(xiàn)。智能化數(shù)據(jù)管理、近似計(jì)算等新興管理與處理方法成為性能優(yōu)先設(shè)計(jì)的重要技術(shù)手段。

趨勢(shì)六:近數(shù)處理成為突破大數(shù)據(jù)處理系統(tǒng)性能瓶頸的重要途徑

存算一體類(lèi)體系結(jié)構(gòu)技術(shù)快速發(fā)展,新型SSD等新型存儲(chǔ)贏(yíng)家功能愈發(fā)豐富,分布式計(jì)算系統(tǒng)邊緣能力迅速發(fā)展,以上三種體系結(jié)構(gòu)技術(shù)發(fā)展為大數(shù)據(jù)近數(shù)處理提供了良好的發(fā)展契機(jī)。近數(shù)處理體現(xiàn)在“存儲(chǔ)上移”(如在GPU、FPGA 等計(jì)算設(shè)備上集成HBM)、“算力下沉”(如在DRAM 內(nèi)存或者SSD 存儲(chǔ)設(shè)備上集成處理能力)、“分布擴(kuò)展”(如在云、邊、端分布式處理數(shù)據(jù),降低數(shù)據(jù)處理中心壓力)。

趨勢(shì)七:從單域單模態(tài)分析到多域多模態(tài)融合,實(shí)現(xiàn)廣譜關(guān)聯(lián)計(jì)算

傳統(tǒng)大數(shù)據(jù)分析技術(shù)大多僅聚焦于單一來(lái)源單一模態(tài)數(shù)據(jù),而實(shí)際應(yīng)用中往往要對(duì)來(lái)自不同來(lái)源不同模態(tài)(如文本、圖像、音視頻等)的數(shù)據(jù)進(jìn)行聯(lián)合分析,從而實(shí)現(xiàn)不同來(lái)源與不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)。此外,諸多領(lǐng)域的大數(shù)據(jù)往往具有重要的時(shí)空屬性,當(dāng)前研究對(duì)這類(lèi)信息的利用還不太充分。因此,探究能夠跨模態(tài)關(guān)聯(lián)、跨時(shí)空關(guān)聯(lián)的廣譜關(guān)聯(lián)技術(shù)是大數(shù)據(jù)分析處理的一個(gè)重要趨勢(shì)。

趨勢(shì)八:從聚焦關(guān)聯(lián)到探究因果,實(shí)現(xiàn)分析結(jié)果可解釋

如何讓大數(shù)據(jù)分析模型更加穩(wěn)定且具有可解釋性,從而使其分析結(jié)果對(duì)用戶(hù)而言變得更加可信、更為可用最好還能具備一定的可回溯性是大數(shù)據(jù)分析面臨的巨大挑戰(zhàn)。雖然已有因果推斷與可解釋性分析技術(shù)取得了一定進(jìn)展,但總體來(lái)說(shuō)尚處于起步階段,離實(shí)際應(yīng)用還有很長(zhǎng)一段距離。因此,從關(guān)聯(lián)到因果也是未來(lái)大數(shù)據(jù)分析技術(shù)的重要研究方向。

趨勢(shì)九:高能效大數(shù)據(jù)技術(shù)是可持續(xù)發(fā)展的關(guān)鍵

全球大數(shù)據(jù)的持續(xù)高速增長(zhǎng),尤其是碳達(dá)峰、碳中和目標(biāo)的提出,要求大數(shù)據(jù)技術(shù)棧必須走低碳高效、可持續(xù)發(fā)展的路線(xiàn)。例如云數(shù)據(jù)管理系統(tǒng)以資源共享、節(jié)能高效為主要特點(diǎn),將是未來(lái)大數(shù)據(jù)管理的主要基礎(chǔ)形態(tài);在云數(shù)據(jù)管理基礎(chǔ)上的全國(guó)一體化高能效大數(shù)據(jù)管理,可以進(jìn)一步由于算力和數(shù)據(jù)要素的大規(guī)模調(diào)度與流通,將成為未來(lái)大數(shù)據(jù)管理的主要方向,形成低碳發(fā)展新格局。

趨勢(shì)十:大數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和以開(kāi)源社區(qū)為核心的軟硬件生態(tài)系統(tǒng)將成為發(fā)展的重點(diǎn)

隨著大數(shù)據(jù)在各個(gè)領(lǐng)域應(yīng)用的迅速普及,標(biāo)準(zhǔn)化需求將不斷增長(zhǎng),與大數(shù)據(jù)流動(dòng)融合、質(zhì)量評(píng)估,及與行業(yè)、領(lǐng)域應(yīng)用密切相關(guān)的大數(shù)據(jù)標(biāo)準(zhǔn)將成為發(fā)展重點(diǎn)。開(kāi)源社區(qū)在大數(shù)據(jù)軟硬件生態(tài)建設(shè)中的地位不斷加強(qiáng),對(duì)開(kāi)源社區(qū)的主導(dǎo)權(quán)爭(zhēng)奪將成為各國(guó)技術(shù)、產(chǎn)品和市場(chǎng)競(jìng)爭(zhēng)的重要戰(zhàn)場(chǎng)。


關(guān)鍵詞: 數(shù)據(jù)中心 數(shù)據(jù)管理

 

網(wǎng)站介紹  |  版權(quán)說(shuō)明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com